WizardLM 2: A próxima geração de modelos de linguagem de grande escala de ponta da Microsoft
Published on
A Microsoft recentemente introduziu e tornou open-source o WizardLM 2, sua próxima geração de modelos de linguagem de grande escala (LLMs) de última geração. Essa nova família inclui três modelos de ponta: WizardLM-2 8x22B, WizardLM-2 70B e WizardLM-2 7B, que apresentaram melhorias no desempenho em conversas complexas, multilinguismo, raciocínio e capacidades de agente.
A Evolução do WizardLM
O WizardLM 2 é o mais recente marco no esforço da Microsoft para ampliar o treinamento pós-processamento do LLM. No último ano, a empresa tem iterado no treinamento da série Wizard, começando com seu trabalho na capacitação de modelos de linguagem de grande escala para seguir instruções complexas. Em seguida, eles aceleraram a evolução para cenários de raciocínio de código e matemática. Como resultado, o Evol-Instruct e o Aprendizado por Reforço Supervisionado de Instrução e Processo (RLEIF) tornaram-se tecnologias fundamentais para a comunidade GenAI.
Modelos do WizardLM 2
A família WizardLM 2 consiste em três modelos:
- WizardLM-2 8x22B: O modelo mais avançado da Microsoft, é o melhor modelo LLM open-source em sua avaliação interna para tarefas altamente complexas.
- WizardLM-2 70B: Este modelo alcança capacidades de raciocínio de alto nível e é a primeira escolha em sua categoria de tamanho.
- WizardLM-2 7B: O modelo mais rápido, alcança desempenho comparável aos modelos líderes open-source existentes que são 10 vezes maiores.
Visão Geral do Método
À medida que os dados gerados por humanos se esgotam cada vez mais, a Microsoft acredita que os dados cuidadosamente criados por IA e modelos supervisionados por IA serão o único caminho para uma IA mais poderosa. Para alcançar isso, eles construíram um sistema de treinamento sintético totalmente alimentado por IA.
Pré-processamento de Dados
O pipeline de pré-processamento de dados consiste nas seguintes etapas:
- Análise dos Dados: Esta etapa ajuda a entender a distribuição de diferentes atributos nos novos dados de origem.
- Amostragem Ponderada: A distribuição dos melhores dados de treinamento nem sempre é consistente com a distribuição natural de corpora de conversas humanas. Portanto, os pesos de vários atributos nos dados de treinamento são ajustados com base na experiência experimental.
- Aprendizado Progressivo: Ao contrário da prática comum de usar todos os dados para um único treinamento, a Microsoft descobriu que usar diferentes partições de dados e treinar progressivamente em estágios pode alcançar melhores resultados com menos dados.
Laboratório de Evol
O Laboratório de Evol é responsável por gerar pares [instrução, resposta] mais diversificados e complexos. Ele consiste em dois componentes principais:
- Evol-Instruct: Este método permite que vários agentes gerem automaticamente instruções de alta qualidade.
- Evol-Answer: Orientar o modelo a gerar e reescrever respostas várias vezes pode melhorar sua lógica, correção e afinidade.
AI Align AI (AAA)
AI Align AI (AAA) é um framework que reúne WizardLMs e vários modelos de última geração para coensiná-los e melhorar uns aos outros. Ele consiste em dois componentes principais:
- Coensino: Os modelos se envolvem em conversas simuladas, avaliação de qualidade, sugestões de melhoria e fechamento de lacunas de habilidade para ensinar e melhorar uns aos outros.
- Autotreinamento: O WizardLM pode gerar novos dados de treinamento de evolução para aprendizado supervisionado e dados de preferência para aprendizado por reforço por meio de aprendizado ativo a partir de si mesmo.
Aprendizado
O processo de aprendizado envolve três etapas principais:
- Aprendizado Supervisionado: Os modelos são treinados usando dados rotulados.
- Estágio DPO: Para um aprendizado por reforço offline mais eficaz, os dados de preferência são divididos em diferentes partições, e o modelo é progressivamente aprimorado estágio por estágio.
- RLEIF: Esta abordagem utiliza modelos de recompensa de qualidade de instrução (IRM) combinados com modelos de recompensa de supervisão de processo (PRM) para alcançar maior precisão na correção no aprendizado por reforço online.
Capacidades do WizardLM 2
Para avaliar o desempenho do WizardLM 2, a Microsoft realizou avaliações humanas e automáticas, comparando seus modelos com diversas referências. Os resultados mostram que o WizardLM 2 demonstra um desempenho altamente competitivo em comparação com obras proprietárias de ponta e consistentemente supera todos os modelos open-source de última geração existentes.
Avaliação de Preferências Humanas
Em uma comparação pareada cega, os modelos WizardLM 2 foram avaliados em relação a referências usando um conjunto complexo e desafiador de instruções do mundo real. Os resultados mostraram que:
- O WizardLM-2 8x22B fica apenas um pouco atrás do GPT-4-1106-preview e é significativamente mais forte do que o Command R Plus e o GPT4-0314.
- O WizardLM-2 70B é melhor do que o GPT4-0613, o Mistral-Large e o Qwen1.5-72B-Chat.
- O WizardLM-2 7B é comparável ao Qwen1.5-32B-Chat e supera o Qwen1.5-14B-Chat e o Starling-LM-7B-beta.
MT-Bench
A Microsoft também adotou o framework de avaliação automática MT-Bench baseado no GPT-4 para avaliar o desempenho de seus modelos. Os resultados mostraram que o WizardLM-2 8x22B demonstra um desempenho altamente competitivo em comparação com as obras proprietárias mais avançadas, como o GPT-4-Turbo e o Claude-3. Enquanto isso, o WizardLM-2 7B e o WizardLM-2 70B são os modelos de melhor desempenho entre outras referências de ponta em escalas de modelo de 7B a 70B.
Uso
Os pesos do modelo WizardLM-2 8x22B e WizardLM-2 7B estão disponíveis na plataforma Hugging Face, e o WizardLM-2 70B e o demo de todos os modelos estarão disponíveis nos próximos dias. Para garantir a qualidade da geração, os usuários devem usar estritamente as mesmas mensagens de sistema fornecidas pela Microsoft.
O WizardLM-2 adota o formato de mensagem do Vicuna e suporta conversas de múltiplas etapas. A mensagem deve ser da seguinte forma:
Uma conversa entre um usuário curioso e um assistente de inteligência artificial. O assistente fornece respostas úteis, detalhadas e educadas às perguntas do usuário.
USUÁRIO: Oi
ASSISTENTE: Olá.
USUÁRIO: Quem é você?
ASSISTENTE: Eu sou o WizardLM.
...
A Microsoft também fornece um código de demonstração de inferência do WizardLM-2 em seu repositório no GitHub.
Em conclusão, o WizardLM-2 representa um avanço significativo nos grandes modelos linguísticos, demonstrando um desempenho aprimorado em conversas complexas, multilíngues, capacidades de raciocínio e de agente. Ao aproveitar os sistemas de treinamento sintético com suporte de IA e técnicas de aprendizado inovadoras, a Microsoft tem empurrado os limites do que os modelos de linguagem de código aberto podem alcançar.