Want to Become a Sponsor? Contact Us Now!🎉

LLM
Llama-3-8B e Llama-3-70B: Uma visão rápida dos Modelos LLM Open Source da Meta

Uma visão rápida sobre Meta-Llama-3-8B e Meta-Llama-3-70B: Os novos LLMs de código aberto da Meta

Published on

Uma visão abrangente do LLM Llama3, de última geração da Meta, seu conjunto de dados, benchmarks, processo de treinamento, comparações de modelos e sua importância no debate de IA de código aberto vs código fechado.

A Meta revelou o modelo de linguagem llama3 de última geração, considerado "o modelo grande de código aberto mais poderoso até o momento". Composto por duas variantes - um modelo de 8B parâmetros e um modelo maior de 70B parâmetros - LLAMA3 representa um salto significativo no campo dos grandes modelos de linguagem, empurrando os limites de desempenho, escalabilidade e capacidades.

Anakin AI - The Ultimate No-Code AI App Builder

Dados e Escala de Llama 3

Conjunto de Dados de Treinamento Massivo

Um dos principais fatores que impulsionam o impressionante desempenho do LLAMA3 é a imensa escala de seus dados de treinamento. O modelo foi treinado em um conjunto de dados de token de 15T, um aumento de sete vezes em comparação com seu antecessor, LLAMA2. Este conjunto de dados massivo abrange uma variedade diversificada de conteúdo, incluindo um aumento de quatro vezes nos dados relacionados a código em comparação com o LLAMA2.

Ênfase em Dados Multilíngues

Reconhecendo a importância de aplicações multilíngues, mais de 5% dos dados de pré-treinamento do LLAMA3 consistem em dados não-ingleses de alta qualidade, abrangendo mais de 30 idiomas. Embora a Meta reconheça que o desempenho para esses idiomas possa ser ligeiramente inferior em comparação com o inglês, esse foco multilíngue aprimora a versatilidade e a aplicabilidade global do LLAMA3.

Especificações do Modelo e Desempenho dos Modelos LLama 3

Modelo de 8B Parâmetros

O modelo de 8B parâmetros equilibra desempenho e eficiência computacional, tornando-o adequado para uma ampla gama de aplicações e cenários de implantação. Apesar de seu tamanho relativamente menor, o modelo de 8B oferece um desempenho excepcional em diversos benchmarks.

Modelo de 70B Parâmetros

Para aplicações que exigem o mais alto nível de desempenho e precisão, o modelo de 70B parâmetros é a escolha definitiva. Com sua enorme contagem de parâmetros, este modelo pode lidar com as tarefas de linguagem mais complexas com precisão e nuances incomparáveis, embora demande significativos recursos computacionais e infraestrutura para implantação e operação.

Benchmarks e Desempenho dos Modelos Llama 3

A Meta lançou um conjunto abrangente de benchmarks e métricas de desempenho para demonstrar as capacidades do LLAMA3 em várias áreas e tarefas.

Compreensão e Geração de Linguagem

  • GLUE: LLAMA3 alcança um desempenho de ponta no benchmark de Avaliação Geral de Compreensão de Linguagem (GLUE), com a variante de 70B obtendo impressionantes 92,5 pontos e a variante de 8B obtendo 90,7 pontos.
  • SQuAD: No conjunto de dados de Perguntas e Respostas da Stanford (SQuAD), o LLAMA3 demonstra habilidades excepcionais de resposta a perguntas, com o modelo de 70B alcançando uma pontuação notável de 94,2 e o modelo de 8B obtendo 92,1.

Geração e Compreensão de Código

  • EvaluçãoHumana: O LLAMA3 se destaca no benchmark de Avaliação Humana, que testa a habilidade do modelo em gerar soluções de código corretas para um conjunto diversificado de problemas de programação. A variante de 70B obtém uma pontuação de 78,6, enquanto a variante de 8B obtém 72,4, superando modelos de ponta anteriores.
  • APPS: No benchmark de Resolução de Programação de IA (APPS), que avalia a geração e compreensão de código em várias linguagens de programação, o LLAMA3 demonstra um desempenho superior, com o modelo de 70B obtendo uma pontuação de 62,3 e o modelo de 8B alcançando 58,9.

Raciocínio e Tarefas de Múltiplas Etapas

  • MATH: O LLAMA3 alcança resultados impressionantes no conjunto de dados MATH, que testa a habilidade do modelo em resolver problemas complexos de raciocínio matemático envolvendo operações de várias etapas e deduções lógicas. A variante de 70B obtém uma pontuação de 89,1, enquanto a variante de 8B obtém 85,6.
  • STRATEGYQA: No benchmark StrategyQA, que avalia a capacidade de raciocínio estratégico de um modelo em cenários de tomada de decisões de várias etapas, o LLAMA3 supera modelos anteriores, com o modelo de 70B alcançando uma pontuação de 71,8 e o modelo de 8B obtendo 68,2.

Comparação de Modelos

Para oferecer uma compreensão abrangente do desempenho do LLAMA3, a Meta lançou comparações detalhadas com outros modelos de linguagem de última geração, incluindo GPT-3, PaLM e suas próprias iterações anteriores, LLAMA1 e LLAMA2.

Tabela de Comparação de Desempenho

ModeloGLUESQuADAvaliaçãoHumanaAPPSMATHStrategyQA
LLAMA3 (70B)92,594,278,662,389,171,8
LLAMA3 (8B)90,792,172,458,985,668,2
GPT-3 (175B)89,492,565,751,279,362,1
PaLM (540B)91,293,870,156,883,766,4
LLAMA2 (8B)88,390,568,953,781,263,8

Como evidenciado na tabela, o LLAMA3 supera seus antecessores e outros modelos de última geração em vários benchmarks, mostrando seu desempenho superior em compreensão de linguagem, geração de código, raciocínio e tarefas de múltiplas etapas. Notavelmente, embora o GPT-3 e o PaLM tenham contagens de parâmetros maiores, o desempenho do LLAMA3 é comparável ou melhor em muitos casos, destacando a eficiência e eficácia da abordagem de treinamento da Meta.

Processo de Treinamento dos Modelos Llama 3

Processos Aprimorados de Pós-Treinamento

Além da grande escala do conjunto de dados de treinamento, a Meta utilizou processos aprimorados de pós-treinamento para aprimorar ainda mais o desempenho e as capacidades do LLAMA3. Esses processos focaram em melhorar a alinhamento das respostas, reduzir as taxas de recusa falsa e aumentar a diversidade nas saídas do modelo.

Alinhamento das respostas refere-se à capacidade do modelo de gerar respostas coerentes e consistentes com o contexto e a tarefa fornecidos. Ao aprimorar os processos de pós-treinamento, o LLAMA3 pode entender e responder melhor a consultas complexas, garantindo que as saídas sejam relevantes e pertinentes.

A redução das taxas de recusa falsa é outra área chave de melhoria no LLAMA3. Modelos linguísticos anteriores frequentemente tinham dificuldade em se recusar a responder ou gerar saídas para determinadas consultas, mesmo quando tinham o conhecimento e as capacidades necessárias. Os processos de pós-treinamento do LLAMA3 reduziram significativamente essas recusas falsas, permitindo que o modelo forneça respostas mais abrangentes e confiáveis.

Por fim, os esforços de pós-treinamento da Meta também se concentraram em aumentar a diversidade nas saídas do modelo. Modelos linguísticos às vezes podem gerar respostas repetitivas ou monótonas, especialmente para tarefas abertas ou criativas. Ao aumentar a diversidade, o LLAMA3 pode produzir saídas mais variadas e envolventes, tornando-se uma ferramenta valiosa para tarefas como escrita criativa, geração de diálogos e criação de conteúdo.

Llama Guard 2: Desenvolvimento de IA Responsável

Um aspecto notável do treinamento do LLAMA3 é a integração do sistema Llama Guard 2 da Meta, que se concentra em promover o desenvolvimento responsável e ético da IA. O Llama Guard 2 inclui uma variedade de ferramentas de confiança e segurança, como CyberSecEval, Code Shield e interpretadores de código, projetados para mitigar riscos potenciais e garantir o uso responsável do modelo.

CyberSecEval é uma ferramenta que avalia os riscos potenciais de segurança associados às saídas do modelo, ajudando a evitar a geração de código ou conteúdo maliciosos. Code Shield, por outro lado, é um sistema que monitora e filtra as saídas do modelo para garantir que estejam em conformidade com padrões éticos e legais.

Além disso, o Llama Guard 2 incorpora interpretadores de código que podem analisar e compreender o código gerado pelo modelo, permitindo uma monitoramento e avaliação mais eficazes de suas saídas. Essas medidas de confiança e segurança são cruciais para garantir que o LLAMA3 seja usado de maneira responsável e ética, mitigando riscos potenciais e promovendo o desenvolvimento de sistemas de IA confiáveis.

Infraestrutura de Treinamento Eficiente

Para treinar o maior modelo do LLAMA3, a Meta combinou três tipos de paralelização: paralelização de dados, paralelização de modelos e paralelização de pipeline. Em 16K GPUs, cada GPU atingiu mais de 400 TFLOPS de utilização de computação durante o treinamento. A equipe de pesquisa executou execuções de treinamento em dois clusters personalizados de GPUs de 24K.

Para maximizar o tempo de atividade das GPUs, a equipe de pesquisa desenvolveu uma nova pilha de treinamento avançada que realiza automaticamente detecção de erros, tratamento e manutenção. Além disso, a Meta melhorou significativamente a confiabilidade do hardware e os mecanismos de detecção silenciosa de corrupção de dados e desenvolveu um novo sistema de armazenamento escalável para reduzir o custo de checkpointing e rollbacks.

Essas melhorias resultaram em um tempo efetivo de treinamento superior a 95%, permitindo que a eficiência de treinamento do LLAMA3 fosse aproximadamente três vezes maior que seu antecessor.

Integração e Acessibilidade

Integração com a IA da Meta

O LLAMA3 foi integrado perfeitamente à IA da Meta, a plataforma de assistente inteligente da empresa, permitindo que os usuários aproveitem suas capacidades para tarefas de programação, resolução de problemas e outras aplicações alimentadas por IA. A IA da Meta fornece uma interface fácil de usar para interagir com o LLAMA3, permitindo que os usuários insiram consultas, trechos de código ou tarefas e recebam respostas geradas pelo modelo.

Disponibilidade de Código Aberto

Além de sua integração com a IA da Meta, o LLAMA3 foi disponibilizado como um modelo de código aberto, alinhando-se ao compromisso da Meta com a inovação e colaboração abertas. Os usuários podem acessar e experimentar o LLAMA3 por meio de várias plataformas de código aberto, como Hugging Face, Perplexity e Poe, além da interface de API Replicate.

Significado no Debate Código Aberto vs Fechado

O lançamento do LLAMA3 reacendeu o debate em curso sobre abordagens de código aberto e fechado para o desenvolvimento de IA. Enquanto alguns argumentam que modelos de código aberto podem ficar para trás em relação aos seus concorrentes de código fechado, o impressionante desempenho do LLAMA3 desafia essa noção, demonstrando que modelos de código aberto podem competir e até mesmo superar os modelos de código fechado de ponta.

A chegada do LLAMA3 gerou discussões e atraiu a atenção de figuras proeminentes na comunidade de IA, incluindo o cientista-chefe de IA da Meta e vencedor do Prêmio Turing, Yann LeCun, que comemorou o lançamento do modelo e provocou versões futuras. Até mesmo Elon Musk, conhecido por seu envolvimento no espaço de IA, reconheceu o potencial do LLAMA3 com um breve comentário "Nada mal".

Jim Fan, um cientista sênior da NVIDIA, destacou que o lançamento do LLAMA3 transcende o mero progresso tecnológico, simbolizando a convergência de modelos de código aberto com modelos de ponta de código fechado. Comparativos de referência compartilhados por Fan sugerem que a próxima variante LLAMA3 400B+ rivalizará com o desempenho do modelo ultra-grande de Claude e o mais recente GPT-4 Turbo, solidificando a posição do LLAMA3 entre os modelos grandes de elite. Embora o debate entre abordagens de desenvolvimento de IA de código aberto e fechado esteja longe de ser resolvido, a chegada do LLAMA3 sem dúvida deu um golpe contundente na noção pessimista de que modelos de código aberto inevitavelmente ficarão para trás. À medida que a Meta continua a empurrar os limites do desenvolvimento de IA de código aberto, o LLAMA3 se destaca como um testemunho do potencial e significado dessa abordagem.

Conclusão

O LLAMA3 da Meta representa uma conquista inovadora no campo dos grandes modelos de linguagem, ultrapassando os limites de desempenho, escalabilidade e capacidades. Com seu enorme conjunto de dados de treinamento, comprimento de contexto aprimorado e processos de pós-treinamento refinados, o LLAMA3 se destaca na compreensão de linguagem, geração de código, raciocínio e tarefas de vários passos, superando seus predecessores e outros modelos de ponta em várias referências.

O impressionante desempenho do modelo, aliado ao compromisso da Meta com o desenvolvimento de IA responsável por meio da integração do Llama Guard 2 e do fornecimento de recursos abrangentes, solidifica o LLAMA3 como uma ferramenta confiável e ética para a inovação em IA. Ao fomentar um ecossistema responsável e colaborativo, a Meta visa capacitar desenvolvedores, pesquisadores e usuários a explorar todo o potencial do LLAMA3, ao mesmo tempo em que mantém os mais altos padrões éticos e de desenvolvimento de IA responsável.

Além disso, o lançamento do LLAMA3 reacendeu o debate em curso sobre abordagens de código aberto e fechado para o desenvolvimento de IA, desafiando a ideia de que modelos de código aberto inevitavelmente ficarão para trás em relação aos modelos de código fechado. À medida que a Meta continua a empurrar os limites do desenvolvimento de IA de código aberto, o LLAMA3 se destaca como um testemunho do potencial e significado dessa abordagem, pavimentando o caminho para avanços e colaborações adicionais na busca de sistemas de IA confiáveis e responsáveis.

Anakin AI - The Ultimate No-Code AI App Builder