Melhores 25 Modelos de Linguagem de Código Aberto de 2024
Published on
Introdução aos Modelos de Linguagem de Código Aberto
A paisagem dos modelos de linguagem de código aberto (LLMs) expandiu significativamente em 2024, oferecendo aos pesquisadores, desenvolvedores e empresas acesso a modelos de última geração sem a necessidade de licenças proprietárias. Este artigo explora mais de 20 dos principais LLMs de código aberto, suas principais características, benchmarks, melhores casos de uso, número de parâmetros e comprimento do contexto.
Por que os LLMs de Código Aberto são Melhores
Os LLMs de código aberto oferecem diversas vantagens convincentes em relação aos seus equivalentes proprietários, tornando-os uma escolha cada vez mais atraente para uma ampla gama de aplicações. Aqui estão algumas das principais razões pelas quais os LLMs de código aberto são melhores:
-
Custo-efetividade: Os LLMs de código aberto estão disponíveis gratuitamente, eliminando a necessidade de taxas de licenciamento caras associadas a modelos proprietários. Isso os torna mais acessíveis para pesquisadores, startups e organizações com orçamentos limitados.
-
Transparência: A natureza aberta desses modelos permite uma maior transparência em relação à sua arquitetura, dados de treinamento e funcionamento interno. Essa transparência fomenta a confiança, permite auditorias e facilita a reprodução dos resultados.
-
Customização e flexibilidade: Os LLMs de código aberto oferecem a liberdade de modificar, adaptar e ajustar os modelos para atender a casos de uso específicos e requisitos de domínio. Essa flexibilidade é crucial para organizações que desejam construir soluções de IA personalizadas.
-
Inovação impulsionada pela comunidade: Os LLMs de código aberto se beneficiam da inteligência coletiva e das contribuições de uma comunidade global de pesquisadores e desenvolvedores. Essa abordagem colaborativa acelera a inovação, levando a melhorias rápidas e aplicações diversas.
-
Mitigando o lock-in do fornecedor: Ao optar por LLMs de código aberto, as organizações podem evitar ficar presas em um único ecossistema de fornecedor. Essa independência permite um maior controle sobre os dados, infraestrutura e a capacidade de alternar entre modelos, conforme necessário.
-
Abordando preocupações éticas: A transparência e a responsabilidade proporcionadas pelos LLMs de código aberto ajudam a abordar preocupações éticas relacionadas à IA, como viés, imparcialidade e uso responsável. A capacidade de inspecionar e modificar esses modelos permite que os pesquisadores identifiquem e mitiguem possíveis problemas.
Embora os LLMs proprietários ainda tenham seu lugar, especialmente em cenários que exigem suporte corporativo e integração perfeita, os benefícios dos LLMs de código aberto são convincentes. Conforme o ecossistema de LLM de código aberto continua a amadurecer, podemos esperar ver modelos ainda mais poderosos e versáteis que rivalizem ou superem seus equivalentes proprietários.
Principais 25 LLMs de Código Aberto
1. Mistral
O Mistral 7B é um LLM de código aberto desenvolvido pela Mistral AI, que apresenta um desempenho promissor e suporta comprimentos de contexto longos.
As principais características do Mistral 7B incluem:
- Desempenho competitivo em modelagem de linguagem e tarefas relacionadas
- Comprimento de contexto longo de 4096-16K tokens usando atenção de janela deslizante
- Lançado sob a licença Apache 2.0
O comprimento de contexto longo do Mistral 7B o torna adequado para tarefas que envolvem texto extenso, como sumarização de documentos, resposta a perguntas em formato longo e geração sensível ao contexto. Sua atenção de janela deslizante permite o processamento eficiente de sequências de entrada muito longas.
Leituras adicionais sobre os Modelos Mistral:
2. OpenHermes
O OpenHermes é uma série de LLMs de código aberto desenvolvidos pela Nous Research, com tamanhos variando de 2,5B a 13B de parâmetros.
As principais características dos modelos OpenHermes incluem:
- Bom desempenho em modelagem de linguagem e tarefas relacionadas
- Treinamento e inferência eficientes usando a linguagem e o compilador Triton
- Lançado sob a licença Apache 2.0
Os modelos OpenHermes são versáteis e podem ser usados em uma variedade de tarefas de compreensão e geração de linguagem. Seu treinamento e inferência eficientes os tornam adequados para ambientes com recursos limitados ou aplicações com requisitos de latência rigorosos.
3. LLaMA 2
A família de modelos LLaMA 2 da Meta, lançada em junho de 2023, tem como objetivo democratizar o acesso a modelos de linguagem poderosos, com tamanhos variando de 7B a 70B de parâmetros.
As principais características dos modelos LLaMA 2 incluem:
- Desempenho competitivo em modelagem de linguagem e tarefas de PNL subsequentes
- Comprimento de contexto longo de 4096 tokens, permitindo uma melhor compreensão de texto extenso
- Flexibilidade na implantação com uma variedade de tamanhos de modelo
- Lançado sob uma licença personalizada, permitindo uso gratuito para entidades com menos de 700M de usuários, com algumas restrições
Os modelos LLaMA 2 encontraram aplicações na geração de conteúdo, sumarização, sistemas de diálogo e resposta a perguntas. Seu bom desempenho e natureza de código aberto os tornaram uma escolha popular para pesquisadores e desenvolvedores.
4. Bloom
O Bloom, desenvolvido pela BigScience, é um modelo de linguagem multilíngue de acesso aberto com 176B de parâmetros que ganhou significativa adoção desde o seu lançamento em 2022.
As principais características do Bloom incluem:
- Bom desempenho em uma variedade de tarefas e benchmarks de PNL, especialmente em configurações multilíngues
- Multilinguismo, suportando geração de texto em 46 idiomas e 13 linguagens de programação
- Lançado sob a licença OpenRAIL-M v1, permitindo o uso e modificação flexíveis Bloom's multilinguality and strong performance make it a compelling choice for applications serving diverse linguistic audiences. It is well-suited for tasks like translation, multilingual content generation, and cross-lingual understanding.
5. OPT
OPT (Open Pre-trained Transformer) é uma série de LLMs de código aberto que variam de 125M a 175B de parâmetros, desenvolvidos pela Meta AI.
Principais características dos modelos OPT incluem:
- Forte desempenho sem ajuste em várias referências NLP
- Treinamento em um grande conjunto de dados de texto não rotulado
- Flexibilidade na implantação com uma variedade de tamanhos de modelo
- Lançado sob a licença Apache 2.0
As capacidades fortes de zero-shot do OPT o tornam adequado para aplicativos onde o ajuste fino não é viável. A variedade de tamanhos de modelo permite uma implantação flexível em diferentes orçamentos de computação e requisitos de latência.
6. GPT-NeoX-20B
GPT-NeoX-20B é um modelo de linguagem autoregressivo de código aberto com 20 bilhões de parâmetros, desenvolvido pela EleutherAI.
Principais características de GPT-NeoX-20B incluem:
- Desempenho competitivo em benchmarking de modelagem de linguagem
- Capacidades promissoras de aprendizado few-shot
- Lançado sob a licença Apache 2.0
GPT-NeoX-20B é adequado para tarefas generativas como escrever histórias, geração de artigos e escrita criativa. Suas fortes habilidades de modelagem de linguagem fazem dele uma boa escolha para aplicativos que requerem geração de texto coerente.
7. Pythia
Pythia é um conjunto de LLMs de código aberto que variam de 70M a 12B de parâmetros, com o objetivo de permitir a análise de modelos de linguagem durante o treinamento e a escalabilidade.
Principais características dos modelos Pythia incluem:
- Desempenho promissor em várias tarefas de NLP
- Projetado para facilitar a pesquisa sobre a dinâmica de treinamento e as propriedades de escalabilidade de modelos de linguagem
- Lançado sob a licença Apache 2.0
Os modelos Pythia são principalmente destinados a fins de pesquisa, permitindo experimentos controlados sobre os efeitos da escala do modelo, dados de treinamento e hiperparâmetros. Eles também podem ser usados como modelos base para ajuste fino em tarefas específicas.
8. OpenLLaMA
OpenLLaMA é uma reprodução aberta dos modelos LLaMA da Meta, com tamanhos variando de 3B a 13B de parâmetros.
Principais características dos modelos OpenLLaMA incluem:
- Reprodução fiel da arquitetura e metodologia de treinamento do LLaMA
- Permitindo que pesquisadores estudem e construam a partir de modelos de linguagem de ponta
- Lançado sob a licença Apache 2.0
Os modelos OpenLLaMA são valiosos para a pesquisa em arquiteturas de modelos de linguagem, técnicas de treinamento e leis de escalabilidade. Eles também podem servir como ponto de partida para o desenvolvimento de modelos derivados adaptados a domínios ou tarefas específicas.
9. OLMo
Desenvolvido pelo Instituto Allen para AI (AI2), OLMo (Open Language Model) é uma família de LLMs de código aberto que priorizam a transparência, a reprodutibilidade e a acessibilidade. O maior modelo, OLMo 7B Twin 2T, demonstra um desempenho impressionante em uma variedade de benchmarks de NLP.
Principais características dos modelos OLMo incluem:
- Treinamento em um corpus diversificado de dados de texto de alta qualidade
- Ênfase na reprodutibilidade, com documentação detalhada e código de treinamento de código aberto
- Lançado sob a licença Apache 2.0
Os modelos OLMo são adequados para aplicações de pesquisa, com foco em interpretabilidade e robustez. Eles podem ser usados para uma variedade de tarefas de entendimento e geração de linguagem.
10. Gemma
Gemma é uma família de LLMs de código aberto desenvolvidos pelo Google, com recursos exclusivos como suporte para contexto de longo alcance de até 8192 tokens.
Principais características dos modelos Gemma incluem:
- Desempenho competitivo em benchmarking de modelagem de linguagem e NLP downstream
- Treinamento e inferência eficientes usando o framework JAX do Google
- Variantes multilíngues, como o Gemma 7B it, treinado em dados de texto italianos
- Lançado sob os Termos de Uso do Gemma, permitindo uso e modificação flexíveis
O comprimento de contexto longo do Gemma o torna especialmente adequado para tarefas que envolvem texto extenso, como sumarização de documentos, resposta a perguntas de longa forma e geração de conteúdo. Suas variantes multilíngues são valiosas para aplicações específicas de idioma.
11. GPT-J-6B
GPT-J-6B é um modelo de linguagem de código aberto com 6 bilhões de parâmetros desenvolvido pela EleutherAI.
Principais características de GPT-J-6B incluem:
- Ampla utilização e forte desempenho em várias tarefas de linguagem
- Serve como base para muitos modelos e aplicações derivados
- Lançado sob a licença Apache 2.0
GPT-J-6B é um modelo versátil adequado para uma variedade de tarefas de geração e entendimento de linguagem. Seu tamanho moderado o torna mais acessível para implantação em comparação com modelos maiores.
12. Dolly
Dolly é uma série de LLMs de código aberto ajustados para instruções desenvolvidos pela Databricks, com tamanhos de 3B a 12B de parâmetros.
Principais características dos modelos Dolly incluem:
- Forte desempenho em tarefas de seguimento de instruções e entendimento geral de linguagem
- Baseado na arquitetura Pythia
- Usado para construir chatbots e outras aplicações
- Lançado sob a licença MIT
A adequação do Dolly para ajuste de instruções o torna adequado para a construção de agentes conversacionais, sistemas de diálogo orientados a tarefas e aplicações que exigem o seguimento de instruções específicas. A variedade de tamanhos de modelo permite flexibilidade na implantação.
13. StableLM-Alpha
StableLM-Alpha é um conjunto de LLMs de código aberto que variam de 3B a 65B de parâmetros, desenvolvidos pela Stability AI.
Principais características dos modelos StableLM-Alpha incluem:
- Desempenho promissor em modelagem de linguagem e tarefas downstream
- Comprimento de contexto longo de 4096 tokens, permitindo melhor entendimento de texto extenso
- Lançado sob a licença CC BY-SA-4.0
O comprimento de contexto longo do StableLM-Alpha o torna adequado para tarefas que envolvem sequências de entrada mais longas, como entendimento de documentos, sumarização e geração consciente do contexto. A variedade de tamanhos de modelo permite flexibilidade na implantação.
14. RWKV
RWKV é uma família de modelos de linguagem baseados em RNN de código aberto com tamanhos de até 14B de parâmetros.
Principais características dos modelos RWKV incluem:
- Desempenho no nível Transformer enquanto mantém tempo de inferência O(1) independente do comprimento do contexto
- Comprimento de contexto infinito (baseado em RNN)
- Resultados consistentes em modelagem de linguagem e tarefas aplicadas
- Lançado sob a licença Apache 2.0
O comprimento de contexto infinito e a inferência eficiente do RWKV o tornam adequado para tarefas que envolvem sequências de entrada muito longas ou geração em tempo real. É uma boa escolha para aplicativos que exigem processamento de documentos longos ou manutenção de contexto de longo prazo.
15. FastChat-T5
FastChat-T5 é um modelo de chatbot de código aberto com 3 bilhões de parâmetros desenvolvido pela Anthropic, com base na arquitetura T5.
Principais características do FastChat-T5 incluem:
- Habilidades de conversação sólidas e otimizadas para inferência eficiente
- Desempenho competitivo em tarefas de diálogo
- Lançado sob a licença Apache 2.0
O FastChat-T5 é especificamente projetado para construir chatbots e agentes de conversação. Seu tamanho compacto e inferência eficiente o tornam adequado para aplicações de chat em tempo real.
16. h2oGPT
Desenvolvido pela H2O.ai, h2oGPT é uma família de LLMs de código aberto, variando de 12 bilhões a 20 bilhões de parâmetros.
Principais características dos modelos h2oGPT incluem:
- Prioridade para transparência e desempenho sólido em benchmarks de PNL
- Oferecendo um equilíbrio entre tamanho do modelo e desempenho
- Lançado sob a licença Apache 2.0
Os modelos h2oGPT são versáteis e podem ser usados em uma variedade de tarefas de compreensão e geração de linguagem. Seu foco em transparência os torna adequados para aplicativos que exigem interpretabilidade e responsabilidade.
17. RedPajama-INCITE
RedPajama-INCITE é uma família de modelos de código aberto base, sintonizados por instrução e chat, variando de 3 bilhões a 7 bilhões de parâmetros.
Principais características dos modelos RedPajama-INCITE incluem:
- Habilidades de conversação sólidas e desempenho em tarefas de acompanhamento de instruções
- Treinamento em um corpus grande de dados de alta qualidade
- Lançado sob a licença Apache 2.0
Os modelos RedPajama-INCITE são bem adequados para construir chatbots, sistemas de diálogo orientados por tarefas e aplicativos que exigem o acompanhamento de instruções específicas. Suas habilidades de conversação sólidas os tornam uma boa escolha para aplicativos envolventes e interativos.
18. Falcon
Desenvolvido pelo Technology Innovation Institute (TII) em Abu Dhabi, Falcon é uma família de LLMs de código aberto que fizeram grandes avanços em 2024. O maior modelo, o Falcon-180B, possui impressionantes 180 bilhões de parâmetros, tornando-o um dos LLMs de código aberto mais poderosos disponíveis. Os modelos Falcon são treinados no conjunto de dados RefinedWeb, que consiste em dados de alta qualidade da web, permitindo que eles tenham um desempenho superior a modelos treinados em corpora curados.
Principais características dos modelos Falcon incluem:
- Desempenho excepcional em uma ampla gama de tarefas de PNL
- Inferência eficiente com arquiteturas otimizadas
- Capacidades multilíngues, com suporte a mais de 100 idiomas
- Lançado sob a licença permissiva Apache 2.0
Os modelos Falcon têm encontrado aplicações em vários domínios, incluindo geração de conteúdo, tradução de idiomas, resposta a perguntas e análise de sentimentos. Sua natureza de código aberto e desempenho impressionante os tornaram uma escolha popular entre pesquisadores e desenvolvedores.
19. MPT-30B
A MosaicML, uma importante provedora de modelos de IA de código aberto, lançou o MPT-30B em junho de 2023, estabelecendo um novo padrão para modelos de referência de código aberto. Com 30 bilhões de parâmetros, o MPT-30B demonstra capacidades notáveis em uma ampla gama de tarefas de linguagem natural, incluindo geração de texto, resposta a perguntas e sumarização.
Recursos notáveis do MPT-30B incluem:
- Desempenho de ponta em conjuntos de dados de referência
- Treinamento e inferência eficientes usando a biblioteca Composer da MosaicML
- Variantes sintonizadas por instrução para um desempenho aprimorado em tarefas específicas
- Lançado sob as licenças Apache 2.0 e CC BY-SA-3.0
O MPT-30B foi amplamente adotado pela comunidade de IA, impulsionando aplicativos como chatbots, ferramentas de criação de conteúdo e projetos de pesquisa. Sua natureza de código aberto e desempenho sólido o tornaram uma escolha favorita para organizações que procuram aproveitar o poder de modelos de linguagem grandes.
20. CodeGen
Desenvolvido pela Salesforce, CodeGen é uma série de modelos de geração de código que variam de 350 milhões a 16 bilhões de parâmetros.
Principais características dos modelos CodeGen incluem:
- Desempenho de ponta em tarefas de geração de código como HumanEval
- Treinado em um corpus grande de código de várias linguagens de programação
- Suporta síntese de programa conversacional de várias etapas
- Lançado sob uma licença não comercial
Os modelos CodeGen se destacam na geração de código a partir de descrições em linguagem natural. Suas capacidades conversacionais de várias etapas permitem um fluxo de trabalho de desenvolvimento interativo, onde o modelo pode refinar iterativamente o código com base no feedback do usuário. O CodeGen é adequado para programação assistida por IA e autocompletamento de código.
21. FLAN-T5
FLAN-T5 é uma família de modelos sintonizados por instrução baseados na arquitetura T5 do Google, com tamanhos de até 11 bilhões de parâmetros.
Principais características dos modelos FLAN-T5 incluem:
- Desempenho sólido de poucas amostras em uma ampla gama de tarefas
- Sintonizado por instrução em uma mistura de mais de 1800 tarefas diversas
- Supera modelos muito maiores como PaLM-62B em alguns benchmarks
- Lançado sob a licença Apache 2.0
A sintonização por instrução do FLAN-T5 permite um bom desempenho em tarefas não vistas com apenas alguns exemplos. Isso o torna adequado para aplicações que requerem capacidades de compreensão e geração de linguagem independentes de tarefas. O FLAN-T5 pode ser usado para resposta a perguntas, sumarização, tradução e muito mais.
22. GPT-NeoX-20B-Instruct
GPT-NeoX-20B-Instruct é uma variante sintonizada por instrução do modelo GPT-NeoX-20B do EleutherAI, demonstrando um bom desempenho em tarefas de acompanhamento de instruções.
Principais características do GPT-NeoX-20B-Instruct incluem:
- Melhor capacidade de seguir instruções em comparação com o GPT-NeoX-20B base
- Resultados promissores em benchmarks como MMLU e BBH
- Pode ser usado em aplicações que exigem que os modelos sigam instruções específicas
- Lançado sob a licença Apache 2.0 A afinação de instrução do GPT-NeoX-20B-Instruct torna-o adequado para a construção de sistemas orientados a tarefas, como assistentes virtuais, que precisam entender e executar instruções do usuário. Também pode ser usado para tarefas gerais de linguagem onde a habilidade de seguir instruções é benéfica.
23. Nous Hermes
A Nous Research desenvolveu a série Hermes de LLMs de código aberto, com tamanhos de modelo que variam de 2,5B a 13B parâmetros.
Principais características dos modelos Nous Hermes incluem:
- Desempenho competitivo em modelagem de linguagem e tarefas derivadas
- Implementação eficiente usando a biblioteca xFormers
- Variantes multilíngues que suportam idiomas não-ingleses
- Lançado sob a licença Apache 2.0
Os modelos Nous Hermes oferecem um equilíbrio entre desempenho e eficiência, tornando-os adequados para uma variedade de tarefas de compreensão e geração de linguagem. As variantes multilíngues são valiosas para a construção de aplicativos que atendem a usuários que falam outros idiomas além do inglês.
24. Ziya-LLaMA-13B
Ziya-LLaMA-13B é um modelo LLaMA chinês com 13B parâmetros, desenvolvido pela equipe Ziya. Tem demonstrado desempenho promissor em tarefas de linguagem chinesa.
Principais características do Ziya-LLaMA-13B incluem:
- Resultados consistentes na modelagem de linguagem chinesa e avaliações derivadas
- Possibilita a construção de aplicativos de linguagem chinesa com desempenho de ponta
- Treinado em um grande corpus de dados textuais chineses diversos
- Lançado sob uma licença personalizada que permite o uso flexível
Ziya-LLaMA-13B é um recurso valioso para pesquisadores e desenvolvedores que trabalham em aplicativos de PNL chinesa. Pode ser usado em tarefas como geração de conteúdo, resposta a perguntas e análise de sentimento no idioma chinês.
25. Vicuna
Desenvolvido pela Organização de Sistemas de Modelos Grandes (LMSYS), Vicuna é um modelo de chatbot de código aberto com tamanhos variando de 7B a 13B parâmetros.
Principais características dos modelos Vicuna incluem:
- Habilidades de conversação sólidas e desempenho em tarefas de diálogo
- Ajustado em um grande corpus de dados de conversação
- Lançado sob uma licença não-comercial
Os modelos Vicuna são especificamente projetados para a construção de chatbots envolventes e coerentes. O ajuste fino em dados de conversação os torna adequados para aplicativos que requerem respostas naturais e contextualmente relevantes.
Conclusão
O cenário de LLMs de código aberto tem visto um crescimento e progresso tremendos em 2024, com uma ampla gama de modelos disponíveis para vários casos de uso e cenários de implantação. Desde modelos de grande escala como Falcon-180B e MPT-30B até modelos mais especializados como FastChat-T5 e Vicuna, existem LLMs de código aberto adequados para uma variedade de aplicativos.
À medida que o campo continua a evoluir, podemos esperar avanços adicionais em arquiteturas de modelos, técnicas de treinamento e desempenho em tarefas derivadas. A natureza de código aberto desses modelos continuará impulsionando a inovação, a colaboração e a acessibilidade na comunidade de IA.
Ao escolher um LLM de código aberto para um caso de uso específico, é importante considerar fatores como tamanho do modelo, comprimento de contexto, dados de treinamento, termos de licenciamento e desempenho em avaliações relevantes. Os modelos discutidos neste artigo fornecem um ponto de partida para explorar as capacidades e o potencial de LLMs de código aberto em 2024.