25 Mejores Modelos de Lenguaje de Código Abierto de 2024
Published on
Introducción a los LLM de Código Abierto
El panorama de los modelos de lenguaje de código abierto (LLM) ha crecido significativamente en 2024, ofreciendo a investigadores, desarrolladores y negocios acceso a modelos de última generación sin necesidad de licencias propietarias. Este artículo explora más de 20 de los mejores LLM de código abierto, sus características clave, métricas de rendimiento, mejores casos de uso, número de parámetros y longitud del contexto.
Por qué los LLM de Código Abierto son Mejores
Los LLM de código abierto ofrecen varias ventajas convincentes sobre sus contrapartes propietarias, lo que los convierte en una opción cada vez más atractiva para una amplia gama de aplicaciones. Aquí hay algunas razones clave por las que los LLM de código abierto son mejores:
-
Rentabilidad: Los LLM de código abierto están disponibles de forma gratuita, eliminando la necesidad de costosas tarifas de licencia asociadas con los modelos propietarios. Esto los hace más accesibles para investigadores, startups y organizaciones con presupuestos limitados.
-
Transparencia: La naturaleza abierta de estos modelos permite una mayor transparencia en su arquitectura, datos de entrenamiento y funcionamiento interno. Esta transparencia fomenta la confianza, permite la auditoría y facilita la reproducibilidad de los resultados.
-
Personalización y flexibilidad: Los LLM de código abierto proporcionan la libertad de modificar, adaptar y ajustar los modelos para adaptarlos a casos de uso y requisitos específicos del dominio. Esta flexibilidad es crucial para las organizaciones que buscan construir soluciones de IA personalizadas.
-
Innovación impulsada por la comunidad: Los LLM de código abierto se benefician de la inteligencia colectiva y las contribuciones de una comunidad global de investigadores y desarrolladores. Este enfoque colaborativo acelera la innovación, lo que lleva a mejoras rápidas y diversas aplicaciones.
-
Mitigación del bloqueo de proveedores: Al optar por LLM de código abierto, las organizaciones pueden evitar quedar atrapadas en el ecosistema de un solo proveedor. Esta independencia permite un mayor control sobre los datos, la infraestructura y la capacidad de cambiar entre modelos según sea necesario.
-
Abordar preocupaciones éticas: La transparencia y la responsabilidad que ofrecen los LLM de código abierto ayudan a abordar preocupaciones éticas en torno a la IA, como el sesgo, la equidad y el uso responsable. La capacidad de inspeccionar y modificar estos modelos permite a los investigadores identificar y mitigar posibles problemas.
Si bien los LLM propietarios aún tienen su lugar, especialmente en escenarios que requieren soporte de grado empresarial e integración perfecta, los beneficios de los LLM de código abierto son convincentes. A medida que el ecosistema de LLM de código abierto continúa madurando, podemos esperar ver modelos aún más poderosos y versátiles que rivalicen o superen a sus contrapartes propietarias.
Los 25 Mejores LLM de Código Abierto
1. Mistral
Mistral 7B es un LLM de código abierto desarrollado por Mistral AI, que muestra un rendimiento prometedor y admite longitudes de contexto largas.
Las características clave de Mistral 7B incluyen:
- Rendimiento competitivo en modelado de lenguaje y tareas secundarias
- Longitud de contexto larga de 4096-16K tokens utilizando atención de ventana deslizante
- Lanzado bajo la licencia Apache 2.0
La longitud de contexto larga de Mistral 7B lo hace adecuado para tareas que involucran texto extendido, como resumen de documentos, respuesta a preguntas en formato largo y generación consciente del contexto. Su atención de ventana deslizante permite un procesamiento eficiente de secuencias de entrada muy largas.
Lecturas adicionales sobre los modelos de Mistral:
2. OpenHermes
OpenHermes es una serie de LLM de código abierto desarrollados por Nous Research, con tamaños que van desde 2.5B hasta 13B parámetros.
Las características clave de los modelos de OpenHermes incluyen:
- Buen rendimiento en modelado de lenguaje y tareas secundarias
- Entrenamiento y inferencia eficientes utilizando el lenguaje y el compilador Triton
- Lanzados bajo la licencia Apache 2.0
Los modelos de OpenHermes son versátiles y se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje. Su entrenamiento e inferencia eficientes los hacen adecuados para entornos con recursos limitados o aplicaciones con requisitos estrictos de latencia.
3. LLaMA 2
La familia de modelos LLaMA 2 de Meta, lanzada en junio de 2023, tiene como objetivo democratizar el acceso a potentes modelos de lenguaje con tamaños que van desde 7B hasta 70B parámetros.
Las características clave de los modelos LLaMA 2 incluyen:
- Rendimiento competitivo en modelado de lenguaje y tareas de procesamiento de lenguaje natural
- Longitud de contexto larga de 4096 tokens, lo que permite una mejor comprensión de texto extendido
- Flexibilidad en la implementación con una variedad de tamaños de modelos
- Lanzados bajo una licencia personalizada que permite su uso gratuito para entidades con menos de 700M de usuarios, con algunas restricciones
Los modelos LLaMA 2 se han utilizado en generación de contenido, resumen, sistemas de diálogo y respuesta a preguntas. Su buen rendimiento y naturaleza de código abierto los han convertido en una opción popular para investigadores y desarrolladores.
4. Bloom
Bloom, desarrollado por BigScience, es un modelo de lenguaje multilingüe de acceso abierto con 176B de parámetros que ha ganado una adopción significativa desde su lanzamiento en 2022.
Las características clave de Bloom incluyen:
- Buen rendimiento en una variedad de tareas y métricas de PLN, especialmente en entornos multilingües
- Multilingüismo, admite generación de texto en 46 idiomas y 13 lenguajes de programación
- Lanzado bajo la licencia OpenRAIL-M v1, permitiendo un uso y modificación flexibles Bloom's multilinguality and strong performance make it a compelling choice for applications serving diverse linguistic audiences. It is well-suited for tasks like translation, multilingual content generation, and cross-lingual understanding.
5. OPT
OPT (Open Pre-trained Transformer) es una serie de LLMs de código abierto que van desde 125M hasta 175B de parámetros, desarrollados por Meta AI.
Las características clave de los modelos OPT incluyen:
- Fuerte rendimiento de cero disparos en diferentes pruebas de procesamiento del lenguaje natural (PLN)
- Entrenamiento en un amplio corpus de datos de texto no etiquetado
- Flexibilidad en la implementación con una gama de tamaños de modelos
- Lanzado bajo la licencia Apache 2.0
Las capacidades de cero disparos de OPT lo hacen adecuado para aplicaciones en las que no es factible el ajuste fino. La gama de tamaños de los modelos permite una implementación flexible en diferentes presupuestos de cómputo y requisitos de latencia.
6. GPT-NeoX-20B
GPT-NeoX-20B es un modelo de lenguaje autogresivo de código abierto con 20 mil millones de parámetros, desarrollado por EleutherAI.
Las características clave de GPT-NeoX-20B incluyen:
- Rendimiento competitivo en pruebas de modelado de lenguaje
- Prometedoras capacidades de aprendizaje de pocos disparos
- Lanzado bajo la licencia Apache 2.0
GPT-NeoX-20B es adecuado para tareas generativas como la escritura de historias, la generación de artículos y la escritura creativa. Sus fuertes capacidades de modelado del lenguaje lo convierten en una buena opción para aplicaciones que requieran generación de texto coherente.
7. Pythia
Pythia es un conjunto de LLMs de código abierto que van desde 70M hasta 12B de parámetros, diseñados para permitir el análisis de modelos de lenguaje a través del entrenamiento y la escalabilidad.
Las características clave de los modelos Pythia incluyen:
- Prometedor rendimiento en diversas tareas de PLN
- Diseñados para facilitar la investigación sobre la dinámica del entrenamiento y las propiedades de escalabilidad de los modelos de lenguaje
- Lanzados bajo la licencia Apache 2.0
Los modelos de Pythia están principalmente destinados a fines de investigación, permitiendo experimentos controlados sobre los efectos de la escala del modelo, los datos de entrenamiento y los hiperparámetros. También se pueden utilizar como modelos base para el ajuste fino en tareas específicas.
8. OpenLLaMA
OpenLLaMA es una reproducción abierta de los modelos LLaMA de Meta, con tamaños que van desde 3B hasta 13B de parámetros.
Las características clave de los modelos OpenLLaMA incluyen:
- Reproducción fiel de la arquitectura y metodología de entrenamiento de LLaMA
- Permiten a los investigadores estudiar y desarrollar modelos de lenguaje de última generación
- Lanzados bajo la licencia Apache 2.0
Los modelos de OpenLLaMA son valiosos para la investigación en arquitecturas de modelos de lenguaje, técnicas de entrenamiento y leyes de escalabilidad. También pueden servir como punto de partida para desarrollar modelos derivados adaptados a dominios o tareas específicas.
9. OLMo
Desarrollado por el Allen Institute for AI (AI2), OLMo (Open Language Model) es una familia de LLMs de código abierto que priorizan la transparencia, la reproducibilidad y la accesibilidad. El modelo más grande, OLMo 7B Twin 2T, demuestra un rendimiento impresionante en una variedad de pruebas de PLN.
Las características clave de los modelos OLMo incluyen:
- Entrenamiento en un corpus diverso de datos de texto de alta calidad
- Énfasis en la reproducibilidad, con documentación detallada y código de entrenamiento de código abierto
- Lanzados bajo la licencia Apache 2.0
Los modelos de OLMo son adecuados para aplicaciones de investigación, con un enfoque en la interpretabilidad y la robustez. Se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje.
10. Gemma
Gemma es una familia de LLMs de código abierto desarrollados por Google, con características únicas como el soporte para un contexto de largo alcance de hasta 8192 tokens.
Las características clave de los modelos Gemma incluyen:
- Rendimiento competitivo en pruebas de modelado de lenguaje y PLN
- Entrenamiento e inferencia eficientes utilizando el marco JAX de Google
- Variantes multilingües, como Gemma 7B it, entrenada con datos de texto en italiano
- Lanzados bajo los Términos de Uso de Gemma, que permiten un uso y modificación flexibles
La longitud del contexto largo de Gemma la hace especialmente adecuada para tareas que involucran texto extendido, como la resumen de documentos, la respuesta a preguntas en formato largo y la generación de contenido. Sus variantes multilingües son valiosas para aplicaciones específicas de cada idioma.
11. GPT-J-6B
GPT-J-6B es un modelo de lenguaje de código abierto con 6 mil millones de parámetros, desarrollado por EleutherAI.
Las características clave de GPT-J-6B incluyen:
- Ampliamente utilizado y con un rendimiento sólido en diversas tareas de lenguaje
- Sirve como base para muchos modelos y aplicaciones derivadas
- Lanzado bajo la licencia Apache 2.0
GPT-J-6B es un modelo versátil adecuado para una variedad de tareas de generación y comprensión de lenguaje. Su tamaño moderado lo hace más accesible para la implementación en comparación con modelos más grandes.
12. Dolly
Dolly es una serie de LLMs de código abierto ajustados a instrucciones, desarrollados por Databricks, con tamaños que van desde 3B hasta 12B de parámetros.
Las características clave de los modelos Dolly incluyen:
- Fuerte rendimiento en tareas de seguimiento de instrucciones y comprensión general del lenguaje
- Basados en la arquitectura Pythia
- Utilizados para construir chatbots y otras aplicaciones
- Lanzados bajo la licencia MIT
La adaptación a instrucciones de Dolly lo hace adecuado para construir agentes conversacionales, sistemas de diálogo orientados a tareas y aplicaciones que requieren seguir instrucciones específicas. La gama de tamaños de los modelos permite una implementación flexible.
13. StableLM-Alpha
StableLM-Alpha es una suite de LLMs de código abierto que van desde 3B hasta 65B de parámetros, desarrollados por Stability AI.
Las características clave de los modelos StableLM-Alpha incluyen:
- Prometedor rendimiento en tareas de modelado de lenguaje y tareas posteriores
- Longitud de contexto de 4096 tokens, que permite una mejor comprensión de textos extendidos
- Lanzados bajo la licencia CC BY-SA-4.0
La longitud del contexto de StableLM-Alpha lo hace adecuado para tareas que involucran secuencias de entrada más largas, como la comprensión de documentos, la summarización y la generación de contexto. La gama de tamaños de los modelos permite una implementación flexible.
14. RWKV
RWKV es una familia de modelos de lenguaje basados en RNN de código abierto con tamaños de hasta 14B de parámetros.
Las características clave de los modelos RWKV incluyen:
- Rendimiento a nivel de transformador mientras se tiene un tiempo de inferencia O(1) independiente de la longitud del contexto
- Longitud de contexto infinita (basado en RNN)
- Resultados sólidos en modelado de lenguaje y tareas complementarias
- Publicado bajo la licencia Apache 2.0
La longitud de contexto infinita y la inferencia eficiente de RWKV lo hacen ideal para tareas que involucran secuencias de entrada muy largas o generación en tiempo real. Es una buena opción para aplicaciones que requieren procesar documentos largos o mantener contexto a largo plazo.
15. FastChat-T5
FastChat-T5 es un modelo de chatbot de código abierto con 3B de parámetros desarrollado por Anthropic, basado en la arquitectura T5.
Las características clave de FastChat-T5 incluyen:
- Habilidades conversacionales fuertes y optimizado para una inferencia eficiente
- Rendimiento competitivo en tareas de diálogo
- Publicado bajo la licencia Apache 2.0
FastChat-T5 está específicamente diseñado para construir chatbots y agentes conversacionales. Su tamaño compacto y su inferencia eficiente lo hacen adecuado para aplicaciones de chat en tiempo real.
16. h2oGPT
Desarrollado por H2O.ai, h2oGPT es una familia de LLM de código abierto que varía entre los 12B y los 20B de parámetros.
Las características clave de los modelos h2oGPT incluyen:
- Priorización de la transparencia y un rendimiento sólido en referencias de NLP
- Ofreciendo un equilibrio entre el tamaño del modelo y su rendimiento
- Publicado bajo la licencia Apache 2.0
Los modelos h2oGPT son versátiles y se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje. Su enfoque en la transparencia los hace adecuados para aplicaciones que requieren interpretabilidad y responsabilidad.
17. RedPajama-INCITE
RedPajama-INCITE es una familia de modelos base, ajustados a instrucciones y de chat de código abierto que varían entre los 3B y los 7B de parámetros.
Las características clave de los modelos RedPajama-INCITE incluyen:
- Habilidades conversacionales fuertes y rendimiento en tareas de seguimiento de instrucciones
- Entrenamiento en un corpus grande de datos de alta calidad
- Publicado bajo la licencia Apache 2.0
Los modelos RedPajama-INCITE son adecuados para construir chatbots, sistemas de diálogo orientados a tareas y aplicaciones que requieren seguir instrucciones específicas. Sus habilidades conversacionales fuertes los convierten en una buena elección para aplicaciones interactivas y atractivas.
18. Falcon
Desarrollado por el Technology Innovation Institute (TII) en Abu Dhabi, Falcon es una familia de LLM de código abierto que ha logrado avances significativos en 2024. El modelo más grande, Falcon-180B, cuenta con impresionantes 180 mil millones de parámetros, lo que lo convierte en uno de los LLM de código abierto más potentes disponibles. Los modelos Falcon se entrenan en el conjunto de datos RefinedWeb, que consiste en datos web de alta calidad, lo que les permite superar a los modelos entrenados en corpus curados.
Las características clave de los modelos Falcon incluyen:
- Rendimiento excepcional en una amplia gama de tareas de NLP
- Inferencia eficiente con arquitecturas optimizadas
- Capacidades multilingües, compatible con más de 100 idiomas
- Publicado bajo la licencia permisiva Apache 2.0
Los modelos Falcon se han utilizado en varios campos, incluyendo generación de contenido, traducción de idiomas, respuesta a preguntas y análisis de sentimientos. Su naturaleza de código abierto y su impresionante rendimiento los han convertido en una opción popular entre investigadores y desarrolladores.
19. MPT-30B
MosaicML, un proveedor líder de modelos de IA de código abierto, lanzó MPT-30B en junio de 2023, estableciendo un nuevo estándar para modelos de base de código abierto. Con 30 mil millones de parámetros, MPT-30B demuestra capacidades notables en una amplia gama de tareas de lenguaje natural, incluyendo generación de texto, respuesta a preguntas y resumen.
Las características destacadas de MPT-30B incluyen:
- Rendimiento de vanguardia en conjuntos de datos de referencia
- Entrenamiento e inferencia eficientes utilizando la biblioteca Composer de MosaicML
- Variantes ajustadas a instrucciones para un rendimiento mejorado en tareas específicas
- Publicado bajo las licencias Apache 2.0 y CC BY-SA-3.0
MPT-30B ha sido ampliamente adoptado por la comunidad de IA, impulsando aplicaciones como chatbots, herramientas de creación de contenido y proyectos de investigación. Su naturaleza de código abierto y su sólido rendimiento lo convierten en una opción preferida para organizaciones que buscan aprovechar el poder de los grandes modelos de lenguaje.
20. CodeGen
Desarrollado por Salesforce, CodeGen es una serie de modelos de generación de código que varían entre los 350M y los 16B de parámetros.
Las características clave de los modelos CodeGen incluyen:
- Rendimiento de vanguardia en tareas de generación de código como HumanEval
- Entrenados en un corpus grande de código de múltiples lenguajes de programación
- Soportan síntesis conversacional de programa en múltiples pasos
- Publicado bajo una licencia no comercial
Los modelos CodeGen destacan en la generación de código a partir de descripciones en lenguaje natural. Sus capacidades conversacionales en múltiples pasos permiten un flujo de trabajo de desarrollo interactivo en el que el modelo puede refinar iterativamente el código basado en la retroalimentación del usuario. CodeGen es ideal para la programación asistida por IA y la autocompletación de código.
21. FLAN-T5
FLAN-T5 es una familia de modelos ajustados a instrucciones basados en la arquitectura T5 de Google, con tamaños que van hasta los 11B de parámetros.
Las características clave de los modelos FLAN-T5 incluyen:
- Rendimiento sólido en pocas muestras en una amplia gama de tareas
- Ajustados a instrucciones en una mezcla de más de 1800 tareas diversas
- Supera a modelos mucho más grandes como PaLM-62B en algunos benchmarks
- Publicado bajo la licencia Apache 2.0
La sintonización a instrucciones de FLAN-T5 le permite rendir bien en tareas no vistas con solo unos pocos ejemplos. Esto lo hace adecuado para aplicaciones que requieren capacidades de comprensión y generación de lenguaje independientes de la tarea. FLAN-T5 se puede utilizar para responder preguntas, resumir, traducir y más.
22. GPT-NeoX-20B-Instruct
GPT-NeoX-20B-Instruct es una variante ajustada a instrucciones del modelo GPT-NeoX-20B de EleutherAI, que muestra un rendimiento sólido en tareas de seguimiento de instrucciones.
Las características clave de GPT-NeoX-20B-Instruct incluyen:
- Mejora en la capacidad para seguir instrucciones en comparación con el modelo base GPT-NeoX-20B
- Resultados prometedores en conjuntos de datos como MMLU y BBH
- Se puede utilizar para aplicaciones que requieren que los modelos sigan instrucciones específicas
- Publicado bajo la licencia Apache 2.0 La optimización de instrucciones de GPT-NeoX-20B-Instruct lo hace adecuado para construir sistemas orientados a tareas, como asistentes virtuales, que necesitan comprender y ejecutar instrucciones de usuario. También se puede utilizar para tareas generales de lenguaje en las que la capacidad de seguir instrucciones sea beneficiosa.
23. Nous Hermes
Nous Research ha desarrollado la serie Hermes de LLM de código abierto, con tamaños de modelo que van desde 2.5B hasta 13B de parámetros.
Las características principales de los modelos Nous Hermes incluyen:
- Rendimiento competitivo en modelado de lenguaje y tareas posteriores
- Implementación eficiente utilizando la biblioteca xFormers
- Variantes multilingües que admiten idiomas distintos al inglés
- Lanzado bajo la licencia Apache 2.0
Los modelos Nous Hermes ofrecen un equilibrio entre rendimiento y eficiencia, lo que los hace adecuados para una variedad de tareas de comprensión y generación de lenguaje. Las variantes multilingües son valiosas para construir aplicaciones que sirven a usuarios que no hablan inglés.
24. Ziya-LLaMA-13B
Ziya-LLaMA-13B es un modelo LLaMA chino con 13B de parámetros, desarrollado por el equipo de Ziya. Ha demostrado un rendimiento prometedor en tareas de lenguaje chino.
Las características principales de Ziya-LLaMA-13B incluyen:
- Buenos resultados en modelado de lenguaje chino y pruebas subsecuentes
- Permite construir aplicaciones de lenguaje chino con rendimiento de vanguardia
- Entrenado en un corpus grande de datos de texto chino diverso
- Lanzado bajo una licencia personalizada que permite un uso flexible
Ziya-LLaMA-13B es un recurso valioso para investigadores y desarrolladores que trabajan en aplicaciones de procesamiento de lenguaje natural en chino. Se puede utilizar para tareas como generación de contenido, responder preguntas y análisis de sentimientos en el idioma chino.
25. Vicuna
Desarrollado por la Organización de Sistemas de Modelos Grandes (LMSYS), Vicuna es un modelo de chatbot de código abierto con tamaños que van desde 7B hasta 13B de parámetros.
Las características principales de los modelos Vicuna incluyen:
- Fuertes habilidades de conversación y rendimiento en tareas de diálogo
- Ajustado finamente en un corpus grande de datos conversacionales
- Lanzado bajo una licencia no comercial
Los modelos Vicuna están diseñados específicamente para construir chatbots atractivos y coherentes. Su ajuste fino en datos conversacionales los hace adecuados para aplicaciones que requieren respuestas naturales y contextualmente relevantes.
Conclusión
El panorama de LLM de código abierto ha experimentado un crecimiento y progreso tremendos en 2024, con una amplia gama de modelos disponibles para diversos casos de uso y escenarios de implementación. Desde modelos a gran escala como Falcon-180B y MPT-30B hasta modelos más especializados como FastChat-T5 y Vicuna, hay LLM de código abierto adecuados para una variedad de aplicaciones.
A medida que el campo continúa evolucionando, podemos esperar avances aún mayores en arquitecturas de modelos, técnicas de entrenamiento y rendimiento en tareas posteriores. La naturaleza de código abierto de estos modelos continuará impulsando la innovación, la colaboración y la accesibilidad en la comunidad de IA.
Al seleccionar un LLM de código abierto para un caso de uso específico, es importante considerar factores como tamaño del modelo, longitud del contexto, datos de entrenamiento, términos de licencia y rendimiento en pruebas relevantes. Los modelos discutidos en este artículo proporcionan un punto de partida para explorar las capacidades y el potencial de los LLM de código abierto en 2024.