25 Mejores Modelos de Lenguaje de Código Abierto de 2024

Name: Lynn Mikami

Published on 30/4/2024

¿Quieres conocer los mejores LLM de código abierto para probar? ¡Lee este artículo para descubrirlo ahora!

Introducción a los LLM de Código Abierto

El panorama de los modelos de lenguaje de código abierto (LLM) ha crecido significativamente en 2024, ofreciendo a investigadores, desarrolladores y negocios acceso a modelos de última generación sin necesidad de licencias propietarias. Este artículo explora más de 20 de los mejores LLM de código abierto, sus características clave, métricas de rendimiento, mejores casos de uso, número de parámetros y longitud del contexto.

Por qué los LLM de Código Abierto son Mejores

Los LLM de código abierto ofrecen varias ventajas convincentes sobre sus contrapartes propietarias, lo que los convierte en una opción cada vez más atractiva para una amplia gama de aplicaciones. Aquí hay algunas razones clave por las que los LLM de código abierto son mejores:

Rentabilidad: Los LLM de código abierto están disponibles de forma gratuita, eliminando la necesidad de costosas tarifas de licencia asociadas con los modelos propietarios. Esto los hace más accesibles para investigadores, startups y organizaciones con presupuestos limitados.
Transparencia: La naturaleza abierta de estos modelos permite una mayor transparencia en su arquitectura, datos de entrenamiento y funcionamiento interno. Esta transparencia fomenta la confianza, permite la auditoría y facilita la reproducibilidad de los resultados.
Personalización y flexibilidad: Los LLM de código abierto proporcionan la libertad de modificar, adaptar y ajustar los modelos para adaptarlos a casos de uso y requisitos específicos del dominio. Esta flexibilidad es crucial para las organizaciones que buscan construir soluciones de IA personalizadas.
Innovación impulsada por la comunidad: Los LLM de código abierto se benefician de la inteligencia colectiva y las contribuciones de una comunidad global de investigadores y desarrolladores. Este enfoque colaborativo acelera la innovación, lo que lleva a mejoras rápidas y diversas aplicaciones.
Mitigación del bloqueo de proveedores: Al optar por LLM de código abierto, las organizaciones pueden evitar quedar atrapadas en el ecosistema de un solo proveedor. Esta independencia permite un mayor control sobre los datos, la infraestructura y la capacidad de cambiar entre modelos según sea necesario.
Abordar preocupaciones éticas: La transparencia y la responsabilidad que ofrecen los LLM de código abierto ayudan a abordar preocupaciones éticas en torno a la IA, como el sesgo, la equidad y el uso responsable. La capacidad de inspeccionar y modificar estos modelos permite a los investigadores identificar y mitigar posibles problemas.

Si bien los LLM propietarios aún tienen su lugar, especialmente en escenarios que requieren soporte de grado empresarial e integración perfecta, los beneficios de los LLM de código abierto son convincentes. A medida que el ecosistema de LLM de código abierto continúa madurando, podemos esperar ver modelos aún más poderosos y versátiles que rivalicen o superen a sus contrapartes propietarias.

Los 25 Mejores LLM de Código Abierto

1. Mistral

Mistral 7B es un LLM de código abierto desarrollado por Mistral AI, que muestra un rendimiento prometedor y admite longitudes de contexto largas.

Las características clave de Mistral 7B incluyen:

Rendimiento competitivo en modelado de lenguaje y tareas secundarias
Longitud de contexto larga de 4096-16K tokens utilizando atención de ventana deslizante
Lanzado bajo la licencia Apache 2.0

La longitud de contexto larga de Mistral 7B lo hace adecuado para tareas que involucran texto extendido, como resumen de documentos, respuesta a preguntas en formato largo y generación consciente del contexto. Su atención de ventana deslizante permite un procesamiento eficiente de secuencias de entrada muy largas.

Lecturas adicionales sobre los modelos de Mistral:

Mistral 7B

Mistral 8x7B

mistral-large

2. OpenHermes

OpenHermes es una serie de LLM de código abierto desarrollados por Nous Research, con tamaños que van desde 2.5B hasta 13B parámetros.

Las características clave de los modelos de OpenHermes incluyen:

Buen rendimiento en modelado de lenguaje y tareas secundarias
Entrenamiento y inferencia eficientes utilizando el lenguaje y el compilador Triton
Lanzados bajo la licencia Apache 2.0

Los modelos de OpenHermes son versátiles y se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje. Su entrenamiento e inferencia eficientes los hacen adecuados para entornos con recursos limitados o aplicaciones con requisitos estrictos de latencia.

3. LLaMA 2

La familia de modelos LLaMA 2 de Meta, lanzada en junio de 2023, tiene como objetivo democratizar el acceso a potentes modelos de lenguaje con tamaños que van desde 7B hasta 70B parámetros.

Las características clave de los modelos LLaMA 2 incluyen:

Rendimiento competitivo en modelado de lenguaje y tareas de procesamiento de lenguaje natural
Longitud de contexto larga de 4096 tokens, lo que permite una mejor comprensión de texto extendido
Flexibilidad en la implementación con una variedad de tamaños de modelos
Lanzados bajo una licencia personalizada que permite su uso gratuito para entidades con menos de 700M de usuarios, con algunas restricciones

Los modelos LLaMA 2 se han utilizado en generación de contenido, resumen, sistemas de diálogo y respuesta a preguntas. Su buen rendimiento y naturaleza de código abierto los han convertido en una opción popular para investigadores y desarrolladores.

4. Bloom

Bloom, desarrollado por BigScience, es un modelo de lenguaje multilingüe de acceso abierto con 176B de parámetros que ha ganado una adopción significativa desde su lanzamiento en 2022.

Las características clave de Bloom incluyen:

Buen rendimiento en una variedad de tareas y métricas de PLN, especialmente en entornos multilingües
Multilingüismo, admite generación de texto en 46 idiomas y 13 lenguajes de programación
Lanzado bajo la licencia OpenRAIL-M v1, permitiendo un uso y modificación flexibles Bloom's multilinguality and strong performance make it a compelling choice for applications serving diverse linguistic audiences. It is well-suited for tasks like translation, multilingual content generation, and cross-lingual understanding.

5. OPT

OPT (Open Pre-trained Transformer) es una serie de LLMs de código abierto que van desde 125M hasta 175B de parámetros, desarrollados por Meta AI.

Las características clave de los modelos OPT incluyen:

Fuerte rendimiento de cero disparos en diferentes pruebas de procesamiento del lenguaje natural (PLN)
Entrenamiento en un amplio corpus de datos de texto no etiquetado
Flexibilidad en la implementación con una gama de tamaños de modelos
Lanzado bajo la licencia Apache 2.0

Las capacidades de cero disparos de OPT lo hacen adecuado para aplicaciones en las que no es factible el ajuste fino. La gama de tamaños de los modelos permite una implementación flexible en diferentes presupuestos de cómputo y requisitos de latencia.

6. GPT-NeoX-20B

GPT-NeoX-20B es un modelo de lenguaje autogresivo de código abierto con 20 mil millones de parámetros, desarrollado por EleutherAI.

Las características clave de GPT-NeoX-20B incluyen:

Rendimiento competitivo en pruebas de modelado de lenguaje
Prometedoras capacidades de aprendizaje de pocos disparos
Lanzado bajo la licencia Apache 2.0

GPT-NeoX-20B es adecuado para tareas generativas como la escritura de historias, la generación de artículos y la escritura creativa. Sus fuertes capacidades de modelado del lenguaje lo convierten en una buena opción para aplicaciones que requieran generación de texto coherente.

7. Pythia

Pythia es un conjunto de LLMs de código abierto que van desde 70M hasta 12B de parámetros, diseñados para permitir el análisis de modelos de lenguaje a través del entrenamiento y la escalabilidad.

Las características clave de los modelos Pythia incluyen:

Prometedor rendimiento en diversas tareas de PLN
Diseñados para facilitar la investigación sobre la dinámica del entrenamiento y las propiedades de escalabilidad de los modelos de lenguaje
Lanzados bajo la licencia Apache 2.0

Los modelos de Pythia están principalmente destinados a fines de investigación, permitiendo experimentos controlados sobre los efectos de la escala del modelo, los datos de entrenamiento y los hiperparámetros. También se pueden utilizar como modelos base para el ajuste fino en tareas específicas.

8. OpenLLaMA

OpenLLaMA es una reproducción abierta de los modelos LLaMA de Meta, con tamaños que van desde 3B hasta 13B de parámetros.

Las características clave de los modelos OpenLLaMA incluyen:

Reproducción fiel de la arquitectura y metodología de entrenamiento de LLaMA
Permiten a los investigadores estudiar y desarrollar modelos de lenguaje de última generación
Lanzados bajo la licencia Apache 2.0

Los modelos de OpenLLaMA son valiosos para la investigación en arquitecturas de modelos de lenguaje, técnicas de entrenamiento y leyes de escalabilidad. También pueden servir como punto de partida para desarrollar modelos derivados adaptados a dominios o tareas específicas.

9. OLMo

Desarrollado por el Allen Institute for AI (AI2), OLMo (Open Language Model) es una familia de LLMs de código abierto que priorizan la transparencia, la reproducibilidad y la accesibilidad. El modelo más grande, OLMo 7B Twin 2T, demuestra un rendimiento impresionante en una variedad de pruebas de PLN.

Las características clave de los modelos OLMo incluyen:

Entrenamiento en un corpus diverso de datos de texto de alta calidad
Énfasis en la reproducibilidad, con documentación detallada y código de entrenamiento de código abierto
Lanzados bajo la licencia Apache 2.0

Los modelos de OLMo son adecuados para aplicaciones de investigación, con un enfoque en la interpretabilidad y la robustez. Se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje.

10. Gemma

Gemma es una familia de LLMs de código abierto desarrollados por Google, con características únicas como el soporte para un contexto de largo alcance de hasta 8192 tokens.

Las características clave de los modelos Gemma incluyen:

Rendimiento competitivo en pruebas de modelado de lenguaje y PLN
Entrenamiento e inferencia eficientes utilizando el marco JAX de Google
Variantes multilingües, como Gemma 7B it, entrenada con datos de texto en italiano
Lanzados bajo los Términos de Uso de Gemma, que permiten un uso y modificación flexibles

La longitud del contexto largo de Gemma la hace especialmente adecuada para tareas que involucran texto extendido, como la resumen de documentos, la respuesta a preguntas en formato largo y la generación de contenido. Sus variantes multilingües son valiosas para aplicaciones específicas de cada idioma.

11. GPT-J-6B

GPT-J-6B es un modelo de lenguaje de código abierto con 6 mil millones de parámetros, desarrollado por EleutherAI.

Las características clave de GPT-J-6B incluyen:

Ampliamente utilizado y con un rendimiento sólido en diversas tareas de lenguaje
Sirve como base para muchos modelos y aplicaciones derivadas
Lanzado bajo la licencia Apache 2.0

GPT-J-6B es un modelo versátil adecuado para una variedad de tareas de generación y comprensión de lenguaje. Su tamaño moderado lo hace más accesible para la implementación en comparación con modelos más grandes.

12. Dolly

Dolly es una serie de LLMs de código abierto ajustados a instrucciones, desarrollados por Databricks, con tamaños que van desde 3B hasta 12B de parámetros.

Las características clave de los modelos Dolly incluyen:

Fuerte rendimiento en tareas de seguimiento de instrucciones y comprensión general del lenguaje
Basados en la arquitectura Pythia
Utilizados para construir chatbots y otras aplicaciones
Lanzados bajo la licencia MIT

La adaptación a instrucciones de Dolly lo hace adecuado para construir agentes conversacionales, sistemas de diálogo orientados a tareas y aplicaciones que requieren seguir instrucciones específicas. La gama de tamaños de los modelos permite una implementación flexible.

13. StableLM-Alpha

StableLM-Alpha es una suite de LLMs de código abierto que van desde 3B hasta 65B de parámetros, desarrollados por Stability AI.

Las características clave de los modelos StableLM-Alpha incluyen:

Prometedor rendimiento en tareas de modelado de lenguaje y tareas posteriores
Longitud de contexto de 4096 tokens, que permite una mejor comprensión de textos extendidos
Lanzados bajo la licencia CC BY-SA-4.0

La longitud del contexto de StableLM-Alpha lo hace adecuado para tareas que involucran secuencias de entrada más largas, como la comprensión de documentos, la summarización y la generación de contexto. La gama de tamaños de los modelos permite una implementación flexible.

14. RWKV

RWKV es una familia de modelos de lenguaje basados en RNN de código abierto con tamaños de hasta 14B de parámetros.

Las características clave de los modelos RWKV incluyen:

Rendimiento a nivel de transformador mientras se tiene un tiempo de inferencia O(1) independiente de la longitud del contexto
Longitud de contexto infinita (basado en RNN)
Resultados sólidos en modelado de lenguaje y tareas complementarias
Publicado bajo la licencia Apache 2.0

La longitud de contexto infinita y la inferencia eficiente de RWKV lo hacen ideal para tareas que involucran secuencias de entrada muy largas o generación en tiempo real. Es una buena opción para aplicaciones que requieren procesar documentos largos o mantener contexto a largo plazo.

15. FastChat-T5

FastChat-T5 es un modelo de chatbot de código abierto con 3B de parámetros desarrollado por Anthropic, basado en la arquitectura T5.

Las características clave de FastChat-T5 incluyen:

Habilidades conversacionales fuertes y optimizado para una inferencia eficiente
Rendimiento competitivo en tareas de diálogo
Publicado bajo la licencia Apache 2.0

FastChat-T5 está específicamente diseñado para construir chatbots y agentes conversacionales. Su tamaño compacto y su inferencia eficiente lo hacen adecuado para aplicaciones de chat en tiempo real.

16. h2oGPT

Desarrollado por H2O.ai, h2oGPT es una familia de LLM de código abierto que varía entre los 12B y los 20B de parámetros.

Las características clave de los modelos h2oGPT incluyen:

Priorización de la transparencia y un rendimiento sólido en referencias de NLP
Ofreciendo un equilibrio entre el tamaño del modelo y su rendimiento
Publicado bajo la licencia Apache 2.0

Los modelos h2oGPT son versátiles y se pueden utilizar para una variedad de tareas de comprensión y generación de lenguaje. Su enfoque en la transparencia los hace adecuados para aplicaciones que requieren interpretabilidad y responsabilidad.

17. RedPajama-INCITE

RedPajama-INCITE es una familia de modelos base, ajustados a instrucciones y de chat de código abierto que varían entre los 3B y los 7B de parámetros.

Las características clave de los modelos RedPajama-INCITE incluyen:

Habilidades conversacionales fuertes y rendimiento en tareas de seguimiento de instrucciones
Entrenamiento en un corpus grande de datos de alta calidad
Publicado bajo la licencia Apache 2.0

Los modelos RedPajama-INCITE son adecuados para construir chatbots, sistemas de diálogo orientados a tareas y aplicaciones que requieren seguir instrucciones específicas. Sus habilidades conversacionales fuertes los convierten en una buena elección para aplicaciones interactivas y atractivas.

18. Falcon

Desarrollado por el Technology Innovation Institute (TII) en Abu Dhabi, Falcon es una familia de LLM de código abierto que ha logrado avances significativos en 2024. El modelo más grande, Falcon-180B, cuenta con impresionantes 180 mil millones de parámetros, lo que lo convierte en uno de los LLM de código abierto más potentes disponibles. Los modelos Falcon se entrenan en el conjunto de datos RefinedWeb, que consiste en datos web de alta calidad, lo que les permite superar a los modelos entrenados en corpus curados.

Las características clave de los modelos Falcon incluyen:

Rendimiento excepcional en una amplia gama de tareas de NLP
Inferencia eficiente con arquitecturas optimizadas
Capacidades multilingües, compatible con más de 100 idiomas
Publicado bajo la licencia permisiva Apache 2.0

Los modelos Falcon se han utilizado en varios campos, incluyendo generación de contenido, traducción de idiomas, respuesta a preguntas y análisis de sentimientos. Su naturaleza de código abierto y su impresionante rendimiento los han convertido en una opción popular entre investigadores y desarrolladores.

19. MPT-30B

MosaicML, un proveedor líder de modelos de IA de código abierto, lanzó MPT-30B en junio de 2023, estableciendo un nuevo estándar para modelos de base de código abierto. Con 30 mil millones de parámetros, MPT-30B demuestra capacidades notables en una amplia gama de tareas de lenguaje natural, incluyendo generación de texto, respuesta a preguntas y resumen.

Las características destacadas de MPT-30B incluyen:

Rendimiento de vanguardia en conjuntos de datos de referencia
Entrenamiento e inferencia eficientes utilizando la biblioteca Composer de MosaicML
Variantes ajustadas a instrucciones para un rendimiento mejorado en tareas específicas
Publicado bajo las licencias Apache 2.0 y CC BY-SA-3.0

MPT-30B ha sido ampliamente adoptado por la comunidad de IA, impulsando aplicaciones como chatbots, herramientas de creación de contenido y proyectos de investigación. Su naturaleza de código abierto y su sólido rendimiento lo convierten en una opción preferida para organizaciones que buscan aprovechar el poder de los grandes modelos de lenguaje.

20. CodeGen

Desarrollado por Salesforce, CodeGen es una serie de modelos de generación de código que varían entre los 350M y los 16B de parámetros.

Las características clave de los modelos CodeGen incluyen:

Rendimiento de vanguardia en tareas de generación de código como HumanEval
Entrenados en un corpus grande de código de múltiples lenguajes de programación
Soportan síntesis conversacional de programa en múltiples pasos
Publicado bajo una licencia no comercial

Los modelos CodeGen destacan en la generación de código a partir de descripciones en lenguaje natural. Sus capacidades conversacionales en múltiples pasos permiten un flujo de trabajo de desarrollo interactivo en el que el modelo puede refinar iterativamente el código basado en la retroalimentación del usuario. CodeGen es ideal para la programación asistida por IA y la autocompletación de código.

21. FLAN-T5

FLAN-T5 es una familia de modelos ajustados a instrucciones basados en la arquitectura T5 de Google, con tamaños que van hasta los 11B de parámetros.

Las características clave de los modelos FLAN-T5 incluyen:

Rendimiento sólido en pocas muestras en una amplia gama de tareas
Ajustados a instrucciones en una mezcla de más de 1800 tareas diversas
Supera a modelos mucho más grandes como PaLM-62B en algunos benchmarks
Publicado bajo la licencia Apache 2.0

La sintonización a instrucciones de FLAN-T5 le permite rendir bien en tareas no vistas con solo unos pocos ejemplos. Esto lo hace adecuado para aplicaciones que requieren capacidades de comprensión y generación de lenguaje independientes de la tarea. FLAN-T5 se puede utilizar para responder preguntas, resumir, traducir y más.

22. GPT-NeoX-20B-Instruct

GPT-NeoX-20B-Instruct es una variante ajustada a instrucciones del modelo GPT-NeoX-20B de EleutherAI, que muestra un rendimiento sólido en tareas de seguimiento de instrucciones.

Las características clave de GPT-NeoX-20B-Instruct incluyen:

Mejora en la capacidad para seguir instrucciones en comparación con el modelo base GPT-NeoX-20B
Resultados prometedores en conjuntos de datos como MMLU y BBH
Se puede utilizar para aplicaciones que requieren que los modelos sigan instrucciones específicas
Publicado bajo la licencia Apache 2.0 La optimización de instrucciones de GPT-NeoX-20B-Instruct lo hace adecuado para construir sistemas orientados a tareas, como asistentes virtuales, que necesitan comprender y ejecutar instrucciones de usuario. También se puede utilizar para tareas generales de lenguaje en las que la capacidad de seguir instrucciones sea beneficiosa.

23. Nous Hermes

Nous Research ha desarrollado la serie Hermes de LLM de código abierto, con tamaños de modelo que van desde 2.5B hasta 13B de parámetros.

Las características principales de los modelos Nous Hermes incluyen:

Rendimiento competitivo en modelado de lenguaje y tareas posteriores
Implementación eficiente utilizando la biblioteca xFormers
Variantes multilingües que admiten idiomas distintos al inglés
Lanzado bajo la licencia Apache 2.0

Los modelos Nous Hermes ofrecen un equilibrio entre rendimiento y eficiencia, lo que los hace adecuados para una variedad de tareas de comprensión y generación de lenguaje. Las variantes multilingües son valiosas para construir aplicaciones que sirven a usuarios que no hablan inglés.

24. Ziya-LLaMA-13B

Ziya-LLaMA-13B es un modelo LLaMA chino con 13B de parámetros, desarrollado por el equipo de Ziya. Ha demostrado un rendimiento prometedor en tareas de lenguaje chino.

Las características principales de Ziya-LLaMA-13B incluyen:

Buenos resultados en modelado de lenguaje chino y pruebas subsecuentes
Permite construir aplicaciones de lenguaje chino con rendimiento de vanguardia
Entrenado en un corpus grande de datos de texto chino diverso
Lanzado bajo una licencia personalizada que permite un uso flexible

Ziya-LLaMA-13B es un recurso valioso para investigadores y desarrolladores que trabajan en aplicaciones de procesamiento de lenguaje natural en chino. Se puede utilizar para tareas como generación de contenido, responder preguntas y análisis de sentimientos en el idioma chino.

25. Vicuna

Desarrollado por la Organización de Sistemas de Modelos Grandes (LMSYS), Vicuna es un modelo de chatbot de código abierto con tamaños que van desde 7B hasta 13B de parámetros.

Las características principales de los modelos Vicuna incluyen:

Fuertes habilidades de conversación y rendimiento en tareas de diálogo
Ajustado finamente en un corpus grande de datos conversacionales
Lanzado bajo una licencia no comercial

Los modelos Vicuna están diseñados específicamente para construir chatbots atractivos y coherentes. Su ajuste fino en datos conversacionales los hace adecuados para aplicaciones que requieren respuestas naturales y contextualmente relevantes.

Conclusión

El panorama de LLM de código abierto ha experimentado un crecimiento y progreso tremendos en 2024, con una amplia gama de modelos disponibles para diversos casos de uso y escenarios de implementación. Desde modelos a gran escala como Falcon-180B y MPT-30B hasta modelos más especializados como FastChat-T5 y Vicuna, hay LLM de código abierto adecuados para una variedad de aplicaciones.

A medida que el campo continúa evolucionando, podemos esperar avances aún mayores en arquitecturas de modelos, técnicas de entrenamiento y rendimiento en tareas posteriores. La naturaleza de código abierto de estos modelos continuará impulsando la innovación, la colaboración y la accesibilidad en la comunidad de IA.

Al seleccionar un LLM de código abierto para un caso de uso específico, es importante considerar factores como tamaño del modelo, longitud del contexto, datos de entrenamiento, términos de licencia y rendimiento en pruebas relevantes. Los modelos discutidos en este artículo proporcionan un punto de partida para explorar las capacidades y el potencial de los LLM de código abierto en 2024.

Baidu ERNIE: ¿Puede este bot de IA desafiar al GPT-4?De principiante a experto: cómo hacer una llamada exitosa a la API de Chat GPT