Un vistazo rápido a Meta-Llama-3-8B y Meta-Llama-3-70B: Los nuevos LLMs de código abierto de Meta

Name: Lynn Mikami

Published on 30/4/2024

Un vistazo exhaustivo al modelo de lenguaje LLAMA3 de última generación de Meta, sus datos, pruebas de referencia, proceso de entrenamiento, comparación de modelos y su importancia en el debate de IA de código abierto vs. cerrado.

Meta ha presentado su vanguardista modelo de lenguaje LLAMA3, aclamado como "el modelo de código abierto más potente hasta la fecha". Con dos variantes: un modelo de 8B parámetros y un modelo más grande de 70B parámetros, LLAMA3 representa un gran avance en el campo de los modelos de lenguaje grandes, empujando los límites de rendimiento, escalabilidad y capacidades.

Datos y Escala de Llama 3

Masivo Conjunto de Datos de Entrenamiento

Uno de los factores clave que impulsa el impresionante rendimiento de LLAMA3 es la amplitud de su conjunto de datos de entrenamiento. El modelo ha sido entrenado en un asombroso conjunto de datos de 15T tokens, un aumento de siete veces en comparación con su predecesor, LLAMA2. Este masivo conjunto de datos abarca una amplia gama de contenido, incluyendo un aumento de cuatro veces en datos relacionados con código en comparación con LLAMA2.

Enfoque en Datos Multilingües

Reconociendo la importancia de las aplicaciones multilingües, más del 5% de los datos de preentrenamiento de LLAMA3 consisten en datos no ingleses de alta calidad que abarcan más de 30 idiomas. Aunque Meta reconoce que el rendimiento para estos idiomas puede ser ligeramente inferior en comparación con el inglés, este enfoque multilingüe mejora la versatilidad y aplicabilidad global de LLAMA3.

Especificaciones de los Modelos y Rendimiento de los Modelos LLama 3

Modelo de 8B Parámetros

El modelo de 8B parámetros logra un equilibrio entre rendimiento y eficiencia computacional, lo que lo hace adecuado para una amplia gama de aplicaciones y escenarios de implementación. A pesar de su tamaño relativamente más pequeño, el modelo de 8B ofrece un rendimiento excepcional en varias pruebas de referencia.

Modelo de 70B Parámetros

Para aplicaciones que exigen el más alto nivel de rendimiento y precisión, el modelo de 70B parámetros es la elección definitiva. Con su gran cantidad de parámetros, este modelo puede abordar incluso las tareas de lenguaje más complejas con una precisión y sutileza sin igual, aunque requiere recursos computacionales e infraestructura significativos para su despliegue y funcionamiento.

Pruebas de Referencia y Rendimiento de los Modelos Llama 3

Meta ha lanzado un conjunto completo de pruebas de referencia y métricas de rendimiento para demostrar las capacidades de LLAMA3 en diversos dominios y tareas.

Comprensión y Generación de Lenguaje

GLUE: LLAMA3 alcanza un rendimiento de vanguardia en la prueba de evaluación de comprensión del lenguaje general (GLUE), con la variante de 70B obteniendo una impresionante puntuación de 92.5 y la variante de 8B una puntuación de 90.7.
SQuAD: En el conjunto de datos de preguntas y respuestas de Stanford (SQuAD), LLAMA3 demuestra una capacidad excepcional para responder preguntas, con el modelo de 70B alcanzando un impresionante puntaje F1 de 94.2 y el modelo de 8B obteniendo un puntaje de 92.1.

Generación y Comprensión de Código

HumanEval: LLAMA3 sobresale en la prueba de evaluación humana (HumanEval), que evalúa la capacidad de un modelo para generar soluciones de código correctas para un conjunto diverso de problemas de programación. La variante de 70B alcanza una puntuación de 78.6, mientras que la variante de 8B obtiene un puntaje de 72.4, superando a modelos de vanguardia previos.
APPS: En la prueba de resolución de programación de inteligencia artificial (APPS), que evalúa la generación y comprensión de código en varios lenguajes de programación, LLAMA3 demuestra un rendimiento superior, con el modelo de 70B obteniendo una puntuación de 62.3 y el modelo de 8B logrando 58.9.

Razonamiento y Tareas de Múltiples Pasos

MATH: LLAMA3 logra resultados impresionantes en el conjunto de datos MATH, que evalúa la capacidad de un modelo para resolver problemas de razonamiento matemático complejos que involucran operaciones de múltiples pasos y deducciones lógicas. La variante de 70B obtiene una puntuación de 89.1, mientras que la variante de 8B obtiene un puntaje de 85.6.
STRATEGYQA: En la prueba StrategyQA, que evalúa la capacidad de razonamiento estratégico de un modelo en escenarios de toma de decisiones de múltiples pasos, LLAMA3 supera a modelos anteriores, con el modelo de 70B obteniendo una puntuación de 71.8 y el modelo de 8B obteniendo un puntaje de 68.2.

Comparación de Modelos

Para proporcionar una comprensión integral del rendimiento de LLAMA3, Meta ha publicado comparaciones detalladas con otros modelos de lenguaje de vanguardia, incluidos GPT-3, PaLM y sus propias iteraciones anteriores, LLAMA1 y LLAMA2.

Tabla de Comparación de Rendimiento

Modelo	GLUE	SQuAD	HumanEval	APPS	MATH	StrategyQA
LLAMA3 (70B)	92.5	94.2	78.6	62.3	89.1	71.8
LLAMA3 (8B)	90.7	92.1	72.4	58.9	85.6	68.2
GPT-3 (175B)	89.4	92.5	65.7	51.2	79.3	62.1
PaLM (540B)	91.2	93.8	70.1	56.8	83.7	66.4
LLAMA2 (8B)	88.3	90.5	68.9	53.7	81.2	63.8

Como se puede ver en la tabla, LLAMA3 supera a sus predecesores y a otros modelos de vanguardia en diversas pruebas de referencia, demostrando su rendimiento superior en comprensión del lenguaje, generación de código, razonamiento y tareas de múltiples pasos. Cabe destacar que, aunque GPT-3 y PaLM tienen una mayor cantidad de parámetros, el rendimiento de LLAMA3 es comparable o mejor en muchos casos, destacando la eficiencia y eficacia del enfoque de entrenamiento de Meta.

Proceso de Entrenamiento de los Modelos Llama 3

Procesos refinados de post-entrenamiento

Además del enorme volumen de datos utilizados para el entrenamiento, Meta utilizó procesos refinados de post-entrenamiento para mejorar aún más el rendimiento y las capacidades de LLAMA3. Estos procesos se centraron en mejorar la alineación de las respuestas, reducir las tasas de rechazo falsas y aumentar la diversidad en las salidas del modelo.

La alineación de respuestas se refiere a la capacidad del modelo para generar respuestas que sean coherentes y consistentes con el contexto y la tarea dada. Al refinar los procesos de post-entrenamiento, LLAMA3 puede entender y responder de manera más efectiva a consultas complejas, asegurando que sus salidas sean relevantes y estén relacionadas con el tema.

La reducción de las tasas de rechazo falsas es otra área clave de mejora en LLAMA3. Modelos de lenguaje anteriores a menudo tenían dificultades para negarse a responder o generar salidas para ciertas consultas, incluso cuando tenían el conocimiento y las capacidades necesarias. Los procesos de post-entrenamiento de LLAMA3 han reducido significativamente estas negativas falsas, lo que permite que el modelo proporcione respuestas más completas y confiables.

Finalmente, los esfuerzos de post-entrenamiento de Meta también se han centrado en aumentar la diversidad en las salidas del modelo. Los modelos de lenguaje a veces pueden generar respuestas repetitivas o monótonas, especialmente para tareas abiertas o creativas. Al mejorar la diversidad, LLAMA3 puede producir salidas más variadas y atractivas, lo que lo convierte en una herramienta valiosa para tareas como la escritura creativa, la generación de diálogos y la creación de contenido.

Llama Guard 2: Desarrollo de IA responsable

Un aspecto destacado del entrenamiento de LLAMA3 es la integración del sistema Llama Guard 2 de Meta, que se centra en promover un desarrollo de IA responsable y ético. Llama Guard 2 incluye una variedad de herramientas de confianza y seguridad, como CyberSecEval, Code Shield e intérpretes de código, diseñadas para mitigar los riesgos potenciales y garantizar el uso responsable del modelo.

CyberSecEval es una herramienta que evalúa los posibles riesgos de seguridad asociados con las salidas del modelo, ayudando a prevenir la generación de código o contenido malicioso. Code Shield, por otro lado, es un sistema que monitorea y filtra las salidas del modelo para garantizar que cumplan con los estándares éticos y legales.

Además, Llama Guard 2 incorpora intérpretes de código que pueden analizar y comprender el código generado por el modelo, lo que permite una supervisión y evaluación más efectiva de sus salidas. Estas medidas de confianza y seguridad son cruciales para garantizar que LLAMA3 se utilice de manera responsable y ética, mitigando los riesgos potenciales y promoviendo el desarrollo de sistemas de IA confiables.

Infraestructura de entrenamiento eficiente

Para entrenar el modelo más grande de LLAMA3, Meta combinó tres tipos de paralelización: paralelización de datos, paralelización de modelo y paralelización de tuberías. En 16K GPU, cada GPU logró una utilización de cálculo de más de 400 TFLOPS durante el entrenamiento. El equipo de investigación ejecutó ejecuciones de entrenamiento en dos clústeres de GPU personalizados de 24K.

Para maximizar el tiempo de actividad de las GPU, el equipo de investigación desarrolló una nueva pila de entrenamiento avanzada que realiza automáticamente la detección, manejo y mantenimiento de errores. Además, Meta mejoró significativamente la confiabilidad del hardware y los mecanismos de detección de corrupción silenciosa de datos y desarrolló un nuevo sistema de almacenamiento escalable para reducir los gastos generados por la realización de puntos de control y retrocesos.

Estas mejoras resultaron en un tiempo de entrenamiento efectivo total superior al 95%, lo que permitió que la eficiencia de entrenamiento de LLAMA3 fuera aproximadamente tres veces mayor que la de su predecesor.

Integración y accesibilidad

Integración de Meta AI

LLAMA3 se ha integrado perfectamente en Meta AI, la plataforma de asistente inteligente de la empresa, lo que permite a los usuarios aprovechar sus capacidades para tareas de codificación, resolución de problemas y otras aplicaciones impulsadas por IA. Meta AI proporciona una interfaz fácil de usar para interactuar con LLAMA3, lo que permite a los usuarios ingresar consultas, fragmentos de código o tareas y recibir respuestas generadas por el modelo.

Disponibilidad de código abierto

Además de su integración con Meta AI, LLAMA3 se ha puesto a disposición como modelo de código abierto, en consonancia con el compromiso de Meta con la innovación abierta y la colaboración. Los usuarios pueden acceder y experimentar con LLAMA3 a través de varias plataformas de código abierto, como Hugging Face, Perplexity y Poe, así como a través de la interfaz de la API de Replicate.

Importancia en el debate de código abierto vs código cerrado

El lanzamiento de LLAMA3 ha reavivado el debate en curso sobre enfoques de código abierto y código cerrado para el desarrollo de IA. Mientras que algunos han argumentado que los modelos de código abierto pueden quedarse atrás de sus contrapartes de código cerrado, el impresionante rendimiento de LLAMA3 desafía esta noción, demostrando que los modelos de código abierto pueden competir e incluso superar a los modelos de última generación de código cerrado.

La llegada de LLAMA3 ha generado discusiones y ha captado la atención de figuras destacadas en la comunidad de IA, incluido el científico jefe de Meta AI y ganador del Premio Turing, Yann LeCun, quien celebró el lanzamiento del modelo y adelantó próximas versiones. Incluso Elon Musk, conocido por su participación en el campo de la IA, reconoció el potencial de LLAMA3 con un sucinto comentario "No está mal".

Jim Fan, científico senior de NVIDIA, destacó que el lanzamiento de LLAMA3 trasciende el mero progreso tecnológico, simbolizando la convergencia de modelos de código abierto con modelos de primera línea de código cerrado. Las comparaciones de referencia compartidas por Fan sugieren que la próxima variante LLAMA3 400B+ rivalizará en rendimiento con el modelo ultra grande de Claude y el último GPT-4 Turbo, solidificando la posición de LLAMA3 entre los modelos grandes de élite. Mientras el debate entre los enfoques de desarrollo de IA de código abierto y de código cerrado está lejos de resolverse, la llegada de LLAMA3 ha dejado en claro que la noción pesimista de que los modelos de código abierto inevitablemente quedarán rezagados ha sufrido un duro golpe. A medida que Meta continúa empujando los límites del desarrollo de IA de código abierto, LLAMA3 se erige como un testimonio del potencial y la importancia de este enfoque.

Conclusión

LLAMA3 de Meta representa un logro revolucionario en el campo de los modelos de lenguaje grandes, empujando los límites de rendimiento, escalabilidad y capacidades. Con su enorme conjunto de datos de entrenamiento, longitud de contexto ampliada y procesos de post-entrenamiento refinados, LLAMA3 destaca en la comprensión del lenguaje, generación de código, razonamiento y tareas de múltiples pasos, superando a sus predecesores y a otros modelos punteros en diversas pruebas de referencia.

El impresionante rendimiento del modelo, combinado con el compromiso de Meta de desarrollar IA responsable a través de la integración de Llama Guard 2 y la provisión de recursos completos, consolida a LLAMA3 como una herramienta confiable y ética para la innovación en IA. Al fomentar un ecosistema responsable y colaborativo, Meta tiene como objetivo capacitar a desarrolladores, investigadores y usuarios para que exploren todo el potencial de LLAMA3 mientras mantienen los más altos estándares de desarrollo ético y responsable de IA.

Además, el lanzamiento de LLAMA3 ha avivado el debate en curso sobre los enfoques de código abierto y de código cerrado para el desarrollo de IA, desafiando la idea de que los modelos de código abierto inevitablemente quedarán rezagados en comparación con sus contrapartes de código cerrado. A medida que Meta continúa empujando los límites del desarrollo de IA de código abierto, LLAMA3 se erige como un testimonio del potencial y la importancia de este enfoque, abriendo el camino a futuros avances y colaboraciones en la búsqueda de sistemas de IA confiables y responsables.

Comparación detallada: LLAMA 3 vs GPT-4 Turbo vs Claude Opus vs Mistral Large Cómo ejecutar Llama.cpp en tu computadora doméstica sin esfuerzo