Cómo ejecutar Llama 3 localmente
Published on
Llama 3 de Meta es la última iteración de su modelo de lenguaje de código abierto de gran tamaño, que cuenta con un rendimiento impresionante y accesibilidad. Con tamaños de modelo que van desde 8 mil millones (8B) hasta un enorme 70 mil millones (70B) de parámetros, Llama 3 ofrece una potente herramienta para tareas de procesamiento de lenguaje natural. Sin embargo, ejecutar modelos tan grandes localmente puede ser un desafío, ya que requiere recursos computacionales sustanciales y experiencia técnica. Afortunadamente, Ollama, una herramienta simplificada desarrollada por Microsoft, simplifica el proceso de ejecución de modelos de lenguaje de código abierto como Llama 3 en máquinas locales.
¿Qué es Ollama?
Ollama es una solución fácil de usar que combina los pesos del modelo, las configuraciones y los conjuntos de datos en un solo paquete, definido por un Modelfile. Optimiza la configuración y los detalles de la configuración, incluido el uso de la GPU, lo que facilita a los desarrolladores e investigadores ejecutar modelos de lenguaje de gran tamaño localmente. Ollama admite una amplia gama de modelos, incluido Llama 3, lo que permite a los usuarios explorar y experimentar con estos modelos de lenguaje de vanguardia sin las complicaciones de los procedimientos de configuración complejos.
Requisitos del sistema para ejecutar Llama 3 localmente
Antes de sumergirse en el proceso de instalación, es esencial asegurarse de que su sistema cumpla con los requisitos mínimos para ejecutar modelos de lenguaje Llama 3 localmente. Los requisitos de recursos varían según el tamaño del modelo, con modelos más grandes que requieren hardware más potente.
Para el modelo 8B, necesitará al menos:
- 8 GB de VRAM
- 16 GB de RAM
- Se recomienda una GPU como NVIDIA RTX 3070 o mejor para un rendimiento óptimo.
En cuanto al modelo 70B, necesitará:
- Una GPU de gama alta con al menos 24 GB de VRAM, como NVIDIA RTX 3090 o A100
- Al menos 64 GB de RAM
- Suficiente espacio de almacenamiento, ya que estos modelos pueden consumir varios gigabytes de espacio en disco.
Instalación de Ollama
El proceso de instalación de Ollama es sencillo y se puede realizar con un solo comando. Abre una terminal en tu sistema y ejecuta lo siguiente:
curl -fsSL https://ollama.com/install.sh | sh
Este comando descargará e instalará la última versión de Ollama en tu sistema. Una vez que la instalación esté completa, puedes verificar la instalación ejecutando ollama --version
.
Descarga de modelos Llama 3
Ollama proporciona una forma conveniente de descargar y gestionar los modelos Llama 3. Para descargar el modelo 8B, ejecuta el siguiente comando:
ollama pull llama3-8b
Para el modelo 70B, utiliza:
ollama pull llama3-70b
Estos comandos descargarán los modelos respectivos y sus archivos asociados a tu máquina local. Dependiendo de la velocidad de tu conexión a internet y las especificaciones de tu sistema, el proceso de descarga puede tardar algún tiempo, especialmente para el modelo más grande de 70B.
Ejecución de modelos Llama 3
Una vez que hayas descargado los modelos, puedes ejecutarlos utilizando el comando run
de Ollama. Para el modelo 8B, ejecuta:
ollama run llama3-8b
Para el modelo 70B, utiliza:
ollama run llama3-70b
Estos comandos iniciarán una sesión interactiva con el modelo Llama 3 respectivo, lo que te permitirá ingresar indicaciones y recibir respuestas generadas. Ollama se encargará de la configuración y la configuración necesarias, lo que facilitará la interacción con los modelos sin tener amplios conocimientos técnicos.
Uso avanzado
Ollama ofrece varias funciones y opciones avanzadas para mejorar tu experiencia con los modelos Llama 3. Por ejemplo, puedes especificar la cantidad de GPUs a utilizar, habilitar la cuantificación para una inferencia más rápida o ajustar el tamaño del lote (batch size) y la longitud de la secuencia para un rendimiento óptimo.
Para explorar estas opciones avanzadas, consulta la documentación de Ollama o ejecuta ollama run --help
para obtener una lista de las opciones disponibles y sus descripciones.
Integración de Llama 3 con aplicaciones
Si bien ejecutar modelos Llama 3 de forma interactiva es útil para pruebas y exploración, es posible que desees integrarlos en tus aplicaciones o flujos de trabajo. Ollama ofrece una API de Python que te permite interactuar programáticamente con los modelos, lo que permite una integración perfecta en tus proyectos.
Aquí tienes un ejemplo de cómo usar la API de Python de Ollama para generar texto con el modelo Llama 3 8B:
import ollama
# Cargar el modelo
model = ollama.load("llama3-8b")
# Generar texto
prompt = "Érase una vez, había un"
output = model.generate(prompt, max_new_tokens=100)
print(output)
Este fragmento de código carga el modelo Llama 3 8B, proporciona un indicación y genera 100 nuevos tokens como continuación de la indicación. Puedes personalizar la indicación, la longitud de salida y otros parámetros según tus necesidades.
Puntuaciones y rendimiento de Llama 3 8B y Llama 3 70B
Los modelos Llama 3 han demostrado un rendimiento impresionante en varias pruebas de referencia, superando a menudo a sus predecesores y a modelos más grandes. Aquí tienes algunos resultados de las pruebas de referencia:
Pruebas generales
Prueba | Llama 3 8B | Llama 3 70B |
---|---|---|
MMLU (5 disparos) | 66.6 | 79.5 |
AGIEval inglés (3-5 disparos) | 45.9 | 63.0 |
CommonSenseQA (7 disparos) | 72.6 | 83.8 |
Winogrande (5 disparos) | 76.1 | 83.1 |
BIG-Bench Difícil (3 disparos, CoT) | 61,1 | 81,3 |
ARC-Challenge (25 disparos) | 78,6 | 93,0 |
Razonamiento del conocimiento
Referencia | Llama 3 8B | Llama 3 70B |
---|---|---|
TriviaQA-Wiki (5 disparos) | 78,5 | 89,7 |
Comprensión de lectura
Referencia | Llama 3 8B | Llama 3 70B |
---|---|---|
SQuAD (1 disparo) | 76,4 | 85,6 |
QuAC (1 disparo, F1) | 44,4 | 51,1 |
BoolQ (0 disparo) | 75,7 | 79,0 |
DROP (3 disparos, F1) | 58,4 | 79,7 |
Estas referencias demuestran las impresionantes capacidades de Llama 3, siendo el modelo de 70B frecuentemente más eficiente que la versión de 8B, como se esperaba. Sin embargo, el modelo de 8B sigue ofreciendo un rendimiento notable, lo que lo convierte en una opción viable para aquellos con recursos computacionales limitados.
Conclusión
Ejecutar modelos de lenguaje de gran tamaño como Llama 3 localmente nunca ha sido tan fácil gracias a Ollama. Con su interfaz fácil de usar y su proceso de configuración simplificado, Ollama permite a los desarrolladores, investigadores y entusiastas aprovechar el poder de estos modelos de vanguardia en sus máquinas locales. Ya sea que esté trabajando en tareas de procesamiento de lenguaje natural, explorando las capacidades de Llama 3 o integrándolo en sus aplicaciones, Ollama proporciona una solución conveniente y eficiente. Entonces, ¿por qué esperar? ¡Descargue Ollama hoy mismo y desbloquee el potencial de Llama 3 en su sistema local!