Mistral 7B: El Amanecer de una Nueva Era de LLM

Name: Jennie Rose

Published on 30/4/2024

Un recorrido profundo por Mistral 7B, el revolucionario modelo de lenguaje grande de Mistral AI. Descubre su destreza técnica, configuración y aplicaciones del mundo real.

El paisaje de la IA no es ajeno a las innovaciones, pero de vez en cuando, surge una maravilla como Mistral 7B, estableciendo nuevos referentes. Desarrollado por Mistral AI, este LLM no se trata solo de tamaño, sino de eficiencia, precisión y versatilidad.

¿Quieres conocer las últimas noticias de LLM? ¡Echa un vistazo a la última tabla de clasificación de LLM!

Mistral 7B: ¿Qué es?

El lanzamiento de Mistral 7B ha generado emoción y curiosidad dentro de las comunidades de IA y NLP. Su presencia en plataformas como Hugging Face y la extensa documentación proporcionada por Mistral AI ha facilitado su adopción en diversos sectores.

Referentes de Rendimiento

Cuando se trata de LLM, el rendimiento es primordial. Mistral 7B ha demostrado su valía al superar a competidores, incluido el renombrado Llama 2 13B. Pero los números solo rascan la superficie. La verdadera esencia de Mistral 7B radica en su arquitectura e características intrincadas.

Los referentes de rendimiento de Mistral 7B, especialmente su superioridad en comparación con modelos como LLaMA 1 34B en código, matemáticas y razonamiento, lo han convertido en un favorito entre desarrolladores e investigadores. Su capacidad para acercarse al rendimiento de CodeLlama 7B en tareas relacionadas con el código resalta aún más sus capacidades.

Adaptabilidad y Versatilidad de Mistral 7B

Una de las características destacadas de Mistral 7B es su adaptabilidad. Ya sea para chatbots, generación de contenido, autocompletado de código o investigación, Mistral 7B ha demostrado su versatilidad en una variedad de aplicaciones.

Mistral 7B: Configuración e Implementación

Para aquellos interesados en aprovechar el poder de Mistral 7B, aquí tienes una guía detallada:

1. Experiencia en línea con Mistral 7B:
Antes de sumergirte en la configuración, conoce Mistral 7B a través de su demostración en línea (opens in a new tab).

2. Adquisición de Mistral 7B:
El modelo se puede descargar aquí usando Torrent (opens in a new tab). El código de lanzamiento es ab979f50d7d406ab8d0b07d09806c72c.

3. Ejecución de Mistral 7B con Docker:
Para aquellos con un host habilitado para GPU, Mistral 7B se puede ejecutar con Docker. Aquí tienes un código de muestra para ejecutar el modelo con Docker:

docker run --gpus all \
 -e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
 ghcr.io/mistralai/harmattan/vllm-public:latest \
 --host 0.0.0.0 \
 --model mistralai/Mistral-7B-v0.1

Nota: Reemplaza $HF_TOKEN con tu token de acceso de usuario de Hugging Face.

4. Implementación Directa con vLLM:
Para aquellos que prefieren una implementación directa, Mistral 7B admite vLLM en hosts habilitados para GPU con Cuda 11.8. Aquí tienes una guía paso a paso:

Instalación:
Instala vLLM usando pip:
```
pip install vllm
```
Inicio de Sesión en Hugging Face Hub:
Inicia sesión en el Hugging Face hub:
```
huggingface-cli login
```

Iniciar el Servidor:
Usa el siguiente comando para iniciar el servidor:

python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model mistralai/Mistral-7B-v0.1

Innovaciones Arquitectónicas de Mistral 7B

Mistral 7B se destaca no solo por su rendimiento sino también por sus innovaciones arquitectónicas únicas. Explorémoslas en detalle:

Atención de Ventana Deslizante (SWA)

SWA permite que cada capa del modelo atienda a los 4.096 estados ocultos anteriores. Este mecanismo ofrece un costo computacional lineal, proporcional a la longitud de la secuencia de ventana deslizante. La ventaja es evidente en aplicaciones en tiempo real donde los tiempos de respuesta rápidos son esenciales.

Atención con Consulta Agrupada (GQA)

GQA está diseñada para acelerar la inferencia, asegurando que Mistral 7B pueda responder rápidamente, lo que lo hace adecuado para aplicaciones que demandan interacciones en tiempo real.

Configuración e Implementación de Mistral 7B

Mistral 7B ofrece flexibilidad en su implementación. Ya sea que desees ejecutarlo en tu máquina local o implementarlo en una plataforma en la nube, aquí tienes una guía completa:

Ejecución de Mistral 7B con Docker

Para aquellos con un host habilitado para GPU, Mistral 7B se puede ejecutar con Docker. Aquí tienes una guía paso a paso:

Descarga la Imagen de Docker:
Primero, necesitas descargar la imagen de Docker que incluye vLLM, un servidor de inferencia Python rápido, con todo lo necesario para ejecutar Mistral 7B.
```
docker pull ghcr.io/mistralai/harmattan/vllm-public:latest
```
Ejecuta el Modelo con Docker:
Una vez que la imagen se haya descargado, puedes ejecutar el modelo usando el siguiente comando:
```
docker run --gpus all \
-e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
ghcr.io/mistralai/harmattan/vllm-public:latest \
--host 0.0.0.0 \
--model mistralai/Mistral-7B-v0.1
```
Nota: Reemplaza $HF_TOKEN con tu token de acceso de usuario de Hugging Face.

Implementación Directa con vLLM

Para la implementación directa, Mistral 7B admite vLLM en hosts habilitados para GPU con Cuda 11.8. Así es cómo configurarlo:

Instalación:
Instala vLLM usando pip:
```
pip install vllm
```
Inicia Sesión en Hugging Face Hub:
Antes de poder usar el modelo, debes iniciar sesión en el Hugging Face hub:
```
huggingface-cli login
```
Inicia el Servidor:
Con los requisitos previos en su lugar, inicia el servidor usando el siguiente comando:
```
python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model mistralai/Mistral-7B-v0.1
```

Cómo Ejecutar Mistral 7B Localmente

Una vez que Mistral 7B esté configurado y en funcionamiento, puedes interactuar con él. Los pasos detallados sobre cómo utilizar el modelo se pueden encontrar en la página Interactuando con el modelo (opens in a new tab). Esta guía proporciona información sobre cómo enviar solicitudes al modelo, comprender las respuestas y ajustar el modelo para tareas específicas.

Configuración del entorno

Antes de poder interactuar con Mistral 7B, debes configurar el entorno:

Instalar el paquete de Python de OpenAI:
Este paquete facilita las interacciones con el modelo.
```
pip install openai
```

Configurar el módulo de OpenAI:
Apunta el módulo al servidor donde se implementa Mistral 7B.

import openai
openai.api_base = "http://your-server-ip-or-hostname:8000/v1" 
openai.api_key = "none"  # El servidor vLLM no está autenticado

Generación de completados de texto con Mistral 7B

Mistral 7B puede completar las indicaciones dadas, proporcionando texto coherente y contextualmente relevante. Así es como se desencadena una finalización:

Código de ejemplo para la finalización de texto:

completion = openai.Completion.create(
  model="mistralai/Mistral-7B-Instruct-v0.1", 
  prompt="El mistral es",
  temperature=0.7,
  max_tokens=200, 
  stop="."
)
print(completion.to_dict_recursive())

Este código dará como resultado una finalización como esta:

{
  'id': 'cmpl-87f6980633bb45f5aecd551bc35335e6',
  'object': 'text_completion',
  'created': 1695651536,
  'model': 'mistralai/Mistral-7B-Instruct-v0.1',
  'choices': [{
    'index': 0,
    'text': ' un viento frío, seco y del noreste que sopla sobre el Mar Mediterráneo',
    'logprobs': None,
    'finish_reason': 'stop'
  }],
  'usage': {'prompt_tokens': 5, 'total_tokens': 23, 'completion_tokens': 18}
}

Participar en chats interactivos

Mistral 7B también se puede utilizar para chats interactivos, proporcionando respuestas conversacionales a las consultas de los usuarios.

Código de ejemplo para la interacción en chats:

messages = [{"role": "user", "content": "¿Cuál es el comando bash para listar todos los archivos en una carpeta y ordenarlos por última modificación?"}]
chat_completion = openai.ChatCompletion.create(
  model="mistralai/Mistral-7B-Instruct-v0.1",
  temperature=1,
  max_tokens=1024,
  messages=messages
)

Este código inicia un chat con el modelo y el modelo proporcionará una respuesta relevante a la consulta del usuario.

Despliegue de Mistral 7B con SkyPilot

SkyPilot ofrece una experiencia perfecta para implementar LLM como Mistral 7B en varias plataformas en la nube. Promete un ahorro máximo de costos, disponibilidad óptima de GPU y ejecución administrada. Aquí tienes una guía detallada sobre cómo implementar Mistral 7B utilizando SkyPilot:

Configuración de SkyPilot

Creación de archivo de configuración:
Comienza creando un archivo de configuración que indique a SkyPilot los detalles de implementación de tu servidor de inferencia. Esto utilizará el contenedor Docker preconstruido proporcionado por Mistral AI. La configuración debería verse así:

envs:
  MODEL_NAME: mistralai/Mistral-7B-v0.1
resources: 
  cloud: aws
  accelerators: V100:1
  ports: 
  - 8000
run: |
  docker run --gpus all -p 8000:8000 ghcr.io/mistralai/harmattan/vllm-public:latest \\
  --host 0.0.0.0 \\
  --model $MODEL_NAME \\
  --tensor-parallel-size $SKYPILOT_NUM_GPUS_PER_NODE

Configuración de variables de entorno:
Deberás configurar variables de entorno específicas para que SkyPilot pueda obtener tanto el contenedor del servidor de inferencia como los pesos del modelo.
Inicio del servidor de inferencia:
Con las variables de entorno en su lugar, puedes iniciar el servidor de inferencia utilizando el siguiente comando:
```
sky launch mistral-7b-v0.1.yaml --region us-east-1
```
CUIDADO: Desplegar de esta manera hace que el modelo sea accesible a nivel mundial. Es crucial asegurarlo. Puedes exponerlo exclusivamente en tu red privada (modifica la opción --host de Docker), agregar un balanceador de carga con un mecanismo de autenticación por adelantado o configurar adecuadamente la conexión de tu instancia.

Cuotas de uso y proveedores de nube

Es importante tener en cuenta que muchos proveedores de nube requieren solicitudes de acceso explícitas para instancias potentes de GPU. Para obtener orientación al respecto, puedes consultar la guía de SkyPilot (opens in a new tab).

Conclusión: Hoja de ruta futura para Mistral AI

Si bien Mistral 7B es un hito importante, el viaje de Mistral AI no se detiene aquí. El compromiso de la compañía de empujar los límites del procesamiento del lenguaje natural (PNL) e IA asegura que podemos esperar más innovaciones, mejoras y modelos revolucionarios en el futuro.

Preguntas frecuentes (FAQs)

¿Qué es Mistral 7B?
Mistral 7B es un modelo de lenguaje grande (LLM) de vanguardia desarrollado por Mistral AI. Está diseñado para superar a muchos modelos existentes en tareas relacionadas con el código, las matemáticas y el razonamiento.
¿Cómo puedo implementar Mistral 7B en mi máquina local o en la nube?
Mistral 7B ofrece opciones flexibles de implementación. Puedes ejecutarlo localmente utilizando Docker o implementarlo en plataformas en la nube como AWS, GCP o Azure utilizando SkyPilot.
¿Es Mistral 7B de código abierto?
Sí, Mistral 7B se publica bajo la licencia Apache 2.0, lo que lo hace de código abierto y accesible para la comunidad en general.
¿Cómo se compara Mistral 7B con otros LLM en términos de rendimiento?
Mistral 7B ha demostrado un rendimiento superior a modelos como LLaMA 1 34B y se acerca a las capacidades de CodeLlama 7B, especialmente en tareas relacionadas con el código.

¿Quieres estar al tanto de las últimas noticias sobre LLM? ¡Consulta la última clasificación de LLM!

Mistral AI presenta Mistral 7B v0.2 Base Model: Un avance en rendimiento y eficiencia Mistral AI Function Calling: Cómo comenzar rápidamente