Want to Become a Sponsor? Contact Us Now!🎉

LLM
Miqu-1-70B: ¿El modelo de lenguaje Mistral Large LLM filtrado?

Miqu-1-70B: El modelo de lenguaje filtrado que empuja los límites de la IA de código abierto

A finales de enero de 2024, la comunidad de IA se sorprendió por la aparición repentina de un nuevo modelo de lenguaje grande llamado "Miqu-1-70B". Subido a la plataforma de código abierto HuggingFace por un usuario llamado "Miqu Dev", el modelo rápidamente llamó la atención por su impresionante rendimiento en varios puntos de referencia, compitiendo con gigantes de la industria como GPT-4 y GPT-3.5. A medida que crecía la especulación de que Miqu-1-70B era una versión filtrada del modelo no publicado de Mistral AI, las implicaciones para el futuro de la IA de código abierto se volvieron cada vez más evidentes.

Published on

Un análisis completo del modelo de lenguaje Miqu-1-70B, sus impresionantes puntos de referencia, comparaciones con los principales modelos y una guía para ejecutarlo localmente.

¿Quieres conocer las últimas noticias sobre LLM? ¡Echa un vistazo a la última tabla de clasificación de LLM!

Anakin AI - The Ultimate No-Code AI App Builder

El filtrado que sacudió al mundo de la IA

El 28 de enero de 2024, "Miqu Dev" subió un conjunto de archivos a HuggingFace, revelando el modelo Miqu-1-70B. Simultáneamente, un usuario anónimo, posiblemente "Miqu Dev" él mismo, publicó un enlace a los archivos en 4chan, lo que generó un gran interés y discusión en la comunidad de IA.

Rápidamente surgieron sospechas de que Miqu-1-70B era una versión cuantizada del modelo Mistral Medium no publicado de Mistral AI, dadas las similitudes en el formato de las indicaciones y el estilo de interacción. Estas sospechas fueron confirmadas por el CEO de Mistral, Arthur Mensch, quien reconoció que un empleado había filtrado una versión anterior y cuantizada de su modelo.

Especificaciones técnicas y arquitectura

Bajo el capó, Miqu-1-70B es un modelo de 70 mil millones de parámetros basado en la arquitectura Llama 2 de Meta. Se ha cuantizado para funcionar con menos de 24 GB de VRAM, lo que lo hace más accesible para los usuarios sin hardware de alta gama. El modelo cuenta con un valor de theta de 1,000,000 y una ventana de contexto máxima de 32K, lo que lo diferencia de los modelos Llama 2 y CodeLlama estándar.

Puntos de referencia y comparaciones: Miqu-1-70B se defiende

A pesar de ser un modelo filtrado y cuantizado, Miqu-1-70B ha demostrado un rendimiento notable en varios puntos de referencia, acercándose a las capacidades de los principales modelos como GPT-4.

En una prueba de opción múltiple, Miqu-1-70B respondió correctamente 17 de 18 preguntas, a tan solo un punto del puntaje perfecto de GPT-4. También obtuvo un impresionante 83.5 en la prueba EQ-Bench, acercándose al nivel de inteligencia emocional de GPT-4.

En términos de perplejidad, Miqu-1-70B es comparable a los modelos Llama 2 70B ajustados, obteniendo un puntaje de menos de 4 con una longitud de contexto de 512. Esto supera al modelo CodeLlama 70B, que tiene una perplejidad de alrededor de 5.5 con la misma longitud de contexto.

ModeloParámetrosPerplejidadMMLUEQ-Bench
Miqu-1-70B70B~4 @ 51270+83.5
GPT-4????
GPT-3.5175B???
Llama 2 70B70B~4 @ 512??
CodeLlama 70B70B~5.5 @ 512??
Claude????
Mistral/Mixtral-8x7B-Instructa56B???

Si bien no se dispone de datos exhaustivos de puntos de referencia para todos los modelos, el rendimiento de Miqu-1-70B sugiere que es competitivo con los principales modelos propietarios como GPT-4 y GPT-3.5, así como con el modelo Mixtral-8x7B-Instructa de Mistral.

Ejecución de Miqu-1-70B en local: una guía paso a paso

Para aquellos ansiosos por experimentar con Miqu-1-70B, es posible ejecutar el modelo en local utilizando la biblioteca Transformers para ejecutar Miqu-1-70B en Python:

from transformers import LlamaForCausalLM, LlamaTokenizer
 
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")  
input_ids = tokenizer("[INST] eloquent high camp prose about a cute catgirl [/INST]", return_tensors='pt').input_ids.cuda()
 
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
 
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))

Implicaciones y perspectivas futuras

La filtración de Miqu-1-70B tiene implicaciones significativas para el futuro del desarrollo de IA de código abierto. Demuestra el rápido progreso que se está logrando en la creación de modelos poderosos y accesibles que pueden competir con el rendimiento de sistemas propietarios como GPT-4.

La respuesta del CEO de Mistral, Arthur Mensch, a la filtración sugiere un cambio potencial hacia un enfoque más colaborativo en el manejo de tales incidentes. En lugar de emprender acciones legales, Mensch reconoció la filtración y expresó entusiasmo por el compromiso de la comunidad con el modelo.

Mientras esperamos los próximos lanzamientos oficiales de Mistral, que se espera que superen las capacidades de Miqu-1-70B, la comunidad de IA está llena de anticipación. El éxito de Miqu-1-70B ha establecido un nuevo punto de referencia para los modelos de código abierto y ha generado discusiones sobre el potencial de nuevos paradigmas en el desarrollo y la colaboración de la IA.

Conclusión

La aparición de Miqu-1-70B ha sacudido la comunidad de inteligencia artificial, mostrando el inmenso potencial de los modelos de código abierto para competir con los líderes de la industria. Su impresionante rendimiento en puntos de referencia y su capacidad para ejecutarse localmente lo han convertido en un tema de gran interés tanto para investigadores como para entusiastas. Como presenciamos la rápida evolución de la tecnología de IA, la filtración de Miqu-1-70B sirve como recordatorio de la importancia de la innovación, la colaboración y el poder de la comunidad de código abierto para impulsar el progreso. Con modelos como Miqu-1-70B empujando los límites de lo que es posible, podemos esperar ver aún más desarrollos revolucionarios en un futuro cercano.

¿Quieres conocer las últimas noticias de LLM? ¡Echa un vistazo a la última tabla de clasificación de LLM!

Anakin AI - The Ultimate No-Code AI App Builder