Miqu-1-70B : Le Modèle Linguistique Fuité qui repousse les limites de l'IA en Open Source
Fin janvier 2024, la communauté de l'IA a été agitée par l'apparition soudaine d'un nouveau modèle linguistique appelé "Miqu-1-70B". Mis en ligne sur la plateforme open-source HuggingFace par un utilisateur nommé "Miqu Dev", le modèle a rapidement attiré l'attention pour ses performances impressionnantes sur divers tests, rivalisant avec des géants de l'industrie tels que GPT-4 et GPT-3.5. Alors que les spéculations grandissaient selon lesquelles Miqu-1-70B était une version fuitée du modèle inédit de Mistral AI, les implications pour l'avenir de l'IA en open-source devenaient de plus en plus évidentes.
Published on
Voulez-vous connaître les dernières actualités LLM ? Consultez le dernier classement LLM !
La Fuite qui a Fait le Tour du Monde de l'IA
Le 28 janvier 2024, "Miqu Dev" a mis en ligne un ensemble de fichiers sur HuggingFace, révélant le modèle Miqu-1-70B. Simultanément, un utilisateur anonyme, potentiellement "Miqu Dev" lui-même, a publié un lien vers les fichiers sur 4chan, suscitant un intérêt généralisé et des discussions au sein de la communauté de l'IA.
Des suspicions ont rapidement émergé selon lesquelles Miqu-1-70B était une version quantifiée du modèle inédit Mistral Medium de Mistral AI, étant donné les similitudes dans le format des indicateurs et le style d'interaction. Ces suspicions ont été confirmées par Arthur Mensch, PDG de Mistral, qui a reconnu qu'une ancienne version quantifiée de leur modèle avait été divulguée par un employé.
Spécifications Techniques et Architecture
Sous le capot, Miqu-1-70B est un modèle de 70 milliards de paramètres basé sur l'architecture Llama 2 de Meta. Il a été quantifié pour fonctionner avec moins de 24 Go de VRAM, le rendant plus accessible aux utilisateurs sans matériel haut de gamme. Le modèle se targue d'une valeur theta de 1 000 000 et d'une fenêtre contextuelle maximale de 32K, ce qui le distingue des modèles Llama 2 standard et CodeLlama.
Benchmarks et Comparaisons : Miqu-1-70B se Démarque
Malgré le fait qu'il s'agit d'un modèle fuité et quantifié, Miqu-1-70B a démontré des performances remarquables sur divers benchmarks, se rapprochant des capacités des modèles phares comme GPT-4.
Sur un test à choix multiple, Miqu-1-70B a répondu correctement à 17 questions sur 18, à seulement un point du score parfait de GPT-4. Il a également obtenu un impressionnant 83,5 sur le EQ-Bench, se rapprochant du niveau d'intelligence émotionnelle de GPT-4.
En termes de perplexité, Miqu-1-70B est comparable aux modèles Llama 2 70B ajustés, avec un score inférieur à 4 pour une longueur de contexte de 512. Cela dépasse le modèle CodeLlama 70B affaibli, qui a une perplexité d'environ 5,5 pour la même longueur de contexte.
Modèle | Paramètres | Perplexité | MMLU | EQ-Bench |
---|---|---|---|---|
Miqu-1-70B | 70B | ~4 @ 512 | 70+ | 83.5 |
GPT-4 | ? | ? | ? | ? |
GPT-3.5 | 175B | ? | ? | ? |
Llama 2 70B | 70B | ~4 @ 512 | ? | ? |
CodeLlama 70B | 70B | ~5.5 @ 512 | ? | ? |
Claude | ? | ? | ? | ? |
Mistral/Mixtral-8x7B-Instruct | 56B | ? | ? | ? |
Bien que des données de benchmark complètes pour tous les modèles ne soient pas disponibles, les performances de Miqu-1-70B suggèrent qu'il est compétitif avec les modèles propriétaires phares tels que GPT-4 et GPT-3.5, ainsi qu'avec le modèle Mixtral-8x7B-Instruct de Mistral.
Exécution de Miqu-1-70B Localement : Guide pas à pas
Pour ceux qui souhaitent expérimenter avec Miqu-1-70B, il est possible d'exécuter le modèle localement en utilisant la bibliothèque Transformers pour exécuter Miqu-1-70B en Python :
from transformers import LlamaForCausalLM, LlamaTokenizer
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")
input_ids = tokenizer("[INST] eloquent high camp prose about a cute catgirl [/INST]", return_tensors='pt').input_ids.cuda()
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))
Implications et Perspectives Futures
La fuite de Miqu-1-70B a des implications significatives pour l'avenir du développement de l'IA en open-source. Elle démontre les progrès rapides réalisés dans la création de modèles puissants et accessibles, capables de rivaliser avec les performances de systèmes propriétaires comme GPT-4.
La réponse du PDG de Mistral, Arthur Mensch, à la fuite suggère un changement potentiel vers une approche plus collaborative pour gérer de tels incidents. Plutôt que de porter plainte, Mensch a reconnu la fuite et a exprimé son enthousiasme pour l'engagement de la communauté avec le modèle.
Dans l'attente des prochaines versions officielles de Mistral, qui devraient surpasser les capacités de Miqu-1-70B, la communauté de l'IA est en effervescence d'anticipation. Le succès de Miqu-1-70B a établi une nouvelle norme pour les modèles en open-source et a suscité des discussions sur le potentiel de nouveaux paradigmes dans le développement et la collaboration en IA.
Conclusion
L'émergence de Miqu-1-70B a secoué la communauté de l'IA, mettant en évidence l'immense potentiel des modèles en open-source pour rivaliser avec les leaders de l'industrie. Ses performances impressionnantes sur les benchmarks et sa capacité à s'exécuter localement en font un sujet d'intérêt majeur pour les chercheurs et les passionnés. Comme nous assistons à la rapide évolution de la technologie de l'IA, la fuite du Miqu-1-70B nous rappelle l'importance de l'innovation, de la collaboration et du pouvoir de la communauté open source pour faire avancer les choses. Avec des modèles comme Miqu-1-70B repoussant les limites de ce qui est possible, nous pouvons nous attendre à voir encore plus d'avancées révolutionnaires dans un avenir proche.
Vous voulez connaître les dernières nouvelles sur le classement LLM ? Consultez le dernier classement LLM !