WizardLM 2: La prochaine génération de modèles linguistiques avancés de Microsoft
Published on
Microsoft a récemment introduit et mis en open source WizardLM 2, leur prochaine génération de modèles linguistiques avancés (LLM) de pointe. Cette nouvelle famille comprend trois modèles de pointe : WizardLM-2 8x22B, WizardLM-2 70B et WizardLM-2 7B, qui ont montré des performances améliorées dans les domaines de la discussion complexe, du multilinguisme, du raisonnement et des capacités d'agent.
L'évolution de WizardLM
WizardLM 2 est la dernière étape de l'effort de Microsoft pour augmenter la taille des LLM après l'entraînement. Au cours de l'année écoulée, l'entreprise a travaillé sur l'entraînement de la série Wizard, en commençant par leur travail sur l'autonomisation des grands modèles linguistiques à suivre des instructions complexes. Ils ont ensuite accéléré l'évolution vers des scénarios de raisonnement en code et en mathématiques. Ainsi, Evol-Instruct et l'apprentissage par renforcement supervisé du processus d'instruction (RLEIF) sont devenus des technologies fondamentales pour la communauté GenAI.
Les modèles WizardLM 2
La famille WizardLM 2 se compose de trois modèles :
- WizardLM-2 8x22B : Le modèle le plus avancé de Microsoft, c'est le meilleur LLM en open source dans leur évaluation interne pour les tâches très complexes.
- WizardLM-2 70B : Ce modèle atteint des capacités de raisonnement de premier ordre et est le premier choix dans sa catégorie de taille.
- WizardLM-2 7B : Le modèle le plus rapide, il atteint des performances comparables à celles des modèles ouverts propriétaires existants qui sont dix fois plus grands.
Aperçu de la méthode
Au fur et à mesure que les données générées par l'homme deviennent de plus en plus épuisées, Microsoft estime que les données soigneusement créées par l'IA et les modèles supervisés par l'IA seront la seule voie vers une IA plus puissante. Pour atteindre cet objectif, ils ont construit un système d'entraînement synthétique entièrement alimenté par l'IA.
Prétraitement des données
Le pipeline de prétraitement des données comprend les étapes suivantes :
- Analyse des données : Cette étape aide à comprendre la répartition des différentes caractéristiques dans les nouvelles données sources.
- Échantillonnage pondéré : La distribution des meilleures données d'entraînement n'est pas toujours homogène avec la distribution naturelle des corpus de chat humain. Par conséquent, les poids des différentes caractéristiques dans les données d'entraînement sont ajustés en fonction de l'expérience expérimentale.
- Apprentissage progressif : Contrairement à la pratique courante qui consiste à utiliser toutes les données pour un entraînement unique, Microsoft a constaté que l'utilisation de différentes partitions de données et un entraînement progressif étape par étape permet d'obtenir de meilleurs résultats avec moins de données.
Évol Lab
L'Evol Lab est responsable de la génération de paires [instruction, réponse] plus diverses et complexes. Il se compose de deux composants principaux :
- Evol-Instruct : Cette méthode permet à divers agents de générer automatiquement des instructions de haute qualité.
- Evol-Answer : Le fait de guider le modèle pour générer et réécrire plusieurs fois les réponses peut améliorer sa logique, sa correction et son affinité.
AI Align AI (AAA)
AI Align AI (AAA) est un cadre qui rassemble les WizardLM et divers modèles de pointe pour se co-enseigner et s'améliorer mutuellement. Il se compose de deux composants principaux :
- Co-enseignement : Les modèles s'engagent dans une discussion simulée, une évaluation de la qualité, des suggestions d'amélioration et une fermeture des lacunes en compétences afin de s'enseigner et de s'améliorer mutuellement.
- Auto-enseignement : WizardLM peut générer de nouvelles données d'entraînement par évolution pour l'apprentissage supervisé et des données de préférence pour l'apprentissage par renforcement via l'apprentissage actif à partir de lui-même.
Apprentissage
Le processus d'apprentissage comporte trois étapes principales :
- Apprentissage supervisé : Les modèles sont entraînés à l'aide de données labellisées.
- Stage-DPO : Pour un apprentissage par renforcement hors ligne plus efficace, les données de préférence sont divisées en différentes tranches et le modèle est progressivement amélioré étape par étape.
- RLEIF : Cette approche utilise des modèles de récompense de qualité d'instruction (IRM) combinés à des modèles de récompense de supervision du processus (PRM) pour obtenir une précision plus précise dans l'apprentissage par renforcement en ligne.
Capacités de WizardLM 2
Pour évaluer les performances de WizardLM 2, Microsoft a réalisé des évaluations humaines et automatiques, comparant leurs modèles à diverses références. Les résultats montrent que WizardLM 2 présente des performances très compétitives par rapport aux travaux propriétaires de pointe et surpasse de manière constante tous les modèles open source de pointe.
Évaluation des préférences humaines
Dans une comparaison en aveugle par paires, les modèles WizardLM 2 ont été évalués par rapport aux références en utilisant un ensemble d'instructions réelles complexes et difficiles. Les résultats ont montré que :
- WizardLM-2 8x22B est légèrement en deçà de GPT-4-1106-preview et nettement plus performant que Command R Plus et GPT4-0314.
- WizardLM-2 70B est meilleur que GPT4-0613, Mistral-Large et Qwen1.5-72B-Chat.
- WizardLM-2 7B est comparable à Qwen1.5-32B-Chat et dépasse Qwen1.5-14B-Chat et Starling-LM-7B-beta.
MT-Bench
Microsoft a également adopté le cadre d'évaluation automatique MT-Bench basé sur GPT-4 pour évaluer les performances de leurs modèles. Les résultats ont montré que WizardLM-2 8x22B présente des performances très compétitives par rapport aux travaux propriétaires les plus avancés tels que GPT-4-Turbo et Claude-3. Pendant ce temps, WizardLM-2 7B et WizardLM-2 70B sont les modèles les plus performants parmi les autres références de premier plan à une échelle de modèle de 7B à 70B.
Utilisation
Les poids du modèle WizardLM-2 8x22B et WizardLM-2 7B sont partagés sur Hugging Face et WizardLM-2 70B ainsi que la démo de tous les modèles seront disponibles dans les prochains jours. Pour garantir la qualité de la génération, les utilisateurs doivent utiliser strictement les mêmes prompts système fournis par Microsoft.
WizardLM-2 adopte le format de prompt de Vicuna et prend en charge les conversations à plusieurs tours. Le prompt doit être le suivant :
Un chat entre un utilisateur curieux et un assistant d'intelligence artificielle. L'assistant donne des réponses utiles, détaillées et polies aux questions de l'utilisateur.
UTILISATEUR : Bonjour
ASSISTANT : Bonjour.
UTILISATEUR : Qui es-tu ?
ASSISTANT : Je suis WizardLM.
...
Microsoft propose également un code de démonstration d'inférence pour WizardLM-2 sur son dépôt GitHub.
En conclusion, WizardLM 2 représente une avancée significative dans les modèles de langage de grande envergure, démontrant des performances améliorées dans les conversations complexes, le multilinguisme, le raisonnement et les capacités d'agent. En tirant parti des systèmes d'entraînement synthétique alimentés par l'IA et des techniques d'apprentissage innovantes, Microsoft repousse les limites de ce que les modèles de langage open-source peuvent accomplir.