Want to Become a Sponsor? Contact Us Now!🎉

LLM
WizardLM 2: Microsofts nächste Generation modernster großer Sprachmodelle

WizardLM 2: Microsofts nächste Generation modernster großer Sprachmodelle

Published on

Microsoft hat kürzlich WizardLM 2 eingeführt und als Open Source veröffentlicht, ihre nächste Generation modernster großer Sprachmodelle (LLMs). Diese neue Familie umfasst drei hochmoderne Modelle: WizardLM-2 8x22B, WizardLM-2 70B und WizardLM-2 7B, die eine verbesserte Leistung in komplexen Chat-, mehrsprachigen, argumentativen und Agentenfähigkeiten gezeigt haben.
// Anzeigen des Blog-Headers

Microsoft hat kürzlich WizardLM 2 eingeführt und als Open Source veröffentlicht, ihre nächste Generation modernster großer Sprachmodelle (LLMs). Diese neue Familie umfasst drei hochmoderne Modelle: WizardLM-2 8x22B, WizardLM-2 70B und WizardLM-2 7B, die eine verbesserte Leistung in komplexen Chat-, mehrsprachigen, argumentativen und Agentenfähigkeiten gezeigt haben.

Anakin AI - The Ultimate No-Code AI App Builder
// Anzeigen der Anzeigenkomponente

Die Entwicklung von WizardLM

WizardLM 2 ist der neueste Meilenstein in Microsofts Bestreben, das LLM-Post-Training zu skalieren. Im vergangenen Jahr hat das Unternehmen die Schulung der Wizard-Serie iteriert, beginnend mit ihrer Arbeit zur Befähigung großer Sprachmodelle, komplexen Anweisungen zu folgen. Anschließend wurde die Entwicklung zu Szenarien für Code- und Mathematik-Argumentation beschleunigt. Als Ergebnis sind Evol-Instruct und Instruction&Process Supervised Reinforcement Learning (RLEIF) zu grundlegenden Technologien für die GenAI-Community geworden.

WizardLM 2 Modelle

Die WizardLM 2-Familie besteht aus drei Modellen:

  1. WizardLM-2 8x22B: Microsofts fortschrittlichstes Modell, es ist das beste Open-Source LLM in ihrer internen Bewertung für hochkomplexe Aufgaben.
  2. WizardLM-2 70B: Dieses Modell erreicht Spitzenleistungen in der Argumentationsfähigkeit und ist die erste Wahl in seiner Größenkategorie.
  3. WizardLM-2 7B: Das schnellste Modell, es erreicht vergleichbare Leistungen mit vorhandenen Open-Source-Top-Modellen, die zehnmal größer sind.

Methodenübersicht

Da von Menschen generierte Daten immer erschöpfender werden, glaubt Microsoft, dass Daten, die von KI sorgfältig erstellt wurden und von KI beaufsichtigte Modelle, der einzige Weg zu leistungsfähigerer KI sein werden. Um dies zu erreichen, haben sie ein vollständig KI-gesteuertes synthetisches Trainingssystem entwickelt.

Daten-Vorverarbeitung

Die Daten-Vorverarbeitungspipeline besteht aus den folgenden Schritten:

  1. Datenanalyse: Dieser Schritt hilft dabei, die Verteilung der verschiedenen Attribute in den neuen Quelldaten zu verstehen.
  2. Gewichtete Stichprobe: Die Verteilung der besten Trainingsdaten stimmt nicht immer mit der natürlichen Verteilung von menschlichen Chat-Korpora überein. Daher werden die Gewichte der verschiedenen Attribute in den Trainingsdaten basierend auf experimenteller Erfahrung angepasst.
  3. Progressives Lernen: Im Gegensatz zur gängigen Praxis, alle Daten für ein einmaliges Training zu verwenden, hat Microsoft festgestellt, dass die Verwendung verschiedener Datenpartitionen und ein allmähliches Training Stufe für Stufe bessere Ergebnisse mit weniger Daten erzielen kann.

Evol Lab

Das Evol Lab ist dafür verantwortlich, vielfältigere und komplexere [Anweisung, Antwort]-Paare zu generieren. Es besteht aus zwei Hauptkomponenten:

  1. Evol-Instruct: Diese Methode ermöglicht es verschiedenen Agenten, automatisch hochwertige Anweisungen zu generieren.
  2. Evol-Answer: Indem das Modell angewiesen wird, Antworten mehrmals zu generieren und umzuschreiben, kann seine Logik, Korrektheit und Affinität verbessert werden.

AI Align AI (AAA)

AI Align AI (AAA) ist ein Framework, das WizardLMs und verschiedene modernste Modelle sammelt, um sich gegenseitig zu unterrichten und zu verbessern. Es besteht aus zwei Hauptkomponenten:

  1. Gemeinsames Unterrichten: Die Modelle engagieren sich in simuliertem Chat, Qualitätsbewertung, Verbesserungsvorschlägen und Schließung von Fähigkeitslücken, um sich gegenseitig zu unterrichten und zu verbessern.
  2. Eigenunterricht: WizardLM kann neue entwicklungstrainingstaugliche Daten für überwachtes Lernen und Präferenzdaten für verstärktes Lernen generieren, indem es aktiv von sich selbst lernt.

Lernen

Der Lernprozess umfasst drei Hauptschritte:

  1. Überwachtes Lernen: Die Modelle werden mit gelabelten Daten trainiert.
  2. Stage-DPO: Für ein effektiveres Offline-Verstärkungslernen wird die Präferenzdaten in verschiedene Slices aufgeteilt und das Modell Stufe für Stufe verbessert.
  3. RLEIF: Dieser Ansatz verwendet Instruktionsqualitätsbelohnungsmodelle (IRM) in Kombination mit Prozessaufsichtsbelohnungsmodellen (PRM), um eine präzisere Korrektheit beim Online-Verstärkungslernen zu erreichen.

WizardLM 2 Fähigkeiten

Um die Leistung von WizardLM 2 zu bewerten, hat Microsoft sowohl menschliche als auch automatische Bewertungen durchgeführt und ihre Modelle mit unterschiedlichen Baselines verglichen. Die Ergebnisse zeigen, dass WizardLM 2 im Vergleich zu führenden proprietären Arbeiten eine sehr wettbewerbsfähige Leistung zeigt und alle vorhandenen modernsten Open-Source-Modelle kontinuierlich übertrifft.

Bewertung der menschlichen Präferenzen

Bei einem blinden paarweisen Vergleich wurden die WizardLM 2-Modelle gegenüber Baselines anhand eines komplexen und herausfordernden Satzes von realen Anweisungen bewertet. Die Ergebnisse zeigten, dass:

  1. WizardLM-2 8x22B nur knapp hinter GPT-4-1106-Preview liegt und deutlich stärker ist als Command R Plus and GPT4-0314.
  2. WizardLM-2 70B ist besser als GPT4-0613, Mistral-Large und Qwen1.5-72B-Chat.
  3. WizardLM-2 7B ist vergleichbar mit Qwen1.5-32B-Chat und übertrifft Qwen1.5-14B-Chat und Starling-LM-7B-beta.

MT-Bench

Microsoft hat auch das automatische Bewertungsframework MT-Bench auf Basis von GPT-4 angenommen, um die Leistung ihrer Modelle zu bewerten. Die Ergebnisse zeigten, dass WizardLM-2 8x22B eine sehr wettbewerbsfähige Leistung im Vergleich zu den fortschrittlichsten proprietären Arbeiten wie GPT-4-Turbo und Claude-3 zeigt. Gleichzeitig sind WizardLM-2 7B und WizardLM-2 70B die leistungsstärksten Modelle im Vergleich zu anderen führenden Baselines bei Modellskalen von 7B bis 70B.

Verwendung

Die Modellgewichte von WizardLM-2 8x22B und WizardLM-2 7B werden auf Hugging Face geteilt, und WizardLM-2 70B und die Demo aller Modelle werden in den kommenden Tagen verfügbar sein. Um die Qualität der Generierung zu garantieren, sollten Benutzer die gleichen Systemprompts streng nach den Angaben von Microsoft verwenden.

WizardLM-2 übernimmt das Prompt-Format von Vicuna und unterstützt mehrere Dialoge. Das Prompt sollte wie folgt aussehen:

Ein Gespräch zwischen einem neugierigen Benutzer und einem Künstlichen Intelligenz-Assistenten. Der Assistent gibt hilfreiche, detaillierte und höfliche Antworten auf die Fragen des Benutzers.
BENUTZER: Hallo
ASSISTENT: Hallo.
BENUTZER: Wer bist du?
ASSISTENT: Ich bin WizardLM.
...

Microsoft stellt auch einen Demo-Code zur Inferenz von WizardLM-2 auf ihrem GitHub-Repository zur Verfügung.

Zusammenfassend stellt WizardLM 2 einen bedeutenden Fortschritt bei großen Sprachmodellen dar und zeigt verbesserte Leistungsfähigkeit in komplexen Chat-, multilingualen, argumentativen und agentenbasierten Fähigkeiten. Durch die Nutzung von KI-gesteuerten synthetischen Trainingssystemen und innovativen Lernmethoden hat Microsoft die Grenzen dessen, was Open-Source-Sprachmodelle erreichen können, erweitert.

Anakin AI - The Ultimate No-Code AI App Builder