Want to Become a Sponsor? Contact Us Now!🎉

LLM
WizardLM 2: Microsoftの次世代最先端大規模自然言語モデル

WizardLM 2: Microsoftの次世代最先端大規模自然言語モデル

Published on

Microsoftは最近、次世代最先端の大規模自然言語モデル(LLM)であるWizardLM 2を発表し、オープンソース化しました。この新しいファミリーには、WizardLM-2 8x22B、WizardLM-2 70B、WizardLM-2 7Bの3つの最先端モデルが含まれており、複雑な対話、多言語、推論、エージェントの機能においてパフォーマンスが向上しています。

最近、Microsoftは次世代最先端の大規模自然言語モデル(LLM)であるWizardLM 2を発表し、オープンソース化しました。この新しいファミリーには、WizardLM-2 8x22B、WizardLM-2 70B、WizardLM-2 7Bの3つの最先端モデルが含まれており、複雑な対話、多言語、推論、エージェントの機能においてパフォーマンスが向上しています。

Anakin AI - The Ultimate No-Code AI App Builder

WizardLMの進化

WizardLM 2は、MicrosoftのLLM事後トレーニングのスケーリングに向けた最新のマイルストーンです。過去1年間、同社はWizardシリーズのトレーニングに取り組み、大規模自然言語モデルが複雑な指示に従うことを可能にしました。次に、コードと数学の推論シナリオへの進化を加速させました。結果として、Evol-InstructとInstruction&Process Supervised Reinforcement Learning(RLEIF)は、GenAIコミュニティにおける基本技術となりました。

WizardLM 2のモデル

WizardLM 2ファミリーは、次の3つのモデルで構成されています:

  1. WizardLM-2 8x22B: Microsoftの最も進んだモデルであり、高度に複雑なタスクにおいて内部評価において最も優れたオープンソースLLMです。
  2. WizardLM-2 70B: このモデルはトップクラスの推論能力を持ち、そのサイズのカテゴリでは最適な選択肢です。
  3. WizardLM-2 7B: 最も高速なモデルであり、既存のオープンソースの主要モデル(10倍のサイズ)と比較して同等のパフォーマンスを実現します。

メソッドの概要

人工生成データがますます枯渇していく中、MicrosoftはAIによって注意深く作成されたデータとAIによって監視されるモデルがより強力なAIへの唯一の道であると考えています。そのために彼らは完全にAIパワーで動く合成トレーニングシステムを構築しました。

データの前処理

データの前処理パイプラインは以下のステップで構成されています:

  1. データの分析:このステップは、新しいソースデータのさまざまな属性の分布を理解するのに役立ちます。
  2. 重み付けサンプリング:最良のトレーニングデータの分布は、人間の対話データの自然な分布と常に一致しないため、実験的な経験に基づいてトレーニングデータのさまざまな属性の重みを調整します。
  3. プログレッシブラーニング:一度にすべてのデータを使用する一般的な方法とは異なり、Microsoftは異なるデータパーティションを使用して段階的にトレーニングすることで、より少ないデータでより良い結果を得ることができるとわかりました。

Evol Lab

Evol Labは、より多様で複雑な[指示、応答]ペアを生成する責任があります。主なコンポーネントは次のとおりです:

  1. Evol-Instruct:この方法により、さまざまなエージェントが自動的に高品質な指示を生成することができます。
  2. Evol-Answer:モデルに対して複数回の応答生成と書き換えを行うことで、論理性、正確性、関連性を向上させることができます。

AI Align AI(AAA)

AI Align AI(AAA)は、WizardLMとさまざまな最先端モデルを収集し、共同で教え合い、改善するためのフレームワークです。主なコンポーネントは次のとおりです:

  1. 共同教育:モデルはシミュレートされた対話、品質判定、改善提案、スキルギャップのクロージングなどに参加し、お互いを教え合い、改善します。
  2. 自己学習:WizardLMは、自身からの能動学習を通じて監督学習の新しい進化トレーニングデータと強化学習のための好みデータを生成することができます。

学習

学習プロセスは主に次の3つのステップで行われます:

  1. 監督学習:ラベル付きデータを使用してモデルをトレーニングします。
  2. Stage-DPO:より効果的なオフライン強化学習のために、好みデータを異なるスライスに分割し、モデルを段階的に改善します。
  3. RLEIF:このアプローチでは、指示品質報酬モデル(IRM)とプロセス監視報酬モデル(PRM)を組み合わせて、オンライン強化学習においてより正確な正確性を実現します。

WizardLM 2の機能

WizardLM 2のパフォーマンスを評価するために、Microsoftは人間と自動の評価を実施し、さまざまなベースラインと比較しました。その結果、WizardLM 2は、主要なプロプライエタリ作品と比較して非常に競争力のあるパフォーマンスを示し、すべての既存の最先端オープンソースモデルよりも優れたパフォーマンスを常に発揮しています。

人間の嗜好評価

複雑で困難な実世界の指示に対して、WizardLM 2モデルはベースラインと盲検のペアワイズ比較によって評価されました。その結果は次のとおりです:

  1. WizardLM-2 8x22Bは、GPT-4-1106-previewにわずかに遅れ、Command R PlusとGPT4-0314よりもはるかに強力です。
  2. WizardLM-2 70Bは、GPT4-0613、Mistral-Large、Qwen1.5-72B-Chatよりも優れています。
  3. WizardLM-2 7Bは、Qwen1.5-32B-Chatと比較して同等であり、Qwen1.5-14B-ChatとStarling-LM-7B-betaを上回ります。

MT-Bench

Microsoftは、モデルのパフォーマンスを評価するためにGPT-4に基づく自動的なMT-Bench評価フレームワークを採用しました。その結果、WizardLM-2 8x22Bは、GPT-4-TurboやClaude-3などの最も先進的なプロプライエタリ作品と非常に競争力のあるパフォーマンスを発揮します。一方、WizardLM-2 7BとWizardLM-2 70Bは、7Bから70Bのモデルスケールにおいて他の主要ベースラインの中で最も優れたパフォーマンスを発揮します。

使用方法

WizardLM-2 8x22BとWizardLM-2 7Bのモデルの重みはHugging Faceで共有されており、WizardLM-2 70Bおよびすべてのモデルのデモは近日中に利用可能になります。生成品質を保証するため、ユーザーはMicrosoftが提供するシステムプロンプトを厳密に使用する必要があります。

WizardLM-2は、Vicunaからのプロンプト形式を採用しており、マルチターンの対話をサポートしています。プロンプトは以下のようにする必要があります:

好奇心のあるユーザーと人工知能アシスタントのチャット。アシスタントはユーザーの質問に対して、役に立つ、詳細で礼儀正しい回答を提供します。
ユーザー:こんにちは
アシスタント:こんにちは。
ユーザー:あなたは誰ですか?
アシスタント:私はWizardLMです。
...

また、MicrosoftはGitHubリポジトリでWizardLM-2の推論デモコードも提供しています。

WizardLM 2は、大規模な言語モデルにおける重要な進歩を代表し、複雑なチャット、多言語、推論能力などのパフォーマンスが向上しています。AIを活用した合成トレーニングシステムと革新的な学習技術を利用することで、Microsoftはオープンソース言語モデルがどのような成果を上げることができるのか、その限界を押し広げています。

Anakin AI - The Ultimate No-Code AI App Builder