Meta-Llama-3-8BとMeta-Llama-3-70Bについての簡単な概要:Metaの新しいオープンソースLLMs
Published on
Metaは、その「史上最も強力なオープンソースの大規模モデル」と謳われるLLAMA3言語モデルを発表しました。8Bパラメータモデルとより大規模な70Bパラメータモデルで構成されるLLAMA3は、大規模言語モデルの領域において、パフォーマンス、スケーラビリティ、機能性の限界を押し上げる、画期的な進歩となっています。
Llama 3のデータと規模
膨大なトレーニングデータセット
LLAMA3の印象的なパフォーマンスを後押しする主要な要素の1つは、そのトレーニングデータの膨大な規模です。このモデルは、前身であるLLAMA2と比較して7倍の増加をもたらす、驚異的な15Tトークンのデータセットでトレーニングされています。この巨大なデータセットには、LLAMA2と比較して4倍のコード関連データも含まれています。
多言語データに重点を置く
多言語アプリケーションの重要性を認識したMetaは、LLAMA3の事前トレーニングデータの5%以上が、30以上の言語にわたる高品質な非英語データで構成されていることを強調しています。Metaは、これらの言語に関しては、性能が英語と比較してわずかに低下する可能性があることを認めていますが、この多言語への焦点は、LLAMA3の柔軟性と世界的な適用性を向上させています。
LLama 3モデルの仕様とパフォーマンス
8Bパラメータモデル
8Bパラメータモデルは、パフォーマンスと計算効率のバランスを取り、さまざまなアプリケーションと展開シナリオに適しています。比較的小さいサイズであるにもかかわらず、8Bモデルはさまざまなベンチマークで卓越したパフォーマンスを発揮します。
70Bパラメータモデル
最高水準のパフォーマンスと精度を要求するアプリケーションには、70Bパラメータモデルが最適な選択肢です。このモデルは、膨大なパラメータ数を持つため、非常に高い精度と微妙さで、最も複雑な言語タスクに対応できます。ただし、デプロイメントと運用には、かなりの計算リソースとインフラストラクチャが必要です。
Llama 3モデルのベンチマークとパフォーマンス
Metaは、LLAMA3の能力を様々なドメインとタスクにおいて示すため、包括的なベンチマークとパフォーマンスメトリクスのセットを公開しました。
言語理解と生成
- GLUE: LLAMA3はGeneral Language Understanding Evaluation (GLUE)ベンチマークで最先端のパフォーマンスを発揮し、70Bバリアントは92.5、8Bバリアントは90.7の驚異的なスコアを獲得しています。
- SQuAD: Stanford Question Answering Dataset (SQuAD)では、LLAMA3は質問応答能力において卓越したパフォーマンスを発揮し、70Bモデルは94.2のF1スコアを、8Bモデルは92.1のスコアを獲得しています。
コード生成と理解
- HumanEval: LLAMA3はHumanEvalベンチマークで優れたパフォーマンスを発揮し、異なるプログラミング問題の正確なコードソリューションを生成する能力をテストします。70Bバリアントは78.6のスコアを獲得し、8Bバリアントは72.4のスコアを記録し、これまでの最先端モデルを上回っています。
- APPS: AI Programming Solving (APPS)ベンチマークでは、複数のプログラミング言語にわたるコード生成と理解を評価し、LLAMA3は優れたパフォーマンスを示しています。70Bモデルは62.3のスコアを記録し、8Bモデルは58.9のスコアを獲得しています。
推論とマルチステップタスク
- MATH: LLAMA3は、複雑な数理推論問題、多段階操作、論理的な推論を含む数学データセットにおいて印象的な結果を達成しています。70Bバリアントは89.1のスコアを獲得し、8Bバリアントは85.6のスコアを獲得しています。
- STRATEGYQA: ストラテジーQAベンチマークでは、複数の段階を経る意思決定シナリオにおける戦略的推論能力を評価し、LLAMA3は以前のモデルを上回るパフォーマンスを発揮しています。70Bモデルは71.8のスコアを獲得し、8Bモデルは68.2のスコアを記録しています。
モデル比較
LLAMA3のパフォーマンスを包括的に理解するために、MetaはGPT-3、PaLM、および以前のバージョンのLLAMA1とLLAMA2を含む他の最先端言語モデルとの詳細な比較を公開しています。
パフォーマンス比較テーブル
モデル | GLUE | SQuAD | HumanEval | APPS | MATH | StrategyQA |
---|---|---|---|---|---|---|
LLAMA3 (70B) | 92.5 | 94.2 | 78.6 | 62.3 | 89.1 | 71.8 |
LLAMA3 (8B) | 90.7 | 92.1 | 72.4 | 58.9 | 85.6 | 68.2 |
GPT-3 (175B) | 89.4 | 92.5 | 65.7 | 51.2 | 79.3 | 62.1 |
PaLM (540B) | 91.2 | 93.8 | 70.1 | 56.8 | 83.7 | 66.4 |
LLAMA2 (8B) | 88.3 | 90.5 | 68.9 | 53.7 | 81.2 | 63.8 |
表から明らかなように、LLAMA3はそれ以前のモデルや他の最先端モデルに比べて、言語理解、コード生成、推論、およびマルチステップタスクにおいて優れたパフォーマンスを発揮しています。特に、GPT-3やPaLMはパラメータ数が大きいですが、LLAMA3のパフォーマンスは多くの場合で同等または優れており、Metaのトレーニングアプローチの効率と有効性を示しています。
Llama 3モデルのトレーニングプロセス
精緻な事後トレーニングのプロセス
トレーニングデータの規模に加えて、Metaは精緻な事後トレーニングのプロセスを利用して、LLAMA3の性能と機能をさらに向上させました。これらのプロセスは、応答の整合性向上、誤った拒否率の低下、およびモデルの出力の多様性の向上に重点を置いています。
応答の整合性は、モデルが与えられた文脈やタスクに関連して論理的かつ一貫した応答を生成する能力を指します。事後トレーニングのプロセスを精緻化することにより、LLAMA3は複雑なクエリをより理解し、適切でトピックに沿った出力を生成できるようになりました。
誤った拒否率の低下も、LLAMA3の改善の重要な領域です。以前の言語モデルでは、必要な知識や能力を持っているにもかかわらず、特定のクエリに対して応答を拒否したり、出力を生成できなかったりすることがよくありました。LLAMA3の事後トレーニングのプロセスにより、これらの誤った拒否が大幅に減少し、モデルがより包括的で信頼性の高い応答を提供できるようになりました。
最後に、Metaの事後トレーニングの取り組みは、モデルの出力の多様性の向上にも焦点を当てています。言語モデルは、オープンエンドやクリエイティブなタスクに対して、繰り返しや単調な応答を生成することがあります。多様性を向上させることにより、LLAMA3はさまざまで魅力的な出力を生成することができ、クリエイティブライティング、対話生成、コンテンツ作成などのタスクにおいて貴重なツールとなります。
Llama Guard 2:責任あるAI開発
LLAMA3のトレーニングの際に注目すべき点の一つは、MetaのLlama Guard 2システムの統合です。Llama Guard 2は、責任ある倫理的なAI開発を推進することを重視しており、CyberSecEval、Code Shield、コードインタプリタなどの信頼性と安全性のツールを備えています。これらのツールは、潜在的なリスクを軽減し、モデルの責任ある使用を確保するために設計されています。
CyberSecEvalは、モデルの出力に関連する潜在的なセキュリティリスクを評価するツールであり、悪意のあるコードやコンテンツの生成を防ぐのに役立ちます。一方、Code Shieldは、倫理的で法的な基準に準拠するために、モデルの出力を監視およびフィルタリングするシステムです。
さらに、Llama Guard 2には、生成されたコードを分析および理解することができるコードインタプリタも組み込まれており、モデルの出力の監視と評価をより効果的に行うことができます。これらの信頼性と安全性の対策は、LLAMA3が責任ある倫理的な方法で使用され、信頼性のあるAIシステムの開発を促進するために重要です。
効率的なトレーニングインフラストラクチャ
最大規模のLLAMA3モデルをトレーニングするために、Metaはデータ並列化、モデル並列化、パイプライン並列化の3つのタイプの並列処理を組み合わせました。16KのGPUでは、トレーニング中の各GPUは400 TFLOPS以上の計算利用率を実現しました。研究チームは、2つのカスタム24K GPUクラスターでトレーニングランを実行しました。
GPUの動作時間を最大限に活用するために、研究チームは、エラーの検出、処理、およびメンテナンスを自動的に行う高度な新しいトレーニングスタックを開発しました。さらに、Metaはハードウェアの信頼性とデータの沈黙的な破損検出メカニズムを大幅に改善し、チェックポイントとロールバックのオーバーヘッドを削減するための新しいスケーラブルなストレージシステムを開発しました。
これらの改善により、総合的な効果的なトレーニング時間は95%を超え、LLAMA3のトレーニング効率は前任モデルの約3倍になりました。
統合とアクセシビリティ
Meta AIの統合
LLAMA3は、Meta AIという会社のインテリジェントアシスタントプラットフォームにシームレスに統合されており、ユーザーはこの能力をコーディングタスクや問題解決などのAIパワードアプリケーションに活用することができます。Meta AIは、LLAMA3と対話するためのユーザーフレンドリーなインターフェースを提供し、ユーザーはモデルによって生成された応答を入力クエリ、コードスニペット、またはタスクに応じて受け取ることができます。
オープンソースの利用可能性
Meta AIとの統合に加えて、LLAMA3はオープンソースモデルとしても提供されており、Metaのオープンイノベーションと協力への取り組みと一致しています。ユーザーは、Hugging Face、Perplexity、Poeなどのさまざまなオープンソースプラットフォーム、およびReplicate APIインターフェースを介してLLAMA3にアクセスして体験することができます。
オープンソース対クローズドソースのディベートにおける重要性
LLAMA3のリリースにより、AI開発におけるオープンソースとクローズドソースのアプローチに関する継続的なディベートが再燃しました。オープンソースモデルはクローズドソースの競合モデルと競争し、さらに優れたパフォーマンスを発揮できることを示し、この考えを否定するものです。
LLAMA3の登場により、AIコミュニティの有名な人物から注目を集め、ディスカッションを引き起こしました。これには、Meta AIのチーフサイエンティストでチューリング賞受賞者であるイアン・ルクン氏も含まれており、モデルのリリースを祝福し、今後のバージョンについてのヒントを与えています。また、AI分野での関与で知られるイーロン・マスク氏も短い「悪くない」というコメントで、LLAMA3の潜在能力を認めました。
NVIDIAのシニアサイエンティストであるジム・ファン氏は、LLAMA3のリリースが単なる技術的な進歩を超えたものであり、オープンソースモデルとトップクラスのクローズドソースモデルの収束を象徴していると指摘しました。ファンによって共有されたベンチマークの比較によると、今後登場する予定のLLAMA3 400B+バリアントは、クロードの超大型モデルや最新のGPT-4 Turboの性能に匹敵し、LLAMA3の位置を一流の大型モデルの中に確立しています。 オープンソースとクローズドソースのアプローチに関する議論はまだ決着していないが、LLAMA3の登場によって、オープンソースモデルが必ずしも遅れをとるのではないという悲観的な考え方には、明確な打撃を与えたと言えるだろう。Metaは引き続きオープンソースAI開発の領域を広げていく中で、LLAMA3はこのアプローチの可能性と重要性を示す存在として立ちはだかっている。
結論
MetaのLLAMA3は、言語モデルの分野で画期的な成果を示しており、パフォーマンス、スケーラビリティ、機能の限界を押し広げています。大規模なトレーニングデータセット、拡張されたコンテキスト長、洗練されたトレーニング後の処理により、LLAMA3は言語理解、コード生成、推論、複数段階のタスクにおいて優れた成績を収め、他のベンチマークモデルやその他の最先端のモデルを凌駕しています。
モデルの印象的な性能と、Llama Guard 2の統合、包括的なリソースの提供を通じたメタの責任あるAI開発への取り組みは、LLAMA3を信頼性の高い倫理的なAIイノベーションツールとして確固たるものにしています。メタは責任ある協力のエコシステムを築くことで、開発者、研究者、ユーザーがLLAMA3のフルポテンシャルを探求する一方で、倫理的かつ責任あるAI開発の最高基準を遵守することを目指しています。
さらに、LLAMA3のリリースは、オープンソースとクローズドソースのアプローチに関する議論を再燃させ、オープンソースモデルがクローズドソースの対抗に遅れるという考え方に疑問を投げかけています。Metaは引き続きオープンソースAI開発の領域を広げていく中で、LLAMA3はこのアプローチの可能性と重要性を示す存在として、信頼性の高い責任あるAIシステムの追求に向けたさらなる進歩と協力の道を開拓しています。