2024年のベスト25のオープンソース大規模言語モデル(LLM)
Published on
オープンソースLLMの紹介
2024年には、オープンソースの大規模言語モデル(LLM)の領域は大幅に拡大し、独占的なライセンスを必要とせずに最新のモデルにアクセスできるようになりました。この記事では、トップのオープンソースLLMである20以上のモデル、その主な特徴、ベンチマーク、最適な使用ケース、パラメータ数、コンテキストの長さについて探っています。
オープンソースLLMのメリット
オープンソースのLLMは、独占的なモデルに比べていくつかの魅力的な利点を持っており、さまざまなアプリケーションに対してますます魅力的な選択肢となっています。以下に、オープンソースLLMが優れているいくつかの主な理由を示します。
-
コストの効率化: オープンソースのLLMは無料で利用できるため、独占的なモデルに関連する高額なライセンス料金の必要性を排除します。これにより、研究者やスタートアップ、予算が限られた組織にとってアクセスしやすくなります。
-
透明性: これらのモデルのオープンな性質は、アーキテクチャ、トレーニングデータ、内部動作などに対するより大きな透明性を可能にします。この透明性により、信頼性が高まり、監査が可能になり、結果の再現性が向上します。
-
カスタマイズと柔軟性: オープンソースのLLMは、特定の使用ケースとドメイン要件に合わせてモデルを変更、適応、微調整する自由を提供します。この柔軟性は、特定のAIソリューションを構築する組織にとって重要です。
-
コミュニティ主導のイノベーション: オープンソースのLLMは、世界中の研究者や開発者の集合知と貢献を受けています。この協力的なアプローチにより、イノベーションが加速し、迅速な改善と多様なアプリケーションが生まれます。
-
ベンダーロックインの軽減: オープンソースのLLMを選択することで、組織は単一のベンダーのエコシステムにロックされることを避けることができます。この独立性により、データ、インフラストラクチャ、および必要に応じてモデルを切り替える能力を制御することができます。
-
倫理的な懸念への対応: オープンソースのLLMによって提供される透明性と責任問題への取り組みは、バイアス、公正性、責任ある使用といったAIに関する倫理的な懸念への対処に役立ちます。これらのモデルを検査および修正できる能力は、研究者が潜在的な問題を特定し緩和するのに役立ちます。
独占的なLLMにはまだその場所がありますが、特にエンタープライズグレードのサポートとシームレスな統合が必要なシナリオでは、オープンソースのLLMの利点は魅力的です。オープンソースのLLMエコシステムが成熟し続けるにつれて、独占的なモデルと同等またはそれ以上の強力で多目的なモデルがさらに登場することが予想されます。
トップ25のオープンソースLLM
1. Mistral
Mistral 7BはMistral AIによって開発されたオープンソースのLLMであり、有望な性能を発揮し、長いコンテキストの長さをサポートしています。
Mistral 7Bの主な特徴は次のとおりです:
- 言語モデリングとダウンストリームタスクでの競争力のあるパフォーマンス
- スライディングウィンドウアテンションを使用した4096〜16Kトークンの長いコンテキストの長さ
- Apache 2.0ライセンスでリリース
Mistral 7Bの長いコンテキストの長さは、ドキュメントの要約、長い形式の質問応答、コンテキストに敏感な生成など、拡張テキストを必要とするタスクに適しています。スライディングウィンドウアテンションにより、非常に長い入力シーケンスの効率的な処理が可能です。
Mistralモデルに関するさらなる情報:
2. OpenHermes
OpenHermesはNous Researchによって開発された一連のオープンソースのLLMであり、2.5Bから13Bのパラメーターを持っています。
OpenHermesモデルの主な特徴は次のとおりです:
- 言語モデリングとダウンストリームタスクでの高いパフォーマンス
- Triton言語とコンパイラを使用した効率的な学習と推論
- Apache 2.0ライセンスでリリース
OpenHermesモデルは多様な言語理解と生成のタスクに使用することができます。効率的な学習と推論により、リソース制約のある環境や厳しいレイテンシ要件を持つアプリケーションに適しています。
3. LLaMA 2
MetaのLLaMA 2モデルファミリーは、2023年6月にリリースされ、7Bから70Bのパラメーターを持つ強力な言語モデルへのアクセスを民主化することを目指しています。
LLaMA 2モデルの主な特徴は次のとおりです:
- 言語モデリングとダウンストリームのNLPタスクでの競争力のあるパフォーマンス
- 拡張テキストのよりよい理解を可能にする4096トークンの長いコンテキストの長さ
- モデルサイズの範囲での柔軟な展開
- 700M以下のユーザーを持つエンティティに対しては自由に使用できるカスタムライセンスの下でリリース(制限あり)
LLaMA 2モデルは、コンテンツ生成、要約、対話システム、質問応答などのさまざまなアプリケーションで使用されています。その強力なパフォーマンスとオープンソースの性質により、研究者や開発者の間で人気の選択肢となっています。
4. Bloom
BloomはBigScienceによって開発された176Bパラメーターのオープンアクセスの多言語モデルであり、2022年のリリース以来、一定の採用を獲得しています。
Bloomの主な特徴は次のとおりです:
- 多言語設定でのさまざまなNLPタスクとベンチマークの強力なパフォーマンス
- 多言語対応で、46の言語と13のプログラミング言語でのテキスト生成をサポート
- OpenRAIL-M v1ライセンスでリリースされ、柔軟な使用と修正が可能
Bloomの多言語性と高いパフォーマンスは、多様な言語の観客を対象としたアプリケーションにおいて魅力的な選択肢となります。翻訳、多言語コンテンツの生成、クロス言語理解などのタスクに適しています。
5. OPT
OPT(Open Pre-trained Transformer)は、Meta AIによって開発されたパラメータが125Mから175Bに及ぶ一連のオープンソースLLMです。
OPTモデルの主な特徴は次のとおりです:
- 様々なNLPベンチマークにおける強力なゼロショット性能
- ラベルのないテキストデータの大規模なコーパスでのトレーニング
- モデルサイズの幅広い展開の柔軟性
- Apache 2.0ライセンスでリリースされています
OPTの強力なゼロショット機能は、ファインチューニングが不可能なアプリケーションに適しています。モデルサイズの範囲は、異なる計算予算とレイテンシの要件に対して柔軟な展開を可能にします。
6. GPT-NeoX-20B
GPT-NeoX-20Bは、EleutherAIによって開発された200億のパラメータを持つオープンソースの自己回帰言語モデルです。
GPT-NeoX-20Bの主な特徴は次のとおりです:
- 言語モデリングのベンチマークでの競争力のあるパフォーマンス
- 有望なフューショット学習の能力
- Apache 2.0ライセンスでリリースされています
GPT-NeoX-20Bは、ストーリー作成、記事生成、創造的な文章作成などの生成タスクに適しています。強力な言語モデリング機能は、一貫したテキスト生成を必要とするアプリケーションに適した選択肢となります。
7. Pythia
Pythiaは、トレーニングとスケーリングの言語モデルの解析を可能にするために目的とされた、70Mから12Bのパラメータを持つオープンソースのLLMのスイートです。
Pythiaモデルの主な特徴は次のとおりです:
- 様々なNLPタスクにおける有望なパフォーマンス
- 言語モデルのトレーニングダイナミクスとスケーリング特性の研究を容易にする設計
- Apache 2.0ライセンスでリリースされています
Pythiaモデルは主に研究目的で使用され、モデルスケール、トレーニングデータ、ハイパーパラメータの効果を制御した実験を可能にします。また、特定の下流タスクに対するファインチューニングのベースモデルとしても使用できます。
8. OpenLLaMA
OpenLLaMAは、3Bから13Bまでのパラメータを持つMetaのLLaMAモデルのオープンソース再現です。
OpenLLaMAモデルの主な特徴は次のとおりです:
- LLaMAのアーキテクチャとトレーニング手法の忠実な再現
- 最先端の言語モデルの研究との組み合わせによる研究の促進
- Apache 2.0ライセンスでリリースされています
OpenLLaMAモデルは、言語モデルのアーキテクチャ、トレーニング技術、スケーリングの法則に関する研究に価値があります。また、特定のドメインやタスクに適した派生モデルの開発の出発点としても機能します。
9. OLMo
Allen Institute for AI(AI2)によって開発されたOLMo(Open Language Model)は、透明性、再現性、アクセシビリティを重視した一連のオープンソースLLMです。最大のモデルであるOLMo 7B Twin 2Tは、様々なNLPベンチマークで印象的なパフォーマンスを発揮しています。
OLMoモデルの主な特徴は次のとおりです:
- 優れた品質のテキストデータの多様なコーパスでのトレーニング
- 詳細なドキュメントとオープンソースのトレーニングコードによる再現性への注力
- Apache 2.0ライセンスでリリースされています
OLMoモデルは、解釈可能性と頑健性に重点を置いた研究アプリケーションに適しています。さまざまな言語理解や生成タスクに使用することができます。
10. Gemma
Gemmaは、Googleによって開発された一連のオープンソースLLMであり、8192トークンまでの長大なコンテキストのサポートなど、ユニークな機能を備えています。
Gemmaモデルの主な特徴は次のとおりです:
- 言語モデリングおよび下流のNLPベンチマークでの競争力のあるパフォーマンス
- GoogleのJAXフレームワークを使用した効率的なトレーニングと推論
- イタリアのテキストデータでトレーニングされたGemma 7B itなどのマルチリンガルバリアント
- Gemma利用規約に基づくリリースで、柔軟な使用と変更が可能です
Gemmaの長いコンテキスト長は、文書要約、長い形式の質問応答、コンテンツ生成などの拡張テキストを扱うタスクに特に適しています。そのマルチリンガルバリアントは、言語固有のアプリケーションに有用です。
11. GPT-J-6B
GPT-J-6Bは、EleutherAIによって開発された60億のパラメータを持つオープンソース言語モデルです。
GPT-J-6Bの主な特徴は次のとおりです:
- 多様な言語タスクで広く使用され、高いパフォーマンスを示す
- 多くの派生モデルやアプリケーションの基盤となる
- Apache 2.0ライセンスでリリースされています
GPT-J-6Bは、さまざまな言語生成および理解のタスクに適した汎用モデルです。その中程度のサイズは、より大きなモデルと比較して展開がより容易です。
12. Dolly
Dollyは、Databricksによって開発されたサイズが3Bから12Bの一連のオープンソースLLMであり、命令に基づいた調整に重点を置いています。
Dollyモデルの主な特徴は次のとおりです:
- 命令に従ったタスクと一般的な言語理解における高いパフォーマンス
- Pythiaアーキテクチャに基づいています
- チャットボットなどのアプリケーションの構築に使用されます
- MITライセンスでリリースされています
Dollyの命令によるチューニングは、会話エージェント、タスク指向の対話システム、特定の命令に従う必要があるアプリケーションの構築に適しています。モデルサイズの範囲は、展開の柔軟性を提供します。
13. StableLM-Alpha
StableLM-Alphaは、3Bから65Bまでのパラメータを持つ、Stability AIによって開発されたオープンソースLLMのスイートです。
StableLM-Alphaモデルの主な特徴は次のとおりです:
- 言語モデリングと下流のタスクでの有望なパフォーマンス
- 4096トークンの長いコンテキスト長により、拡張テキストの理解が向上
- CC BY-SA-4.0ライセンスでリリースされています
StableLM-Alphaの長いコンテキスト長は、文書理解、要約、コンテキストに応じた生成など、より長い入力シーケンスを含むタスクに適しています。モデルサイズの範囲は、展開の柔軟性を提供します。
14. RWKV
RWKVは、14BまでのサイズのオープンソースのRNNベースの言語モデルのスイートです。
RWKVモデルの主な特徴は次のとおりです:
- コンテキストの長さに関係なく O(1) の推論時間を持つトランスフォーマーレベルのパフォーマンス
- 無制限のコンテキストの長さ(RNNベース)
- 言語モデリングや下流のタスクで強力な結果を出す
- Apache 2.0 ライセンスでリリースされています
RWKV の無制限のコンテキストの長さと効率的な推論は、非常に長い入力シーケンスやリアルタイムの生成を必要とするタスクに適しています。長いドキュメントの処理や長期的なコンテキストの維持を必要とするアプリケーションに適しています。
15. FastChat-T5
FastChat-T5 は、T5 アーキテクチャを基にした Anthropic 社によって開発された 3B パラメータのオープンソースのチャットボットモデルです。
FastChat-T5 の主な特徴は次のとおりです:
- 会話能力が高く、効率的な推論に最適化されています
- 対話タスクで競争力のあるパフォーマンス
- Apache 2.0 ライセンスでリリースされています
FastChat-T5 は特にチャットボットや会話エージェントの構築に最適化されています。コンパクトなサイズと効率的な推論により、リアルタイムのチャットアプリケーションに適しています。
16. h2oGPT
H2O.ai によって開発された h2oGPT は、12B から 20B のパラメータを持つオープンソースの LLM ファミリーです。
h2oGPT モデルの主な特徴は次のとおりです:
- NLP ベンチマークで透明性と優れたパフォーマンスを重視しています
- モデルのサイズとパフォーマンスのバランスを提供します
- Apache 2.0 ライセンスでリリースされています
h2oGPT モデルは多様な言語理解や生成のタスクに使用することができます。透明性に焦点を当てた設計により、解釈性と責任を必要とするアプリケーションに適しています。
17. RedPajama-INCITE
RedPajama-INCITE は、3B から 7B のパラメータを持つオープンソースのベースモデル、命令にチューニングされたモデル、チャットモデルのファミリーです。
RedPajama-INCITE モデルの主な特徴は次のとおりです:
- 会話能力が高く、命令に従うタスクでのパフォーマンスが優れています
- 高品質なデータの大規模なコーパスでトレーニング
- Apache 2.0 ライセンスでリリースされています
RedPajama-INCITE モデルは、チャットボット、タスク指向型の対話システム、特定の命令に従う必要があるアプリケーションに適しています。会話能力が高いため、エンゲージメントが高くインタラクティブなアプリケーションに適しています。
18. Falcon
アブダビのテクノロジーイノベーション研究所(TII)によって開発された Falcon は、2024 年に大きな進展を遂げたオープンソースの LLM ファミリーです。最も大きなモデルである Falcon-180B は、1800 億のパラメータを誇り、最もパワフルなオープンソースの LLM の一つです。Falcon モデルは高品質なウェブデータである RefinedWeb データセットでトレーニングされており、キュレーションされたコーパスでトレーニングされたモデルを上回るパフォーマンスを実現しています。
Falcon モデルの主な特徴は次のとおりです:
- 広範な NLP タスクで優れたパフォーマンス
- 最適化されたアーキテクチャによる効率的な推論
- 100 を超える言語をサポートする多言語対応
- パーミッシブな Apache 2.0 ライセンスでリリースされています
Falcon モデルは、コンテンツ生成、言語翻訳、質問応答、感情分析など、さまざまなドメインでのアプリケーションに活用されています。オープンソースの性質と優れたパフォーマンスにより、研究者や開発者に人気の選択肢となっています。
19. MPT-30B
オープンソースの AI モデルの主要な提供元である MosaicML は、2023 年 6 月に MPT-30B をリリースし、オープンソースの基盤モデルの新基準を設定しました。30 億のパラメータを持つ MPT-30B は、テキスト生成、質問応答、要約など、幅広い自然言語タスクで優れた機能を示しています。
MPT-30B の特筆すべき特徴は次のとおりです:
- ベンチマークデータセットでの最先端のパフォーマンス
- MosaicML の Composer ライブラリを使用した効率的なトレーニングと推論
- タスク固有のパフォーマンス向上のための命令に調整されたバリアント
- Apache 2.0 および CC BY-SA-3.0 ライセンスでリリースされています
MPT-30B はチャットボット、コンテンツ作成ツール、研究プロジェクトなど、さまざまなアプリケーションで広く採用されています。オープンソースの性質と優れたパフォーマンスにより、大規模な言語モデルのパワーを活用したい組織にとっての選択肢となっています。
20. CodeGen
Salesforce によって開発された CodeGen は、350M から 16B のパラメータを持つコード生成モデルのシリーズです。
CodeGen モデルの主な特徴は次のとおりです:
- HumanEval のようなコード生成タスクで最先端のパフォーマンス
- 複数のプログラミング言語からの大規模なコーパスでトレーニングされています
- マルチターンの会話型プログラム合成をサポートします
- 非商用ライセンスでリリースされています
CodeGen モデルは、自然言語の説明からコードを生成することに優れています。マルチターンの会話能力により、ユーザーフィードバックに基づいてモデルが反復的にコードを洗練するインタラクティブな開発フローが可能です。CodeGen は、AI 支援プログラミングやコード補完に適しています。
21. FLAN-T5
FLAN-T5 は、Google の T5 アーキテクチャをベースにした命令にチューニングされたモデルのファミリーであり、サイズは 11B のパラメータまであります。
FLAN-T5 モデルの主な特徴は次のとおりです:
- 多様なタスクで少量のデータでも優れたパフォーマンス
- 1800 を超える異なるタスクで命令にチューニングされています
- 一部のベンチマークで PaLM-62B などのより大規模なモデルを上回るパフォーマンス
- Apache 2.0 ライセンスでリリースされています
FLAN-T5 の命令にチューニングされた能力により、わずか数例で未知のタスクに対しても優れたパフォーマンスを発揮することができます。これにより、タスクに依存しない言語理解と生成能力が必要なアプリケーションに適しています。FLAN-T5 は質問応答、要約、翻訳などに使用することができます。
22. GPT-NeoX-20B-Instruct
GPT-NeoX-20B-Instruct は、EleutherAI の GPT-NeoX-20B モデルの命令にチューニングされたバリアントであり、命令に従うタスクで優れたパフォーマンスを示しています。
GPT-NeoX-20B-Instruct の主な特徴は次のとおりです:
- ベースの GPT-NeoX-20B に比べて命令に従う能力が向上しています
- MMLU や BBH などのベンチマークで有望な結果を示しています
- 特定の命令に従うモデルが必要なアプリケーションに使用することができます
- Apache 2.0 ライセンスでリリースされています GPT-NeoX-20B-Instructの指示チューニングは、仮想アシスタントなど、ユーザーの指示を理解し実行する必要があるタスク指向システムの構築に適しています。指示に従う能力が有益な一般言語タスクにも利用できます。
23. Nous Hermes
Nous Researchは、2.5Bから13Bのパラメータを持つオープンソースのLLMであるHermesシリーズを開発しました。
Nous Hermesモデルの主な特徴は次のとおりです:
- 言語モデリングとダウンストリームタスクで競争力のあるパフォーマンス
- xFormersライブラリを使用した効率的な実装
- 非英語言語をサポートする多言語バリアント
- Apache 2.0ライセンスで公開
Nous Hermesモデルは、パフォーマンスと効率のバランスを提供し、様々な言語理解および生成タスクに適しています。多言語バリアントは、非英語話者向けのアプリケーション構築に貴重なものです。
24. Ziya-LLaMA-13B
Ziya-LLaMA-13Bは、13Bのパラメータを持つ中国語のLLaMAモデルで、Ziyaチームによって開発されました。中国語のタスクで有望なパフォーマンスを示しています。
Ziya-LLaMA-13Bの主な特徴は次のとおりです:
- 中国語の言語モデリングとダウンストリームベンチマークでの優れた結果
- 先端的なパフォーマンスで中国語のアプリケーション構築を可能にします
- 多様な中国語テキストデータの大規模なコーパスで訓練
- 柔軟な使用を許すカスタムライセンスで公開
Ziya-LLaMA-13Bは、中国語のNLPアプリケーションに取り組む研究者や開発者にとって貴重なリソースです。中国語のコンテンツ生成、質問応答、感情分析などのタスクに使用することができます。
25. Vicuna
Large Model Systems Organization(LMSYS)によって開発されたVicunaは、サイズが7Bから13Bのオープンソースのチャットボットモデルです。
Vicunaモデルの主な特徴は次のとおりです:
- 会話能力が高く、対話タスクでのパフォーマンスが優れています
- 大規模な会話データで微調整されています
- 非商用ライセンスで公開
Vicunaモデルは、対話的かつ一貫したチャットボットの構築に特化しています。会話データでの微調整により、自然で文脈に即した応答が必要なアプリケーションに適しています。
結論
2024年におけるオープンソースのLLMの環境は、さまざまなユースケースや展開シナリオに適したモデルの範囲が提供され、大きな成長と進歩が見られました。Falcon-180BやMPT-30Bのような大規模モデルから、FastChat-T5やVicunaといったより専門化されたモデルまで、様々なオープンソースのLLMが利用可能です。
この分野が進化し続ける中で、モデルアーキテクチャ、トレーニング技術、ダウンストリームタスクのパフォーマンスにさらなる進歩が期待されます。これらのモデルのオープンソース性は、AIコミュニティにおいてイノベーション、協力、アクセシビリティを促進し続けるでしょう。
特定のユースケースに対してオープンソースのLLMを選択する際には、モデルのサイズ、コンテキストの長さ、トレーニングデータ、ライセンス条件、関連するベンチマークでのパフォーマンスなどの要素を考慮することが重要です。本記事で議論されたモデルは、2024年のオープンソースのLLMの機能と可能性を探索するための出発点となります。