Starling-7B: 強力なオープンソースの言語モデル

Name: Jennie Rose

Published on 2024/4/30

UCバークレー研究者が開発した最先端のオープンソース言語モデル、Starling-7Bの機能、ベンチマーク、ローカルデプロイメントを探る。

Starling-7Bは、カリフォルニア大学バークレー校の研究者が開発した画期的なオープンソースの大規模言語モデル(LLM)です。このモデルは、さまざまなベンチマークでの優れたパフォーマンスと、高度な言語モデルへのアクセスを民主化する可能性から、大きな注目を集めています。この記事では、Starling-7Bの開発、パフォーマンス、ローカルデプロイメントについて詳しく説明します。

最新のLLMニュースを知りたいですか? 最新のLLMリーダーボードをチェックしてください!

開発とトレーニング

Starling-7Bは、「AI フィードバックからの強化学習」(RLAIF)と呼ばれる新しいアプローチを使って開発されました。このモデルは、183,000 件のチャットプロンプトと、それぞれに対するGPT-4による7つの評価済み回答から成るNectar データセットでトレーニングされました。GPT-4からのフィードバックを活用することで、研究者は高品質な回答を生成するようにモデルを微調整することができました。

Starling-7Bのベースモデルは Openchat 3.5 で、これ自体が Mistral-7B モデルに基づいています。この基盤により、研究者は既存の知識を活用し、より高度な言語モデルを構築することができました。

パフォーマンスとベンチマーク

Starling-7Bは、さまざまなベンチマークで優れたパフォーマンスを示しています。幅広いタスクを測定するMT-Benchマークでは、GPT-4スコアを使って8.09 の得点を獲得しました。 ng。このスコアは GPT-4 と GPT-4 Turbo を除くすべての他のモデルを上回っており、このモデルの卓越した機能を強調しています。

Openchat 3.5 ベースモデルと比較して、Starling-7B は MT-Bench スコアを 7.81 から 8.09 に、AlpacaEval スコアを 88.51% から 91.99% に向上させました。これらの改善は、RLAIF トレーニングアプローチの有効性を示しています。

Starling-7B は、ライティング、人文科学、ロールプレイ、STEM、情報抽出タスクなど、さまざまな分野で優れた成績を収めています。ただし、数学、推論、コーディングの分野では、GPT-4 と比較して改善の余地があります。

title: "Starling-7B: 強力なオープンソース言語モデル" description: "UC バークレー研究者が開発した強化学習からの AI フィードバック (RLAIF) を使用して開発された、最先端のオープンソース言語モデル Starling-7B の機能、ベンチマーク、ローカルデプロイについて探ります。" date: 2024-04-30 language: ja author: jennie ogImage: https://raw.githubusercontent.com/lynn-mikami/Images/main/keyword.webp (opens in a new tab)

はじめに

Starling-7B は、カリフォルニア大学バークレー校の研究者が開発した画期的なオープンソースの大規模言語モデル (LLM) です。このモデルは、さまざまなベンチマークでの優れた成績と、高度な言語モデルへのアクセスを民主化する可能性から、大きな注目を集めています。この記事では、Starling-7B の開発、パフォーマンス、ローカルデプロイについて詳しく説明します。

開発とトレーニング

Starling-7B は、「強化学習からの AI フィードバック (RLAIF)」と呼ばれる新しいアプローチを使って開発されました。このモデルは、Nectar データセットでトレーニングされました。Nectar データセットは 183,000 件のチャットプロンプトで構成され、それぞれに GPT-4 によって評価された 7 つの回答が含まれています。GPT-4 からのフィードバックを活用することで、研究者はモデルを微調整し、高品質な回答を生成できるようにしました。

Starling-7B のベースモデルは Openchat 3.5 で、これ自体が Mistral-7B モデルに基づいています。この基盤により、研究者は既存の知識を活用し、新しい.## パフォーマンスとベンチマーク

Starling-7Bは、さまざまなベンチマークで優れたパフォーマンスを示しています。MT-Benchマークでは、幅広いタスクを実行する能力を測定しており、Starling-7BはGPT-4のスコアリングを使って8.09のスコアを達成しました。このスコアはGPT-4とGPT-4 Turboを除くすべてのモデルを上回っており、このモデルの優れた機能を示しています。

ベースのOpenchat 3.5モデルと比較すると、Starling-7BはMT-Benchスコアを7.81から8.09に、AlpacaEvalスコアを88.51%から91.99%に向上させました。これらの改善は、RLAIFトレーニングアプローチの有効性を示しています。

Starling-7Bは、ライティング、人文科学、ロールプレイ、STEM、情報抽出タスクなど、さまざまな分野で優れた成績を収めています。ただし、数学、推論、コーディングの分野では、GPT-4に比べて改善の余地があります。

他のモデルとの比較

オープンソースのモデルと比較すると、Starling-7Bは際立っています。Zephyra-7B、Neural-Chat-7B、Tulu-2-DPO-70Bなどのモデルを、さまざまなベンチママークで上回っています。Starling-7BのパフォーマンスはGPT-4やClaude-2に迫るものがあり、オープンソースのLLMランドスケープにおいて強力な競争力を持っています。

GPT-3.5 Turbo、Llama-2-70B-Chat、Zephyr-7B-betaと比較すると、Starling-7Bは多くのタスクで有利な立場にあります。ただし、数学と推論の能力ではまだGPT-4に及ばないです。

Ollama を使ってローカルでStarling-7Bを実行する

Starling-7Bの主な利点の1つは、Ollamaを使ってローカルで実行できることです。Ollamaは、オープンソースのLLMをデプロイするためのツールです。以下の手順で始めることができます:

Ollamaのドキュメントに記載されているインストール手順に従ってOllamaをインストールします。
次のコマンドを使ってStarling-7Bモデルをプルします:
```
ollama run starling-lm
```
(オプション) 特定の要件に合わせてパラメータを設定するためのカスタムModelfileを作成できます。これにより、モデルの動作をカスタマイズできます。
次のコマンドを使ってモデルを実行します。以下は、提供されたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。ファイルの先頭に追加のコメントは付けていません。

実行するコマンド:

ollama run starling-lm

Starling-7Bをローカルで実行する際は、必要なメモリ容量と計算リソースを考慮することが重要です。このモデルには多くのメモリが必要なため、システムが最小要件を満たしていることを確認してください。

制限と今後の展開

Starling-7Bは優れたパフォーマンスを示していますが、まだ一部の制限があります。このモデルは、より高度なモデルであるGPT-4に比べて、数学、推論、コーディングのタスクで苦戦する傾向にあります。また、Starling-7Bは冗長な傾向があり、すべての用途に適切とは限りません。

研究者たちは、これらの制限に取り組むべく、モデル、データセット、トレーニング手法の改善に取り組んでいます。オープンソースの取り組みが進むにつれ、より強力な言語モデルがより広い層に提供されるようになると期待できます。

結論

Starling-7Bは、オープンソースの言語モデル開発における重要なマイルストーンを示しています。ベンチマークでの優れたパフォーマンスと、Ollamaを使ったローカル実行の可能性により、研究者、開発者、愛好家にとって価値のあるツールとなっています。

オープンソースのLLMの可能性を探求し続けることで、Starling-7Bのようなモデルが、先進的な言語技術へのアクセスを民主化し、イノベーションを推進する上で重要な役割を果たすことでしょう。オープンソースコミュニティ内での継続的な改善と協力により、さらに強力で汎用性の高い言語モデルが登場することが期待されます。

StableVicuna - 最適なローカルオープンソースChatGPTの代替品？非検閲LLMの力を解放する：究極のガイド