Want to Become a Sponsor? Contact Us Now!🎉

TheBlokeのSpeechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデル

TheBlokeのSpeechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQ:最先端の言語モデルの強力な融合

Published on

TheBlokeは、最先端のモデルを複数組み合わせた強力な130億パラメータの言語モデルをリリースしました。このモデルはSpeechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQと名付けられ、認知および技術的なベンチマークで印象的なパフォーマンスを発揮します。消費者向けのハードウェア上で効率的な推論が可能なGPTQ形式で提供されています。

Anakin AI - The Ultimate No-Code AI App Builder

はじめに

大規模言語モデル(LLM)は、近年、自然言語処理を革新しました。これらのモデルは大量のテキストデータを学習することで、言語を深く理解し、複雑な言語のタスクを実行できるようになります。特定の領域で優れた性能を発揮するさまざまなLLMを組み合わせることは、さらに能力の高いモデルを作成する有望なアプローチとして浮上しています。

AIコミュニティで著名なTheBlokeは、Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデル[1]のリリースにおいて、このアプローチを取りました。このモデルは、以下の先進的なLLMを統合しています。

  • Meta AIのLLaMA 2
  • AnthropicのHermes
  • OpenOrcaのOrca
  • Garage-bAIndのOpen-Platypus
  • WizardLM

その結果、高い能力を持つ130億パラメータのモデルが生まれ、多様なベンチマークと実世界のユースケースで強力なパフォーマンスを発揮します。重要なことは、このモデルはGPTQ形式で提供されており、消費者用のハードウェア上でモデルを効率的に実行することができるという点です[1]。

モデルの詳細

Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデルは、各コンポーネントモデルの強みを活かしています。

  • LLaMA 2は、巨大なテキストデータのコーパスで事前学習された汎用言語モデルとして強力な基盤を提供します[2]。
  • Hermesは高度な対話能力と事実知識を持ちます。
  • OrcaとOpen-Platypusは、推論能力と問題解決能力を向上させます。
  • WizardLMは、改善された命令に従う能力とタスク完了能力を追加します。

これらのモデルを組み合わせることにより、Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデルは、多様な言語タスクを高いレベルで処理する能力を持った広範なスキルを受け継ぎます。

モデルは、モデルのサイズとパフォーマンスのトレードオフに応じて、異なるGPTQ形式で利用可能です[1]:

名前量子化手法ビット数サイズ
speechless-llama2-hermes-orca-platypus-wizardlm-13b.Q2_K.ggufQ2_K25.43 GB
speechless-llama2-hermes-orca-platypus-wizardlm-13b.Q3_K_S.ggufQ3_K_S35.66 GB
speechless-llama2-hermes-orca-platypus-wizardlm-13b.Q4_K_M.ggufQ4_K_M47.87 GB

4ビットのQ4_K_Mバージョンは、パフォーマンスとサイズのバランスが取れており、ほとんどのユースケースで推奨されています[1]。

パフォーマンス

初期のテストでは、Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデルが認知および技術的な評価で非常に能力が高いことが示されました[4]。あるユーザーが、言語理解、論理的思考、基本的な数学、高度な数学、プログラミング、ソフトウェア開発、会話での話題の逸脱など、さまざまな領域をカバーする包括的なテストを実行しました。

このモデルは、これらの評価において他の13Bモデルや、一部の30B以上の大きなモデルをも凌駕しました[4]。特に創造性、プログラミング、論理、推論のタスクにおいて強みを発揮しました。

標準的なベンチマークでも、このモデルは印象的な結果を示します[1]:

メトリック
ARC51.2
HellaSwag82.3
MMLU54.7
TruthfulQA61.4
平均62.4

これらの結果は、モデルを公開している同等のサイズのモデルの中で最も優れたパフォーマンスを持つことを示しています。多様な実世界のアプリケーションにおいて、このモデルは非常に有用である可能性があります。

モデルの使用方法

Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデルは、適切なツールを使用することで簡単に使用することができます。以下の方法で、モデルをダウンロードしてローカルで実行することができます。

  • text-generation-webuiなどのテキスト生成Web UI[1]
  • PythonのTransformersおよびAutoGPTQライブラリ[1]
  • GPTQ-for-LLaMaまたはExLlama量子化ツール[1]

以下は、PythonでTransformersを使用してモデルでテキストを生成する例です[1]。

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoGPTQForCausalLM, TextGenerationPipeline
 
model_id = "TheBloke/Speechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQ"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoGPTQForCausalLM.from_quantized(model_id, device="cuda:0", use_triton=True)
 
pipe = TextGenerationPipeline(model=model, tokenizer=tokenizer)
 
prompt_template = "The following is a conversation with an AI assistant. The assistant is helpful, creative, clever, and very friendly.\n\nHuman: Hello, who are you?\nAI: "
 
print(pipe(prompt_template)['generated_text'])

これにより、モデルの4ビット量子化バージョンがロードされ、指定した会話プロンプトに対する応答が生成されます。モデルは、オープンエンドの会話や特定のタスクの実行にもさらにプロンプトできます。

結論

TheBlokeのSpeechless-Llama2-Hermes-Orca-Platypus-WizardLM-13B-GPTQモデルは、オープンソースの言語モデルの興奮すべき発展を表しています。最も優れたモデルを1つのパッケージに組み合わせ、効率的なGPTQ形式でリリースすることで、このモデルは非常に能力の高い言語AIをこれまで以上にアクセス可能にします。

さまざまなベンチマークと認知テストでの高いパフォーマンスは、このモデルが以下のようなアプリケーションに非常に有用である可能性を示唆しています。

  • 会話型AIアシスタント
  • クリエイティブおよび技術的な文章支援
  • 研究とデータ分析
  • 教育と指導ツール
  • タスク指向のボットとエージェント

このモデルを実験したり、これに基づいてさらに開発したりする人々が増えるにつれて、さらに革新的なユースケースが現れることが予想されます。TheBlokeとオープンソースAIコミュニティは、強力な言語モデルへの民主的なアクセスを通じて可能なことの限界を押し広め続けています。

Anakin AI - The Ultimate No-Code AI App Builder