Miqu-1-70B: オープンソースAIの境界を押し広げる言語モデル
2024年1月下旬、AI コミュニティは「Miqu-1-70B」と呼ばれる新しい大規模言語モデルの突然の登場に沸いた。 HuggingFaceのオープンソースプラットフォームにユーザー「Miqu Dev」によってアップロードされたこのモデルは、GPT-4やGPT-3.5などの業界大手に匹敵する優れたパフォーマンスで注目を集めた。 Miqu-1-70BがミストラルAIの未発表モデルの漏洩版ではないかという憶測が高まる中、オープンソースAIの未来に大きな影響が及ぶことが明らかになってきた。
Published on
最新のLLMニュースを学びたいですか? 最新のLLMリーダーボードをチェックしてください!
AIの世界を震撼させたリーク
2024年1月28日、「Miqu Dev」がHuggingFaceにMiqu-1-70Bモデルのファイルをアップロードした。同時に、おそらく「Miqu Dev」自身と思われる匿名のユーザーが4chanにファイルへのリンクを投稿し、AIコミュニティ全体に大きな関心と議論を呼び起こした。
Miqu-1-70Bは、プロンプトフォーマットやインタラクションスタイルの類似性から、ミストラルAIの未発表モデル「Mistral Medium」の量子化されたバージョンではないかと疑われた。 ミストラルCEOのArthur Menschは、社員による古いバージョンの量子化モデルの流出を認めることで、これらの疑惑を確認した。
技術仕様とアーキテクチャ
Miqu-1-70Bは、Meta社のLlama 2アーキテクチャに基づく700億パラメーターのモデルである。以下は、ご提供いただいたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。ファイルの先頭に追加のコメントは付けていません。
24GB未満のVRAMで動作するように最適化されており、高性能なハードウェアを持たないユーザーでも利用できるようになっています。このモデルは100万のθ値と32Kの最大コンテキストウィンドウを持っており、標準的なLlama 2やCodeLlamaモデルとは一線を画しています。
ベンチマークと比較: Miqu-1-70Bは健闘している
流出して量子化されたモデルであるにもかかわらず、Miqu-1-70Bは様々なベンチマークで優れた性能を発揮し、GPT-4などの先進的なモデルに迫る能力を示しています。
多肢選択問題テストでは、Miqu-1-70Bは18問中17問正解し、GPT-4の完璧な成績に1点及びませんでした。また、EQ-Benchでは83.5点を獲得し、GPT-4レベルの感情知性に迫っています。
困惑度では、Miqu-1-70BはファインチューンされたLlama 2 70Bモデルと同等の性能を示し、コンテキスト長512で4未満の値を記録しています。これは、ネーフされたCodeLlama 70Bモデルの5.5程度の困惑度を上回っています。
モデル | パラメータ | 困惑度 | MMLU | EQ-Bench |
---|---|---|---|---|
Miqu-1-70B | 70B | ~4 @ 512 | 70+ | 83.5 |
GPT-4 | ? | ? | ? | ? |
GPT-3.5 | 175B | ? | ? | ? |
Llama 2 70B | 70B | ~4 @ 512 | ? | ? |
CodeLlama 70B | 70B | ~5.5 @ 512 | ? | ? |
Claude | ? | ? | ? | ? |
Mistral/Mixtral-8x7B-Instruct | 56B | ? | ? | ? |
すべてのモデルの包括的なベンチマークデータが利用できないものの、Miqu-1-70Bの性能はGPT-4やGPT-3.5、Mistralの Mixtral-8x7B-Instructモデルなどの先進的な専有モデルと競争力があることを示唆しています。
Miqu-1-70Bをローカルで実行する: ステップバイステップガイド
Miqu-1-70Bを試してみたいユーザーのために、実行することが可能です。ここは、Transformersライブラリを使ってMiqu-1-70Bをローカルで実行するPythonコードです:
from transformers import LlamaForCausalLM, LlamaTokenizer
# トークナイザーをロードする
tokenizer = LlamaTokenizer.from_pretrained("NousResearch/Llama-2-7b-hf")
# 入力テキストをトークン化する
input_ids = tokenizer("[INST] 可愛い猫耳娘についての雄弁な高尚なプロ-ズ [/INST]", return_tensors='pt').input_ids.cuda()
# モデルをロードする
model = LlamaForCausalLM.from_pretrained("152334H/miqu-1-70b-sf", device_map='auto')
# モデルを使って出力を生成する
outputs = model.generate(input_ids, use_cache=False, max_new_tokens=200)
print(tokenizer.decode(outputs))
影響と今後の展望
Miqu-1-70Bの流出は、オープンソースのAI開発の未来に大きな影響を及ぼします。これは、GPT-4のようなプロプライエタリなシステムと肩を並べる強力で手の届きやすいモデルの急速な進歩を示しています。
Mistral社のCEO、Arthur Menschの流出に対する対応は、このようなインシデントへの取り扱いが協調的なアプローチに移行する可能性を示唆しています。法的措置を取るのではなく、Menschは流出を認め、コミュニティの関与に期待を寄せています。
Mistralの次の公式リリースが、Miqu-1-70Bを超える機能を持つことが期待されている中、AIコミュニティは大いに期待に沸いています。Miqu-1-70Bの成功は、オープンソースモデルの新しい基準を設定し、AI開発とコラボレーションの新しいパラダイムについての議論を呼び起こしました。
結論
Miqu-1-70Bの登場は、オープンソースモデルがindustry leadersと競争できる可能性を示し、AIコミュニティに大きな波紋を投げかけました。ベンチマークでの優れたパフォーマンスと、ローカルでの実行能力は、研究者やエンスージアストの大きな関心を集めています。
AI技術の急速な進化を目の当たりにする中で、Miqu-1-70Bの流出は、イノベーション、コラボレーション、オープンソースコミュニティの力が進歩を推進する上で重要であることを示唆しています。Miqu-1-70Bのようなモデルの登場は、私たちの未来を大きく変えていくでしょう。可能性の限界を押し広げるMiqu-1-70Bにより、近い将来さらに画期的な進展が期待できます。
.最新のLLMニュースを学びたいですか? 最新のLLMリーダーボードをチェックしてください!