🏆 LLMリーダーボード
LLMリーダーボードへようこそ。LLMモデルのパフォーマンスメトリクスのための決定的なプラットフォームです。私たちの使命は、さまざまなLLMモデルの集中的で包括的な概要を提供し、ユーザーがそれらの能力を比較し対照できるようにすることです。
LLMリーダーボードの注目LLMモデル
Mistral-7bQwen-14bLLAMA-2-13bGuanaco 65BVicuna LLMFalcon LLMZephyr-7BDolphin-2.1-Mistral-7BSamantha-1.2-Mistral-7BLLaMA.cppOpen LLAMA
VLMおよびその他のLLMツール
LLMリーダーボード
LLM ベンチマーク
-
Chatbot Arena Elo
-
HellaSwag
- 著者: Zellers et al.
- リンク: https://arxiv.org/abs/1905.07830v1 (opens in a new tab)
-
HumanEval
- 著者: Chen et al.
- リンク: https://arxiv.org/abs/2107.03374v2 (opens in a new tab)
-
LAMBADA
- 著者: Paperno et al.
- リンク: https://arxiv.org/abs/1606.06031 (opens in a new tab)
-
MMLU
- 著者: Hendrycks et al.
- リンク: https://github.com/hendrycks/test (opens in a new tab)
-
TriviaQA
- 著者: Joshi et al.
- リンク: https://arxiv.org/abs/1705.03551v2 (opens in a new tab)
-
WinoGrande
- 著者: Sakaguchi et al.
- リンク: https://arxiv.org/abs/1907.10641v2 (opens in a new tab)
謝辞と情報源
LLMリーダーボードのデータは、個々の論文およびモデルの著者の結果から丹念に収集されました。詳細な情報源の分析については、llm-leaderboard リポジトリをご覧ください。
特別な感謝を申し上げます:
- MosaicML
- lmsys.org (opens in a new tab)
- Papers With Code
- Stanford HELM
- HF Open LLM Leaderboard
免責事項
LLMリーダーボードの情報は参考用です。商用モデルの使用については、法律顧問に相談してください。