OpenChat 3.5: 超越行业巨头的开源LLM
Published on
OpenChat 3.5是由OpenChat团队开发的开创性开源语言模型。仅具有70亿个参数,它取得了与ChatGPT和Grok等领先行业模型相媲美或超越的出色性能。OpenChat 3.5的独特之处在于它致力于开源可访问性,使得开发者和研究人员可以在没有专有许可的限制下利用其能力。
想要了解最新的LLM动态吗?请查看最新的LLM排行榜!
OpenChat 3.5的主要特点
-
C-RLFT高效训练:OpenChat 3.5采用了条件强化学习反馈(C-RLFT)的高效训练方法,该方法受到了离线强化学习的启发。这种方法使得模型能够有效地学习混合质量的数据,而无需明确的偏好标签。
-
更少参数的卓越性能:尽管只有70亿个参数,OpenChat 3.5的性能与具有更多参数的模型(如ChatGPT和Grok)相当或更好。
-
易于部署:OpenChat 3.5可以在像RTX 3090这样的消费级GPU上运行,与资源密集型的专有模型相比,更方便开发者和研究人员使用。
-
多功能能力:OpenChat 3.5是一款通用模型,在编码、问答和语言理解等广泛任务中表现出色。
基准结果
OpenChat 3.5在各种基准测试中展示了令人印象深刻的结果,巩固了其作为一款性能卓越的开源语言模型的地位。以下是一些值得注意的基准结果比较:
Model | 参数 | 平均值 | MMLU | 人工评估 | MATH | GSM8k |
---|---|---|---|---|---|---|
OpenChat-3.5-0106 | 70亿 | 61.0 | 65.8 | 71.3 | 29.3 | 77.4 |
OpenChat-3.5-1210 | 70亿 | 60.1 | 65.3 | 68.9 | 28.9 | 77.3 |
OpenChat-3.5 | 70亿 | 56.4 | 64.3 | 55.5 | 28.6 | 77.3 |
Grok-0 | 330亿 | 44.5 | 65.7 | 39.7 | 15.7 | 56.8 |
Grok-1 | ???亿 | 55.8 | 73.0 | 63.2 | 23.9 | 62.9 |
ChatGPT(2023年3月版) | ???亿 | ??? | 70.0 | 63.0 | ??? | 75.0 |
从表中可以看出,OpenChat 3.5在所有四个基准测试中都优于Grok-0(330亿个参数),并且在平均值和4个基准测试中有3个方面超越了Grok-1(参数未知)。尽管参数明显更少,OpenChat 3.5在HumanEval和GSM8k等关键领域的结果与ChatGPT(2023年3月版)相媲美或更好。
在本地使用Ollama运行OpenChat 3.5
OpenChat 3.5的一个关键优势是能够使用Ollama等工具在本地运行它。以下是一步步操作指南:
-
运行以下命令安装Ollama:
curl -fsSL https://ollama.com/install.sh | sh
-
使用Ollama命令下载OpenChat 3.5模型:
ollama run openchat
-
启动Ollama服务器:
./ollama serve
-
在另一个Shell中运行OpenChat 3.5模型:
./ollama run openchat
-
使用Ollama REST API或兼容的用户界面(如LibreChat、Bionic GPT、Enchanted(macOS原生)、HTML UI、Saddle、Chatbot UI)与模型进行交互。
以下是使用Ollama REST API生成文本的示例:
curl http://localhost:11434/api/generate -d '{
"model": "openchat",
"prompt": "为什么天空是蓝色的?"
}'
以下是进行类似聊天交互的示例:
curl http://localhost:11434/api/chat -d '{
"model": "openchat",
"messages": [
{
"role": "用户",
"content": "为什么天空是蓝色的?"
}
]
}'
按照这些步骤,您可以轻松在本地运行OpenChat 3.5,并亲身体验其令人印象深刻的功能。
潜在应用和影响
OpenChat 3.5有望通过提供高性能且易于使用的开源语言模型,从而改变人工智能领域的格局,让全球的开发者和研究人员都能够获得高度实用的模型。一些潜在的应用包括:
-
编码辅助:OpenChat 3.5在类似HumanEval的编码基准测试上表现出色,可以作为强大的编码助手,帮助开发者编写更高效和无错误的代码。
-
问答:OpenChat 3.5在MMLU和GSM8k等基准测试中表现出色,可以准确、详尽地回答各种问题。
-
语言理解:该模型在语言理解任务中表现出色,适用于情感分析、文本分类和命名实体识别等应用。
-
研究和创新:通过提供开源替代品,OpenChat 3.5使得研究人员能够探索新的想法,并拓展语言模型的可能性边界。
结论
OpenChat 3.5代表了开源语言模型发展的重要里程碑。它具有出色的性能、高效的资源使用和易于访问的特点,有潜力使强大的人工智能工具普惠于众,并加速领域中的研究和创新。
随着人工智能领域的不断发展,像OpenChat 3.5这样的模型将在塑造自然语言处理和人工智能驱动应用领域的未来中发挥关键作用。通过拥抱开源倡议并与全球人工智能社区合作,我们可以开启新的可能性,并推动更先进、更有能力的语言模型的发展。
想了解最新的LLM新闻吗?请查看最新的LLM排行榜!