Phi-3:微软的紧凑且强大的语言模型
Published on
在快速发展的人工智能世界中,微软通过引入Phi-3取得了重要进展,这是一个紧凑且功能强大的语言模型。尽管其大小相对较小,但Phi-3在各种基准测试中展现出了相当出色的性能,与规模更大的模型相媲美。本文将深入介绍Phi-3的细节,将其性能与其他知名语言模型进行比较,并提供有关如何在设备上本地运行Phi-3的指南。
Phi-3是什么?
Phi-3是由微软开发的一系列语言模型,其中最小的变体,Phi-3-mini,仅拥有38亿个参数。这仅是其他知名模型(如拥有大约1750亿个参数的GPT-3.5)大小的一小部分。尽管体积较小,Phi-3在各种基准测试中展示出了令人印象深刻的结果,这要归功于微软的创新训练技术和数据集策划。
Phi-3系列当前由三个模型组成:
- Phi-3-mini:38亿个参数
- Phi-3-small:70亿个参数
- Phi-3-medium:140亿个参数
微软暗示未来将发布更大的Phi-3模型,但即使最小的变体Phi-3-mini已经引起了重大关注,因为其性能十分出色。
基准测试性能
为了评估Phi-3的性能,让我们比较其在两个广泛使用的基准测试中的得分:MMLU(长篇理解多任务度量)和MT-bench(机器翻译基准测试)。
模型 | MMLU | MT-bench |
---|---|---|
Phi-3-mini(3.8B) | 69% | 8.38 |
Phi-3-small(7B) | 75% | 8.7 |
Phi-3-medium(14B) | 78% | 8.9 |
Llama-3(8B) | 66% | 8.6 |
Mixtral 8x7B | 68% | 8.4 |
GPT-3.5 | 71% | 8.4 |
正如表格所示,与Llama-3、Mixtral 8x7B甚至GPT-3.5等更大模型相比,Phi-3模型表现出色。Phi-3-mini仅有38亿个参数,达到了与其多倍大小的模型相媲美的得分。这一令人印象深刻的性能要归功于微软先进的训练技术和高质量的数据集策划。
本地运行Phi-3
Phi-3最令人兴奋的一个方面是其能够在各种设备上本地运行,包括智能手机和笔记本电脑。这得益于该模型的紧凑大小和高效架构。本地运行Phi-3具有减少延迟、改善隐私和使用离线模型的能力等多个优点。
要在本地运行Phi-3,您可以使用Ollama框架,该框架为与模型交互提供了简单而用户友好的界面。以下是一步一步的入门指南:
-
运行以下命令安装Ollama:
pip install ollama
-
从Hugging Face模型仓库下载您选择的Phi-3模型。例如,下载Phi-3-mini,运行:
ollama download phi-3-mini
-
下载模型后,您可以使用以下命令启动与Phi-3的交互式会话:
ollama run phi-3-mini
-
现在,您可以通过输入提示并接收生成的响应与Phi-3模型进行交互。
或者,您可以使用ONNX Runtime库在本地运行Phi-3模型。ONNX Runtime是一个高效的推断引擎,支持各种平台和编程语言。要在ONNX Runtime中使用Phi-3,请按照以下步骤进行操作:
-
运行以下命令安装ONNX Runtime:
pip install onnxruntime
-
从Hugging Face模型仓库下载您要使用的Phi-3模型的ONNX版本。
-
使用ONNX Runtime加载模型,并根据您的输入提示生成响应。
以下是一个简单的Python代码片段,帮助您入门:
import onnxruntime as ort
session = ort.InferenceSession("path/to/phi-3-mini.onnx")
prompt = "法国的首都是哪个?"
input_ids = ... # 对提示进行标记化并将其转换为输入ID
outputs = session.run(None, {"input_ids": input_ids})
generated_text = ... # 解码输出ID以获取生成的文本
print(generated_text)
结论
微软的Phi-3语言模型系列在紧凑和高效的AI模型开发中取得了重要的里程碑。Phi-3在基准测试中的出色性能以及在各种设备上本地运行的能力,为移动计算、边缘设备和注重隐私的场景等领域的AI应用开辟了新的可能性。
随着人工智能领域的不断发展,Phi-3等模型证明了规模并不总是越大越好。通过专注于先进的训练技术、高质量的数据集和高效的架构,研究人员可以创建功能强大的语言模型,其性能可以与更大型模型媲美,同时还提供本地执行的好处。
随着Phi-3的发布,微软为紧凑语言模型设定了新的标准,未来将会看到这项技术如何在真实场景中发展和应用,这将是令人兴奋的。