如何在本地运行 Llama 3

Name: Lynn Mikami

Published on 2024/4/30

通过 Ollama 工具，在本地机器上安装和运行功能强大的 Llama 3 语言模型（8B 和 70B 版本）的全面指南。

Meta's Llama 3 是他们开源的大型语言模型的最新迭代版本，具有出色的性能和可访问性。Llama 3 的模型大小从 80 亿（8B）到 700 亿（70B）参数不等，为自然语言处理任务提供了强大的工具。然而，本地运行如此庞大的模型可能具有挑战性，需要大量的计算资源和技术专业知识。幸运的是，由微软开发的 Ollama 工具简化了在本地机器上运行开源 LLM（如 Llama 3）的流程。

什么是 Ollama？

Ollama 是一个用户友好的解决方案，将模型权重、配置文件和数据集捆绑成一个 Modelfile 的单个包。它优化了设置和配置细节，包括 GPU 使用情况，使开发人员和研究人员更容易在本地运行大型语言模型。Ollama 支持各种模型，包括 Llama 3，让用户能够探索和实验这些尖端的语言模型，而无需复杂的设置过程。

在本地运行 Llama 3 的系统要求

在开始安装过程之前，确保您的系统满足本地运行 Llama 3 模型的最低要求。资源需求因模型大小而异，较大的模型需要更强大的硬件。

对于 8B 模型，您至少需要：

8GB VRAM
16GB RAM
推荐使用像 NVIDIA RTX 3070 这样的 GPU 以获得最佳性能。

至于 70B 模型，您需要：

至少 24GB VRAM 的高端 GPU，例如 NVIDIA RTX 3090 或 A100
至少 64GB RAM
充足的存储空间，因为这些模型可能占用数千兆字节的磁盘空间。

安装 Ollama

Ollama 的安装过程非常简单，只需运行一个命令即可完成。打开系统上的终端，并运行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

这个命令将在系统上下载并安装最新版本的 Ollama。安装完成后，您可以运行 ollama --version 来验证安装是否成功。

下载 Llama 3 模型

Ollama 提供了一种方便的方式来下载和管理 Llama 3 模型。要下载 8B 模型，请运行以下命令：

ollama pull llama3-8b

要下载 70B 模型，请使用以下命令：

ollama pull llama3-70b

这些命令将把相应的模型及其相关文件下载到您的本地机器上。根据您的互联网连接速度和系统规格，下载过程可能需要一些时间，特别是对于较大的 70B 模型。

运行 Llama 3 模型

一旦您下载了模型，就可以使用 Ollama 的 run 命令来运行它们。对于 8B 模型，执行以下命令：

ollama run llama3-8b

对于 70B 模型，请使用以下命令：

ollama run llama3-70b

这些命令将启动与相应的 Llama 3 模型的交互会话，允许您输入提示并接收生成的响应。Ollama 将处理必要的设置和配置，使您可以轻松地与模型进行交互，无需广泛的技术知识。

高级用法

Ollama 提供了一些高级功能和选项，以增强您使用 Llama 3 模型的体验。例如，您可以指定要使用的 GPU 数量，启用量化以实现更快的推理，或者调整批量大小和序列长度以获得最佳性能。

要了解这些高级选项，请参阅 Ollama 文档或运行 ollama run --help 获取可用选项及其说明的列表。

将 Llama 3 集成到应用程序中

虽然交互式运行 Llama 3 模型对于测试和探索很有用，但您可能希望将其集成到您的应用程序或工作流程中。Ollama 提供了一个 Python API，允许您以编程方式与模型进行交互，实现与您的项目的无缝集成。

下面是一个示例，演示如何使用 Ollama Python API 生成 Llama 3 8B 模型的文本：

import ollama
 
# 加载模型
model = ollama.load("llama3-8b")
 
# 生成文本
prompt = "从前，有一次"
output = model.generate(prompt, max_new_tokens=100)
 
print(output)

这段代码加载了 Llama 3 8B 模型，提供了一个提示，并生成了 100 个新的令牌作为提示的延续。您可以根据需要自定义提示、输出长度和其他参数。

Llama 3 8B 和 Llama 3 70B 的基准和性能

Llama 3 的基准和性能

Llama 3 模型在各种基准测试中表现出色，往往优于其前身和更大的模型。以下是一些基准测试结果：

常规基准

基准测试	Llama 3 8B	Llama 3 70B
MMLU (5 次预训练)	66.6	79.5
AGIEval 英语 (3-5 次预训练)	45.9	63.0
CommonSenseQA (7 次预训练)	72.6	83.8
Winogrande (5 次预训练)	76.1	83.1
BIG-Bench Hard (3-shot, CoT)	61.1	81.3
ARC-Challenge (25-shot)	78.6	93.0

知识推理

基准测试	Llama 3 8B	Llama 3 70B
TriviaQA-Wiki (5-shot)	78.5	89.7

阅读理解

基准测试	Llama 3 8B	Llama 3 70B
SQuAD (1-shot)	76.4	85.6
QuAC (1-shot, F1)	44.4	51.1
BoolQ (0-shot)	75.7	79.0
DROP (3-shot, F1)	58.4	79.7

这些基准测试展示了 Llama 3 令人惊叹的能力，70B 模型往往比 8B 版本表现更好，这是可以预料的。然而，8B 模型仍然具有卓越的性能，使其成为计算资源有限的用户的可行选择。

结论

多亏了 Ollama，现在在本地运行大型语言模型像 Llama 3 变得更加容易。Ollama具有用户友好的界面和简化的设置过程，使得开发人员、研究人员和爱好者能够在本地机器上利用这些尖端模型的能力。无论您正在进行自然语言处理任务，探索 Llama 3 的功能，还是将其集成到您的应用程序中，Ollama都提供了一种方便高效的解决方案。那么，为什么还要等待呢？立即下载Ollama，解锁Llama 3在您的本地系统上的潜力吧！

如何在Mac、Windows、iPhone和Android设备上本地运行Llama 2 如何免费在Google Colab上运行LLM