Want to Become a Sponsor? Contact Us Now!🎉

LLM
如何在Mac、Windows、iPhone和Android设备上本地运行Llama 2

如何在本地运行Llama 2:Mac、Windows和移动设备的终极指南

Published on

探索如何在Mac、Windows、Linux甚至您的移动设备上本地运行Llama 2的最全面指南。获取逐步指示、技巧和窍门,充分利用Llama 2。

如果您一直关注自然语言处理(NLP)领域,可能听说过Llama 2,这是一种具有突破性的语言模型,正席卷技术界。但您知道吗,您可以在自己的设备上本地运行这个先进的模型吗?没错!您不需要超级计算机,甚至不需要互联网连接,就可以利用Llama 2的强大功能。

无论您是Mac用户、Windows爱好者,还是移动设备爱好者,本指南都会为您提供全面的支持。我们将深入探讨在各种平台上运行Llama 2的细节,使用不同的工具,甚至向您提供一些专业技巧,以优化您的体验。那么,让我们开始吧!

想了解最新的LLM新闻?查看最新的LLM排行榜

什么是Llama 2?

Llama 2是Llama语言模型系列的最新版本,旨在理解并生成基于其训练数据的类似人类的文本。它是广泛的研究和开发成果,能够执行各种NLP任务,从简单的文本生成到复杂的问题解决。模型有不同的大小,根据它们具有的参数数量来表示,例如7B、13B甚至70B。

⚠️

为什么要在本地运行Llama 2?以下是好处:

  • 隐私:在本地运行Llama 2可以确保您的数据留在您的设备上,提供额外的安全层级。
  • 速度:本地执行消除了数据通过互联网传输的需求,提供更快的响应时间。
  • 离线访问:安装完成后,您可以在没有互联网连接的情况下使用Llama 2,使其具有极高的灵活性。
  • 资源管理:在本地运行模型允许您更有效地管理设备的资源,尤其是在您未连接到互联网时。

如何在Mac上使用Llama.cpp本地安装LLaMA2

如果您是Mac用户,其中一种最高效的方式是使用Llama.cpp在本地运行Llama 2。这是一个C/C++的Llama模型移植版本,允许您使用4位整数量化运行它,这对于性能优化特别有益。

  1. RAM需求:确保您至少拥有8GB RAM用于3B模型,16GB RAM用于7B模型,以及32GB RAM用于13B模型。

  2. 打开终端:导航到您想要安装Llama.cpp的首选目录。

  3. 运行一行命令:执行以下命令以安装Llama.cpp:

    curl -L "https://replicate.fyi/install-llama-cpp" | bash
  4. 理解脚本:这个一行命令执行了一些操作:

    • 克隆了Llama.cpp的GitHub存储库。
    • 使用GPU支持(LLAMA_METAL=1标志)构建项目。
    • 下载Llama 2模型。
    • 设置一个交互式提示符,供您开始使用Llama 2。
  5. 测试安装:安装完成后,您可以通过运行一些示例提示来进行测试。例如:

    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8

    此命令以交互模式运行模型,并带有各种自定义标志。

按照这些步骤,您将可以在Mac上迅速运行Llama 2。Llama.cpp方法特别适用于熟悉终端命令且希望获得性能优化体验的人。

使用WSL在Windows上安装Llama 2

Windows用户,不要感到孤立!您也可以在Windows机器上使用Windows Subsystem for Linux(WSL)本地运行Llama 2。WSL允许您在Windows机器上运行Linux发行版,从而更容易安装和运行基于Linux的应用程序,如Llama 2。

  1. RAM需求:确保您至少拥有8GB RAM用于3B模型,16GB RAM用于7B模型,以及32GB RAM用于13B模型。

  2. 安装WSL:如果尚未安装WSL,请按照微软官方指南进行安装。

  3. 打开WSL终端:安装完WSL后,打开WSL终端并导航到您首选的目录。

  4. 运行一行命令:执行以下命令以安装Llama 2:

    curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
  5. 理解脚本:这个一行命令执行了几个任务:

    • 克隆了Llama.cpp的GitHub存储库。
    • 构建了项目。
    • 下载Llama 2模型。
    • 设置一个交互式提示符,供您开始使用Llama 2。
  6. 测试安装:安装完成后,您可以通过运行一些示例提示来进行测试。例如:

    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8

    此命令以交互模式运行模型,并带有各种自定义标志。

WSL方法是在Windows上运行Llama 2的稳健方式,尤其适用于熟悉Linux命令的用户。它提供了一个无缝的体验,无需更换操作系统。

在移动设备上运行Llama 2:iOS和Android上的MLC LLM

如果您经常在外出时使用移动设备,您会很高兴知道您可以在移动设备上运行Llama 2。感谢开源项目MLC LLM,您现在可以在iOS和Android平台上运行Llama 2。

  1. 下载应用程序

    • iOS用户,请从App Store下载MLC聊天应用程序。
    • Android用户,请从Google Play下载MLC LLM应用程序。
  2. 安装TestFlight(仅限iOS):对于iOS来说,支持Llama 2的最新版本仍处于测试版阶段。您需要安装TestFlight来尝试它。

  3. 下载模型

    • 打开应用程序并导航到模型下载部分。
    • 选择要下载的模型大小(7B、13B或70B)。
  4. 运行模型

    • 下载模型后,您可以通过导航到应用程序中的聊天界面来运行它。
    • 输入您的提示并等待模型生成响应。

通过MLC LLM在移动设备上运行Llama 2提供了无与伦比的便利。无论您是通勤、旅行还是离开主要计算机,您仍然可以从口袋中访问Llama 2的强大功能。

使用llama2-webui运行Llama 2的方法

如果您正在寻找一种更用户友好的运行Llama 2的方法,请试试llama2-webui。这个强大的工具让您可以通过Web界面运行Llama 2,从而可以在任何地方和任何操作系统上访问它,包括Linux、Windows和Mac。由GitHub用户liltom-eth开发的llama2-webui支持所有Llama 2模型,并提供了一系列功能,使其成为初学者和专家的多用途选择。

llama2-webui的特点

  • 模型支持:llama2-webui支持所有Llama 2模型,包括7B、13B、70B、GPTQ、GGML、GGUF和CodeLlama。
  • 后端支持:它支持各种后端,如transformers、bitsandbytes用于8位推理,AutoGPTQ用于4位推理和llama.cpp。
  • OpenAI API兼容性:llama2-webui允许您在Llama 2模型上运行兼容OpenAI的API,使其更容易与现有系统集成。

如何安装llama2-webui

  1. 通过PyPI安装:您可以使用以下命令从PyPI安装llama2-wrapper软件包:

    pip install llama2-wrapper
  2. 通过源码安装:或者,您可以克隆GitHub存储库并安装要求:

    git clone https://github.com/liltom-eth/llama2-webui.git
    cd llama2-webui
    pip install -r requirements.txt

如何使用llama2-webui

  1. 启动聊天界面:要使用Web界面运行聊天机器人,请执行以下命令:

    python app.py
  2. 启动Code Llama界面:如果您对代码补全感兴趣,可以使用以下命令运行Code Llama界面:

    python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
  3. 自定义:您可以在.env文件中自定义模型路径、后端类型和其他配置项。

开发人员的llama2-wrapper

对于那些正在开发生成代理或应用程序的人来说,llama2-wrapper可以用作后端包装器。以下是一个Python示例:

from llama2_wrapper import LLAMA2_WRAPPER, get_prompt 
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "你了解PyTorch吗"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)

运行兼容OpenAI的API

您还可以运行兼容OpenAI API的Fast API服务器。使用以下命令启动Fast API:

python -m llama2_wrapper.server

基准测试和性能

该工具配备了一个基准测试脚本,用于测量您的设置的性能。您可以使用以下命令运行它:

python benchmark.py

在本地运行Llama 2的其他方式

您已经掌握了在设备上运行Llama 2的方法,但您渴望获得更多。也许您正在寻找在不占用所有系统资源的情况下运行它的方法,或者您可能好奇如何在不被官方支持的设备上运行它。无论是哪种情况,本节适合您。我们将介绍在本地运行Llama 2的其他方法,每种方法都有自己的优势和挑战。

在树莓派上运行Llama 2

是的,您没有看错。完全可以在树莓派上运行Llama 2,并且性能出奇地好。这对于那些想要一个专用设备来运行Llama 2但又不想花费太多的钱的人来说是一个绝佳选择。

  1. 安装依赖项:打开终端并运行以下命令以安装必要的软件包:

    sudo apt-get update
    sudo apt-get install git cmake build-essential
  2. 克隆Llama.cpp存储库:使用git克隆Llama.cpp存储库。

    git clone https://github.com/ggerganov/llama.cpp.git
  3. 编译和构建:转到克隆的目录并编译项目。

    cd llama.cpp
    make
  4. 运行Llama 2:最后,执行以下命令来运行Llama 2。

    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin

在Docker容器中运行Llama 2

对于那些喜欢使用容器的人来说,在Docker容器中运行Llama 2是一个可行的选择。这种方法确保Llama 2环境与您的本地系统隔离,提供了额外的安全性。

  1. 安装Docker:如果尚未安装Docker,请在您的计算机上安装它。
  2. 拉取Llama 2 Docker镜像:打开终端并拉取Llama 2 Docker镜像。
    docker pull llama2/local
  3. 运行容器:执行以下命令以在Docker容器中运行Llama 2。
    docker run -it --rm llama2/local

在Android设备上通过Termux运行Llama 2

  1. 安装Termux:从Google Play商店下载并安装Termux应用程序。
  2. 更新软件包:打开Termux并更新软件包列表。
    pkg update
  3. 安装所需软件包:安装必要的软件包。
    pkg install git clang make
  4. 克隆和构建Llama.cpp:按照树莓派部分的步骤克隆和构建Llama.cpp。
  5. 运行Llama 2:使用以下命令运行Llama 2。
    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin

通过探索这些替代方法,您不仅可以运行Llama 2,还可以按照您自己的方式运行它。无论是在价格实惠的树莓派上,安全的Docker容器中,还是您的Android手机上,您的想象力可以无限延伸。

如何在多个设备上运行Llama 2

如果您是使用多个设备,并希望在所有设备上运行Llama 2的用户,本节适用于您。此方法使用设备同步来确保您的Llama 2会话在所有设备上保持一致。

  1. 设置中央服务器:选择一个设备作为中央服务器。这可以是您的主要PC或云服务器。
  2. 在所有设备上安装Llama 2:确保在您想要使用的所有设备上安装了Llama 2。
  3. 同步设备:使用rsync或云存储等工具将Llama 2目录在所有设备之间进行同步。
    rsync -avz ~/llama2/ user@remote:/path/to/llama2/
  4. 运行Llama 2:在每个设备上启动Llama 2。它们都将访问相同的数据,确保无缝体验。

结论

在这个全面的指南中,我们探讨了运行Llama 2的各种方法,深入研究了使用Docker的技术细节,甚至涉及了基于云的解决方案的好处。我们还强调了llama2-webui的强大功能,这是一个多功能工具,不仅支持各种Llama 2模型,还支持OpenAI API兼容性,使其成为初学者和专家的一站式解决方案。

无论您是开发人员想要将Llama 2集成到您的应用程序中,还是数据科学家想要进行高级分析,本文介绍的技术和工具都为每个人提供了一些东西。通过利用这些高级方法,您可以优化您的Llama 2体验,确保模型训练高效、部署无缝,并有效利用资源。

所以,不要满足于基础知识。尝试使用这些高级技术来发掘Llama 2的全部潜力,将您的项目推向新的高度。

想了解最新的LLM新闻吗?查看最新的LLM排行榜

Anakin AI - The Ultimate No-Code AI App Builder