Como executar o Llama 2 localmente: O guia definitivo para Mac, Windows e dispositivos móveis
Published on
Se você tem acompanhado o mundo do Processamento de Linguagem Natural (NLP), provavelmente já ouviu falar do Llama 2, o revolucionário modelo de linguagem que está causando sensação no mundo da tecnologia. Mas você sabia que pode executar esse modelo avançado localmente em seu próprio dispositivo? Isso mesmo! Você não precisa de um supercomputador ou mesmo de uma conexão com a internet para aproveitar o poder do Llama 2.
Seja você um usuário de Mac, um aficionado por Windows ou até mesmo um entusiasta de dispositivos móveis, este guia tem tudo o que você precisa. Vamos mergulhar nos detalhes minuciosos de executar o Llama 2 em várias plataformas, usando diferentes ferramentas, e até mesmo fornecer algumas dicas profissionais para otimizar sua experiência. Então, vamos começar!
Quer saber as últimas novidades sobre o LLM? Confira o ranking mais recente do LLM!
O que é o Llama 2?
O Llama 2 é a última iteração da série de modelos de linguagem Llama, projetada para entender e gerar um texto semelhante ao humano, com base nos dados pelos quais foi treinado. É resultado de uma extensa pesquisa e desenvolvimento, capaz de realizar uma ampla gama de tarefas de NLP, desde a geração de texto simples até a resolução de problemas complexos. O modelo possui diferentes tamanhos, denotados pelo número de parâmetros que possuem, como 7B, 13B e até mesmo 70B.
Por que executar o Llama 2 localmente? Aqui estão os benefícios:
- Privacidade: Ao executar o Llama 2 localmente, você garante que seus dados permaneçam em seu dispositivo, oferecendo uma camada extra de segurança.
- Velocidade: A execução local elimina a necessidade de os dados viajarem pela internet, resultando em tempos de resposta mais rápidos.
- Acesso offline: Depois de instalado, você pode usar o Llama 2 sem uma conexão com a internet, tornando-o incrivelmente versátil.
- Gerenciamento de recursos: Ao executar o modelo localmente, você pode gerenciar os recursos do seu dispositivo de forma mais eficiente, especialmente quando não estiver conectado à internet.
Como instalar o LLaMA2 localmente no Mac usando o Llama.cpp
Se você é um usuário de Mac, uma das maneiras mais eficientes de executar o Llama 2 localmente é usando o Llama.cpp. Este é um port C/C++ do modelo Llama, que permite executá-lo com quantização de inteiros de 4 bits, o que é especialmente benéfico para otimização de desempenho.
-
Requisitos de RAM: Verifique se você tem pelo menos 8GB de RAM para os modelos 3B, 16GB para os modelos 7B e 32GB para os modelos 13B.
-
Abra o Terminal: Navegue até o diretório de sua preferência onde você deseja instalar o Llama.cpp.
-
Execute o comando único: Execute o seguinte comando para instalar o Llama.cpp:
curl -L "https://replicate.fyi/install-llama-cpp" | bash
-
Entenda o script: Este comando único realiza várias ações:
- Clona o repositório do Llama.cpp no GitHub.
- Compila o projeto com suporte a GPU (sinalizador
LLAMA_METAL=1
). - Faz o download do modelo Llama 2.
- Configura um prompt interativo para começar a usar o Llama 2.
-
Teste a instalação: Depois que a instalação estiver concluída, você pode testá-la executando alguns exemplos de prompts. Por exemplo:
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
Este comando executa o modelo em modo interativo com várias opções de personalização.
Seguindo essas etapas, você terá o Llama 2 funcionando em seu Mac em pouco tempo. O método Llama.cpp é especialmente útil para aqueles que estão familiarizados com comandos no terminal e procuram uma experiência otimizada em termos de desempenho.
Instale o Llama 2 no Windows com o WSL
Usuários do Windows, não fiquem de fora! Você também pode executar o Llama 2 localmente em sua máquina usando o Windows Subsystem for Linux (WSL). O WSL permite que você execute uma distribuição Linux em sua máquina Windows, facilitando a instalação e execução de aplicativos baseados em Linux, como o Llama 2.
-
Requisitos de RAM: Verifique se você tem pelo menos 8GB de RAM para os modelos 3B, 16GB para os modelos 7B e 32GB para os modelos 13B.
-
Instale o WSL: Se você ainda não o fez, precisará instalar o WSL em sua máquina Windows. Você pode fazer isso seguindo o guia oficial da Microsoft.
-
Abra o terminal do WSL: Após instalar o WSL, abra o terminal do WSL e navegue até o diretório de sua preferência.
-
Execute o comando único: Execute o seguinte comando para instalar o Llama 2:
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
-
Entenda o script: Este comando único executa várias tarefas:
- Clona o repositório do Llama.cpp no GitHub.
- Compila o projeto.
- Faz o download do modelo Llama 2.
- Configura um prompt interativo para começar a usar o Llama 2.
-
Teste a instalação: Após a conclusão da instalação, você pode testá-la executando alguns exemplos de prompts. Por exemplo:
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
Este comando executa o modelo em modo interativo com várias opções de personalização.
O método WSL é uma forma robusta de executar o Llama 2 no Windows, especialmente se você estiver familiarizado com comandos Linux. Ele oferece uma experiência tranquila sem exigir que você altere os sistemas operacionais.
Executando o Llama 2 em Dispositivos Móveis: MLC LLM para iOS e Android
Se você está sempre em movimento, ficará feliz em saber que pode executar o Llama 2 em seu dispositivo móvel. Graças ao MLC LLM, um projeto de código aberto, agora você pode executar o Llama 2 nas plataformas iOS e Android.
-
Baixe o aplicativo:
- Para usuários iOS, baixe o aplicativo de bate-papo MLC na App Store.
- Para usuários Android, baixe o aplicativo MLC LLM no Google Play.
-
Instale o TestFlight (apenas iOS): A versão mais recente que suporta o Llama 2 ainda está em beta para iOS. Você precisará instalar o TestFlight para experimentá-lo.
-
Baixe o modelo:
- Abra o aplicativo e vá para a seção de download do modelo.
- Escolha o tamanho do modelo que deseja baixar (7B, 13B ou 70B).
-
Execute o modelo:
- Depois que o modelo for baixado, você pode executá-lo navegando para a interface de bate-papo dentro do aplicativo.
- Insira sua solicitação e aguarde o modelo gerar uma resposta.
Executar o Llama 2 em seu dispositivo móvel via MLC LLM oferece uma conveniência sem igual. Seja durante o deslocamento, viagem ou apenas longe do seu computador principal, você ainda pode acessar o poder do Llama 2 diretamente do seu bolso.
Como executar o Llama 2 com llama2-webui
Se você está procurando uma maneira mais amigável de executar o Llama 2, não procure além do llama2-webui
. Essa poderosa ferramenta permite executar o Llama 2 com uma interface da web, tornando-o acessível de qualquer lugar e em qualquer sistema operacional, incluindo Linux, Windows e Mac. Desenvolvido pelo usuário do GitHub liltom-eth, o llama2-webui
suporta todos os modelos do Llama 2 e oferece uma variedade de recursos que o tornam uma escolha versátil tanto para iniciantes quanto para especialistas.
Recursos do llama2-webui
- Suporte ao modelo: o llama2-webui suporta todos os modelos do Llama 2, incluindo 7B, 13B, 70B, GPTQ, GGML, GGUF e CodeLlama.
- Suporte ao backend: ele suporta vários backends como transformers, bitsandbytes para inferência de 8 bits, AutoGPTQ para inferência de 4 bits e llama.cpp.
- Compatibilidade com a API da OpenAI: o llama2-webui permite executar uma API compatível com a OpenAI em modelos do Llama 2, facilitando a integração com sistemas existentes.
Como instalar o llama2-webui
- Pelo PyPI: Você pode instalar o pacote llama2-wrapper pelo PyPI usando o seguinte comando:
pip install llama2-wrapper
- Pelo código-fonte: Alternativamente, você pode clonar o repositório do GitHub e instalar as dependências:
git clone https://github.com/liltom-eth/llama2-webui.git cd llama2-webui pip install -r requirements.txt
Como usar o llama2-webui
- Inicie a interface do chat: Para executar o chatbot com uma interface da web, execute o seguinte comando:
python app.py
- Inicie a interface do Code Llama: Se você está interessado em completar código, pode executar a interface do Code Llama com o seguinte comando:
python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
- Personalização: Você pode personalizar o caminho do modelo, tipo de backend e outras configurações no arquivo
.env
.
llama2-wrapper para desenvolvedores
Para aqueles que estão desenvolvendo agentes ou aplicativos generativos, o llama2-wrapper
pode ser usado como um wrapper backend. Aqui está um exemplo em Python:
from llama2_wrapper import LLAMA2_WRAPPER, get_prompt
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "Você conhece o PyTorch"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)
Executando uma API compatível com a OpenAI
Você também pode executar um servidor Fast API que atua como uma substituição direta para a API da OpenAI. Para iniciar o Fast API, use o seguinte comando:
python -m llama2_wrapper.server
Testes de desempenho e benchmarking
A ferramenta vem com um script de benchmark para medir o desempenho da sua configuração. Você pode executá-lo usando:
python benchmark.py
Formas alternativas de executar o Llama 2 localmente
Então você aprendeu a executar o Llama 2 em seu dispositivo, mas está procurando por mais. Talvez você esteja procurando maneiras de executá-lo sem consumir todos os recursos do seu sistema, ou talvez esteja curioso sobre como executá-lo em um dispositivo que não é oficialmente suportado. Seja qual for o caso, esta seção é para você. Estamos explorando métodos alternativos para executar o Llama 2 localmente, cada um com suas próprias vantagens e desafios.
Executando o Llama 2 em um Raspberry Pi
Sim, você leu corretamente. É totalmente possível executar o Llama 2 em um Raspberry Pi, e o desempenho é surpreendentemente bom. Esta é uma opção fantástica para aqueles que desejam um dispositivo dedicado para executar o Llama 2 sem gastar muito.
- Instalar dependências: Abra o terminal e execute os seguintes comandos para instalar os pacotes necessários:
sudo apt-get update sudo apt-get install git cmake build-essential
- Clonar o repositório Llama.cpp: Use o git para clonar o repositório Llama.cpp.
git clone https://github.com/ggerganov/llama.cpp.git
- Compilar e construir: Navegue até o diretório clonado e compile o projeto.
cd llama.cpp make
- Executar o Llama 2: Por fim, execute o seguinte comando para executar o Llama 2.
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
Executando o Llama 2 em um contêiner Docker
Para aqueles que preferem a contenerização, executar o Llama 2 em um contêiner Docker é uma opção viável. Este método garante que o ambiente do Llama 2 esteja isolado do seu sistema local, fornecendo uma camada extra de segurança.
- Instalar o Docker: Se ainda não o fez, instale o Docker em sua máquina.
- Obter a imagem Docker do Llama 2: Abra o terminal e obtenha a imagem Docker do Llama 2.
docker pull llama2/local
- Executar o contêiner: Execute o seguinte comando para executar o Llama 2 em um contêiner Docker.
docker run -it --rm llama2/local
Executando o Llama 2 em um Android via Termux
- Instalar o Termux: Baixe e instale o aplicativo Termux na Google Play Store.
- Atualizar pacotes: Abra o Termux e atualize a lista de pacotes.
pkg update
- Instalar pacotes necessários: Instale os pacotes necessários.
pkg install git clang make
- Clonar e compilar o Llama.cpp: Siga os mesmos passos da seção Raspberry Pi para clonar e compilar o Llama.cpp.
- Executar o Llama 2: Use o seguinte comando para executar o Llama 2.
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
Explorando esses métodos alternativos, você não está apenas executando o Llama 2; você está executando do seu jeito. Seja em um Raspberry Pi econômico, em um contêiner Docker seguro ou até mesmo no seu telefone Android, as possibilidades são tão ilimitadas quanto a sua imaginação.
Como executar o Llama 2 em vários dispositivos
Se você é uma pessoa que usa vários dispositivos e deseja executar o Llama 2 em todos eles, esta seção é para você. Esse método usa a sincronização de dispositivos para garantir que sua sessão do Llama 2 seja consistente em todos os dispositivos.
- Configurar um servidor central: Escolha um dispositivo para atuar como servidor central. Isso pode ser o seu PC principal ou um servidor na nuvem.
- Instalar o Llama 2 em todos os dispositivos: Certifique-se de que o Llama 2 esteja instalado em todos os dispositivos que você deseja usar.
- Sincronizar dispositivos: Use uma ferramenta como
rsync
ou armazenamento em nuvem para sincronizar os diretórios do Llama 2 em todos os dispositivos.rsync -avz ~/llama2/ user@remote:/path/to/llama2/
- Executar o Llama 2: Inicie o Llama 2 em cada dispositivo. Todos eles terão acesso aos mesmos dados, garantindo uma experiência contínua.
Conclusão
Neste guia abrangente, exploramos vários métodos para executar o Llama 2 localmente, aprofundamos nas questões técnicas de usar o Docker e até abordamos os benefícios das soluções baseadas em nuvem. Também destacamos o poder do llama2-webui, uma ferramenta versátil que não apenas suporta uma ampla variedade de modelos do Llama 2, mas também oferece compatibilidade com a API da OpenAI, tornando-a uma solução completa tanto para iniciantes quanto para especialistas.
Seja você um desenvolvedor em busca de integrar o Llama 2 em sua aplicação ou um cientista de dados com o objetivo de realizar análises avançadas, as técnicas e ferramentas discutidas aqui oferecem algo para todos. Ao aproveitar esses métodos avançados, você pode otimizar sua experiência com o Llama 2, garantindo um treinamento eficiente do modelo, implantação contínua e utilização efetiva de recursos.
Portanto, não fique apenas nas noções básicas. Experimente essas técnicas avançadas para desbloquear todo o potencial do Llama 2 e levar seus projetos ao próximo nível.
Quer ficar por dentro das últimas notícias do LLM? Confira a llm leaderboard mais recente!