Como Executar o Llama 3 Localmente
Published on
Llama 3 da Meta é a última iteração do modelo de linguagem de código aberto, oferecendo um desempenho e acessibilidade impressionantes. Com tamanhos de modelo variando de 8 bilhões (8B) a massivos 70 bilhões (70B) de parâmetros, o Llama 3 oferece uma ferramenta poderosa para tarefas de processamento de linguagem natural. No entanto, executar modelos tão massivos localmente pode ser desafiador, exigindo recursos computacionais substanciais e expertise técnica. Felizmente, o Ollama, uma ferramenta simplificada desenvolvida pela Microsoft, simplifica o processo de execução de LLMs de código aberto como o Llama 3 em máquinas locais.
O que é o Ollama?
Ollama é uma solução fácil de usar que agrupa pesos de modelos, configurações e conjuntos de dados em um único pacote definido por um arquivo de modelo. Ele otimiza a configuração e detalhes de configuração, incluindo o uso da GPU, tornando mais fácil para desenvolvedores e pesquisadores executarem grandes modelos de linguagem localmente. Ollama suporta uma ampla gama de modelos, incluindo o Llama 3, permitindo que os usuários explorem e experimentem esses modelos de linguagem de ponta sem as complicações de procedimentos de configuração complexos.
Requisitos de Sistema para Executar o Llama 3 Localmente
Antes de mergulhar no processo de instalação, é essencial garantir que seu sistema atenda aos requisitos mínimos para executar modelos do Llama 3 localmente. As demandas de recursos variam de acordo com o tamanho do modelo, sendo que modelos maiores exigem hardware mais poderoso.
Para o modelo de 8B, você precisará de no mínimo:
- 8GB de VRAM
- 16GB de RAM
- Uma GPU como a NVIDIA RTX 3070 ou superior é recomendada para um desempenho ideal.
Quanto ao modelo de 70B, você precisará de:
- Uma GPU de ponta com pelo menos 24GB de VRAM, como a NVIDIA RTX 3090 ou A100
- Pelo menos 64GB de RAM
- Espaço de armazenamento suficiente, pois esses modelos podem consumir vários gigabytes de espaço em disco.
Instalando o Ollama
O processo de instalação do Ollama é simples e pode ser concluído com um único comando. Abra um terminal em seu sistema e execute o seguinte comando:
curl -fsSL https://ollama.com/install.sh | sh
Este comando irá baixar e instalar a versão mais recente do Ollama em seu sistema. Após a instalação ser concluída, você pode verificar a instalação executando ollama --version
.
Baixando os Modelos do Llama 3
Ollama oferece uma maneira conveniente de baixar e gerenciar os modelos do Llama 3. Para baixar o modelo 8B, execute o seguinte comando:
ollama pull llama3-8b
Para o modelo de 70B, use:
ollama pull llama3-70b
Esses comandos irão baixar os respectivos modelos e seus arquivos associados para sua máquina local. Dependendo da velocidade da sua conexão com a internet e das especificações do seu sistema, o processo de download pode levar algum tempo, especialmente para o modelo maior de 70B.
Executando os Modelos do Llama 3
Depois de baixar os modelos, você pode executá-los usando o comando run
do Ollama. Para o modelo de 8B, execute:
ollama run llama3-8b
Para o modelo de 70B, use:
ollama run llama3-70b
Esses comandos iniciarão uma sessão interativa com o respectivo modelo do Llama 3, permitindo que você insira prompts e receba respostas geradas. Ollama lidará com a configuração necessária, tornando fácil interagir com os modelos sem um amplo conhecimento técnico.
Uso Avançado
Ollama oferece várias funcionalidades e opções avançadas para aprimorar sua experiência com modelos do Llama 3. Por exemplo, você pode especificar o número de GPUs a serem usadas, habilitar quantização para inferências mais rápidas ou ajustar o tamanho do lote e o comprimento da sequência para um desempenho ideal.
Para explorar essas opções avançadas, consulte a documentação do Ollama ou execute ollama run --help
para obter uma lista de opções disponíveis e suas descrições.
Integrando o Llama 3 com Aplicações
Embora executar os modelos do Llama 3 interativamente seja útil para testes e exploração, você pode querer integrá-los em suas aplicações ou fluxos de trabalho. Ollama oferece uma API Python que permite interagir programaticamente com os modelos, possibilitando uma integração perfeita em seus projetos.
Aqui está um exemplo de como usar a API Python do Ollama para gerar texto com o modelo Llama 3 8B:
import ollama
# Carregar o modelo
model = ollama.load("llama3-8b")
# Gerar texto
prompt = "Era uma vez, havia um"
output = model.generate(prompt, max_new_tokens=100)
print(output)
Este trecho de código carrega o modelo Llama 3 8B, fornece um prompt e gera 100 novos tokens como continuação do prompt. Você pode personalizar o prompt, o comprimento de saída e outros parâmetros de acordo com suas necessidades.
Referência de Desempenho do Llama 3 8B e Llama 3 70B
Os modelos Llama 3 têm mostrado um desempenho impressionante em várias referências, muitas vezes superando seus predecessores e modelos maiores. Aqui estão alguns resultados de referência:
Referências Gerais
Referência | Llama 3 8B | Llama 3 70B |
---|---|---|
MMLU (5 execuções) | 66.6 | 79.5 |
AGIEval em inglês (3-5 execuções) | 45.9 | 63.0 |
CommonSenseQA (7 execuções) | 72.6 | 83.8 |
Winogrande (5 execuções) | 76.1 | 83.1 |
BIG-Bench Hard (3-shot, CoT) | 61.1 | 81.3 |
ARC-Challenge (25-shot) | 78.6 | 93.0 |
Raciocínio de Conhecimento
Benchmark | Llama 3 8B | Llama 3 70B |
---|---|---|
TriviaQA-Wiki (5-shot) | 78.5 | 89.7 |
Compreensão de Leitura
Benchmark | Llama 3 8B | Llama 3 70B |
---|---|---|
SQuAD (1-shot) | 76.4 | 85.6 |
QuAC (1-shot, F1) | 44.4 | 51.1 |
BoolQ (0-shot) | 75.7 | 79.0 |
DROP (3-shot, F1) | 58.4 | 79.7 |
Esses benchmarks demonstram as impressionantes capacidades do Llama 3, com o modelo de 70B frequentemente superando a versão de 8B, como esperado. No entanto, o modelo de 8B ainda oferece um desempenho notável, tornando-o uma opção viável para aqueles com recursos computacionais limitados.
Conclusão
Executar modelos de linguagem grandes, como o Llama 3, localmente nunca foi tão fácil graças ao Ollama. Com sua interface amigável e processo de instalação simplificado, o Ollama capacita desenvolvedores, pesquisadores e entusiastas a aproveitarem o poder desses modelos de ponta em suas máquinas locais. Seja para tarefas de processamento de linguagem natural, explorando as capacidades do Llama 3 ou integrando-o em suas aplicações, o Ollama oferece uma solução conveniente e eficiente. Então, por que esperar? Faça o download do Ollama hoje e desbloqueie o potencial do Llama 3 em seu sistema local!