Want to Become a Sponsor? Contact Us Now!🎉

LLM
Como Executar o Llama 3 Localmente sem Complicações

Como Executar o Llama 3 Localmente

Published on

Um guia abrangente sobre como instalar e executar os poderosos modelos de linguagem Llama 3 (versões 8B e 70B) em sua máquina local usando a ferramenta Ollama.

Llama 3 da Meta é a última iteração do modelo de linguagem de código aberto, oferecendo um desempenho e acessibilidade impressionantes. Com tamanhos de modelo variando de 8 bilhões (8B) a massivos 70 bilhões (70B) de parâmetros, o Llama 3 oferece uma ferramenta poderosa para tarefas de processamento de linguagem natural. No entanto, executar modelos tão massivos localmente pode ser desafiador, exigindo recursos computacionais substanciais e expertise técnica. Felizmente, o Ollama, uma ferramenta simplificada desenvolvida pela Microsoft, simplifica o processo de execução de LLMs de código aberto como o Llama 3 em máquinas locais.

Anakin AI - The Ultimate No-Code AI App Builder

O que é o Ollama?

Ollama é uma solução fácil de usar que agrupa pesos de modelos, configurações e conjuntos de dados em um único pacote definido por um arquivo de modelo. Ele otimiza a configuração e detalhes de configuração, incluindo o uso da GPU, tornando mais fácil para desenvolvedores e pesquisadores executarem grandes modelos de linguagem localmente. Ollama suporta uma ampla gama de modelos, incluindo o Llama 3, permitindo que os usuários explorem e experimentem esses modelos de linguagem de ponta sem as complicações de procedimentos de configuração complexos.

Requisitos de Sistema para Executar o Llama 3 Localmente

Antes de mergulhar no processo de instalação, é essencial garantir que seu sistema atenda aos requisitos mínimos para executar modelos do Llama 3 localmente. As demandas de recursos variam de acordo com o tamanho do modelo, sendo que modelos maiores exigem hardware mais poderoso.

Para o modelo de 8B, você precisará de no mínimo:

  • 8GB de VRAM
  • 16GB de RAM
  • Uma GPU como a NVIDIA RTX 3070 ou superior é recomendada para um desempenho ideal.

Quanto ao modelo de 70B, você precisará de:

  • Uma GPU de ponta com pelo menos 24GB de VRAM, como a NVIDIA RTX 3090 ou A100
  • Pelo menos 64GB de RAM
  • Espaço de armazenamento suficiente, pois esses modelos podem consumir vários gigabytes de espaço em disco.

Instalando o Ollama

O processo de instalação do Ollama é simples e pode ser concluído com um único comando. Abra um terminal em seu sistema e execute o seguinte comando:

curl -fsSL https://ollama.com/install.sh | sh

Este comando irá baixar e instalar a versão mais recente do Ollama em seu sistema. Após a instalação ser concluída, você pode verificar a instalação executando ollama --version.

Baixando os Modelos do Llama 3

Ollama oferece uma maneira conveniente de baixar e gerenciar os modelos do Llama 3. Para baixar o modelo 8B, execute o seguinte comando:

ollama pull llama3-8b

Para o modelo de 70B, use:

ollama pull llama3-70b

Esses comandos irão baixar os respectivos modelos e seus arquivos associados para sua máquina local. Dependendo da velocidade da sua conexão com a internet e das especificações do seu sistema, o processo de download pode levar algum tempo, especialmente para o modelo maior de 70B.

Executando os Modelos do Llama 3

Depois de baixar os modelos, você pode executá-los usando o comando run do Ollama. Para o modelo de 8B, execute:

ollama run llama3-8b

Para o modelo de 70B, use:

ollama run llama3-70b

Esses comandos iniciarão uma sessão interativa com o respectivo modelo do Llama 3, permitindo que você insira prompts e receba respostas geradas. Ollama lidará com a configuração necessária, tornando fácil interagir com os modelos sem um amplo conhecimento técnico.

Uso Avançado

Ollama oferece várias funcionalidades e opções avançadas para aprimorar sua experiência com modelos do Llama 3. Por exemplo, você pode especificar o número de GPUs a serem usadas, habilitar quantização para inferências mais rápidas ou ajustar o tamanho do lote e o comprimento da sequência para um desempenho ideal.

Para explorar essas opções avançadas, consulte a documentação do Ollama ou execute ollama run --help para obter uma lista de opções disponíveis e suas descrições.

Integrando o Llama 3 com Aplicações

Embora executar os modelos do Llama 3 interativamente seja útil para testes e exploração, você pode querer integrá-los em suas aplicações ou fluxos de trabalho. Ollama oferece uma API Python que permite interagir programaticamente com os modelos, possibilitando uma integração perfeita em seus projetos.

Aqui está um exemplo de como usar a API Python do Ollama para gerar texto com o modelo Llama 3 8B:

import ollama
 
# Carregar o modelo
model = ollama.load("llama3-8b")
 
# Gerar texto
prompt = "Era uma vez, havia um"
output = model.generate(prompt, max_new_tokens=100)
 
print(output)

Este trecho de código carrega o modelo Llama 3 8B, fornece um prompt e gera 100 novos tokens como continuação do prompt. Você pode personalizar o prompt, o comprimento de saída e outros parâmetros de acordo com suas necessidades.

Referência de Desempenho do Llama 3 8B e Llama 3 70B

Referência de Desempenho do Llama 3

Os modelos Llama 3 têm mostrado um desempenho impressionante em várias referências, muitas vezes superando seus predecessores e modelos maiores. Aqui estão alguns resultados de referência:

Referências Gerais

ReferênciaLlama 3 8BLlama 3 70B
MMLU (5 execuções)66.679.5
AGIEval em inglês (3-5 execuções)45.963.0
CommonSenseQA (7 execuções)72.683.8
Winogrande (5 execuções)76.183.1
BIG-Bench Hard (3-shot, CoT)61.181.3
ARC-Challenge (25-shot)78.693.0

Raciocínio de Conhecimento

BenchmarkLlama 3 8BLlama 3 70B
TriviaQA-Wiki (5-shot)78.589.7

Compreensão de Leitura

BenchmarkLlama 3 8BLlama 3 70B
SQuAD (1-shot)76.485.6
QuAC (1-shot, F1)44.451.1
BoolQ (0-shot)75.779.0
DROP (3-shot, F1)58.479.7

Esses benchmarks demonstram as impressionantes capacidades do Llama 3, com o modelo de 70B frequentemente superando a versão de 8B, como esperado. No entanto, o modelo de 8B ainda oferece um desempenho notável, tornando-o uma opção viável para aqueles com recursos computacionais limitados.

Conclusão

Executar modelos de linguagem grandes, como o Llama 3, localmente nunca foi tão fácil graças ao Ollama. Com sua interface amigável e processo de instalação simplificado, o Ollama capacita desenvolvedores, pesquisadores e entusiastas a aproveitarem o poder desses modelos de ponta em suas máquinas locais. Seja para tarefas de processamento de linguagem natural, explorando as capacidades do Llama 3 ou integrando-o em suas aplicações, o Ollama oferece uma solução conveniente e eficiente. Então, por que esperar? Faça o download do Ollama hoje e desbloqueie o potencial do Llama 3 em seu sistema local!

Anakin AI - The Ultimate No-Code AI App Builder