Comment exécuter Llama 3 en local
Published on
Llama 3 de Meta est la dernière itération de leur modèle de langage open-source, offrant des performances impressionnantes et une accessibilité accrue. Avec des tailles de modèle allant de 8 milliards (8B) à un énorme 70 milliards (70B) de paramètres, Llama 3 offre un outil puissant pour les tâches de traitement du langage naturel. Cependant, exécuter de tels modèles massifs en local peut être difficile, nécessitant des ressources informatiques importantes et une expertise technique. Heureusement, Ollama, un outil simplifié développé par Microsoft, facilite le processus d'exécution des modèles de langage open-source tels que Llama 3 sur les machines locales.
Qu'est-ce que Ollama ?
Ollama est une solution conviviale qui regroupe les poids des modèles, les configurations et les ensembles de données dans un seul package, défini par un fichier de modèle. Il optimise la configuration, y compris l'utilisation du GPU, ce qui facilite l'exécution de grands modèles de langage localement pour les développeurs et les chercheurs. Ollama prend en charge une large gamme de modèles, y compris Llama 3, ce qui permet aux utilisateurs d'explorer et d'expérimenter ces modèles de langage de pointe sans les tracas des procédures de configuration complexes.
Configuration requise pour exécuter Llama 3 en local
Avant de vous lancer dans le processus d'installation, il est essentiel de vous assurer que votre système répond aux exigences minimales pour exécuter les modèles Llama 3 en local. Les besoins en ressources varient en fonction de la taille du modèle, les modèles plus volumineux nécessitant un matériel plus puissant.
Pour le modèle 8B, vous aurez besoin d'au moins :
- 8 Go de VRAM
- 16 Go de RAM
- Un GPU tel que le NVIDIA RTX 3070 ou mieux est recommandé pour des performances optimales.
Quant au modèle 70B, vous aurez besoin de :
- Un GPU haut de gamme avec au moins 24 Go de VRAM, comme le NVIDIA RTX 3090 ou l'A100
- Au moins 64 Go de RAM
- Un espace de stockage suffisant, car ces modèles peuvent consommer plusieurs gigaoctets d'espace disque.
Installation d'Ollama
Le processus d'installation d'Ollama est simple et peut être réalisé avec une seule commande. Ouvrez un terminal sur votre système et exécutez la commande suivante :
curl -fsSL https://ollama.com/install.sh | sh
Cette commande téléchargera et installera la dernière version d'Ollama sur votre système. Une fois l'installation terminée, vous pouvez vérifier l'installation en exécutant ollama --version
.
Téléchargement des modèles Llama 3
Ollama offre un moyen pratique de télécharger et de gérer les modèles Llama 3. Pour télécharger le modèle 8B, exécutez la commande suivante :
ollama pull llama3-8b
Pour le modèle 70B, utilisez :
ollama pull llama3-70b
Ces commandes téléchargeront les modèles respectifs et leurs fichiers associés sur votre machine locale. En fonction de la vitesse de votre connexion Internet et des spécifications de votre système, le processus de téléchargement peut prendre un certain temps, en particulier pour le modèle 70B plus volumineux.
Exécution des modèles Llama 3
Une fois que vous avez téléchargé les modèles, vous pouvez les exécuter en utilisant la commande run
d'Ollama. Pour le modèle 8B, exécutez :
ollama run llama3-8b
Pour le modèle 70B, utilisez :
ollama run llama3-70b
Ces commandes démarreront une session interactive avec le modèle Llama 3 respectif, vous permettant de saisir des instructions et de recevoir des réponses générées. Ollama gérera la configuration nécessaire, ce qui facilite l'interaction avec les modèles sans avoir de connaissances techniques approfondies.
Utilisation avancée
Ollama propose plusieurs fonctionnalités et options avancées pour améliorer votre expérience avec les modèles Llama 3. Par exemple, vous pouvez spécifier le nombre de GPUs à utiliser, activer la quantification pour une inférence plus rapide ou ajuster la taille des lots et la longueur de la séquence pour des performances optimales.
Pour explorer ces options avancées, consultez la documentation d'Ollama ou exécutez ollama run --help
pour obtenir une liste des options disponibles et leurs descriptions.
Intégration de Llama 3 avec des applications
Bien que l'exécution interactive des modèles Llama 3 soit utile pour les tests et l'exploration, vous souhaiterez peut-être les intégrer dans vos applications ou vos flux de travail. Ollama fournit une API Python qui vous permet d'interagir avec les modèles de manière programmable, ce qui facilite leur intégration transparente dans vos projets.
Voici un exemple d'utilisation de l'API Python d'Ollama pour générer du texte avec le modèle Llama 3 8B :
import ollama
# Charger le modèle
model = ollama.load("llama3-8b")
# Générer du texte
prompt = "Il était une fois, il y avait un"
output = model.generate(prompt, max_new_tokens=100)
print(output)
Cet extrait de code charge le modèle Llama 3 8B, fournit une instruction initiale et génère 100 nouveaux tokens en continuant l'instruction. Vous pouvez personnaliser l'instruction, la longueur de la sortie et d'autres paramètres en fonction de vos besoins.
Performances des modèles Llama 3 8B et Llama 3 70B
Les modèles Llama 3 ont montré des performances impressionnantes sur divers bancs d'essai, dépassant souvent leurs prédécesseurs et modèles plus volumineux. Voici quelques résultats de benchmark :
Benchmarks généraux
Benchmark | Llama 3 8B | Llama 3 70B |
---|---|---|
MMLU (5-shot) | 66.6 | 79.5 |
AGIEval English (3-5 shot) | 45.9 | 63.0 |
CommonSenseQA (7-shot) | 72.6 | 83.8 |
Winogrande (5-shot) | 76.1 | 83.1 |
BIG-Bench Hard (3-tirs, CoT) | 61.1 | 81.3 |
ARC-Challenge (25-tirs) | 78.6 | 93.0 |
Raisonnement sur les connaissances
Benchmark | Llama 3 8G | Llama 3 70G |
---|---|---|
TriviaQA-Wiki (5-tirs) | 78.5 | 89.7 |
Compréhension de la lecture
Benchmark | Llama 3 8G | Llama 3 70G |
---|---|---|
SQuAD (1-tir) | 76.4 | 85.6 |
QuAC (1-tir, F1) | 44.4 | 51.1 |
BoolQ (0-tir) | 75.7 | 79.0 |
DROP (3-tirs, F1) | 58.4 | 79.7 |
Ces benchmarks démontrent les capacités impressionnantes de Llama 3, le modèle 70G étant souvent plus performant que la version 8G, comme prévu. Cependant, le modèle 8G offre toujours des performances remarquables, en en faisant une option viable pour ceux qui ont des ressources informatiques limitées.
Conclusion
L'exécution de modèles de langage volumineux tels que Llama 3 localement n'a jamais été aussi facile grâce à Ollama. Avec son interface conviviale et son processus de configuration simplifié, Ollama permet aux développeurs, chercheurs et passionnés d'exploiter la puissance de ces modèles de pointe sur leurs machines locales. Que vous travailliez sur des tâches de traitement du langage naturel, exploriez les capacités de Llama 3 ou l'intégriez dans vos applications, Ollama propose une solution pratique et efficace. Alors, pourquoi attendre ? Téléchargez Ollama dès aujourd'hui et libérez le potentiel de Llama 3 sur votre système local !