Llama.cpp : Port C/C++ pour le modèle LLaMA de Facebook

Name: Jennie Rose

Published on 30/04/2024

Bienvenue dans le monde fascinant de Llama CPP ! Si vous avez envie de vous essayer aux modèles de langage, vous êtes au bon endroit. Llama CPP est un outil qui fait sensation dans le domaine de l'ingénierie des sollicitations, et ce, pour de bonnes raisons.

Dans ce guide complet, nous explorerons tout ce que vous devez savoir sur Llama CPP. De la mise en place à l'exécution de votre premier modèle, nous vous couvrons. Alors, plongeons-y et débloquons le plein potentiel de cet outil puissant.

Vous voulez connaître les dernières actualités de LLM ? Consultez le dernier classement LLM !

Qu'est-ce que Llama CPP ?

Llama CPP est un projet qui vous permet de travailler avec des modèles de langage de manière transparente. C'est un outil qui comble le fossé entre les algorithmes complexes et leur mise en pratique. Mais qu'est-ce qu'un modèle de langage exactement ? Analysons-le :

Modèle de langage : Un modèle computationnel qui prédit la probabilité d'une séquence de mots. Il est le socle de diverses applications telles que les chatbots, les services de traduction et même la fonction de correction automatique de votre smartphone.

Llama CPP n'est pas simplement un autre outil ; c'est un cadre robuste qui vous permet de :

Exécuter des modèles pré-entraînés à partir de plates-formes telles que Hugging Face
Construire le projet en utilisant soit le CPU, soit le GPU
L'intégrer à Python pour une fonctionnalité étendue

Configuration de Llama CPP : Guide étape par étape

Commencer avec Llama CPP est un jeu d'enfant. Tout ce dont vous avez besoin est un ordinateur et une connexion Internet. Voici comment le configurer :

Cloner le référentiel : Ouvrez votre terminal et exécutez la commande suivante pour cloner le référentiel Llama CPP depuis GitHub.
```
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
```
Cela téléchargera le référentiel et vous placera dans le répertoire nouvellement cloné.
Télécharger des modèles de langage : Vous aurez besoin de modèles de langage pour travailler avec Llama CPP. Vous pouvez les télécharger depuis Hugging Face ou depuis le projet LLaMa d'origine. Placez-les dans un répertoire à l'intérieur du référentiel cloné.
Choisissez votre compilation : Décidez si vous souhaitez construire le projet en utilisant le CPU ou le GPU. Pour une compilation basée sur le GPU, vous devrez installer la boîte à outils NVIDIA CUDA.
Compiler le code : Utilisez la commande make pour compiler le code. Si vous utilisez le GPU, vous devrez exécuter une autre commande, dont nous discuterons dans la prochaine section.

En suivant ces étapes, vous avez configuré avec succès Llama CPP sur votre système. Maintenant, vous êtes prêt à plonger dans des aspects plus techniques, comme choisir entre les compilations CPU et GPU, que nous aborderons ensuite.

Exécution de Llama-cpp-python en Python

Si vous souhaitez exécuter des modèles Llama CPP dans un script Python, vous pouvez utiliser la bibliothèque llama_cpp_python. Voici un exemple plus détaillé :

from llama_cpp_python import LlamaModel
 
# Initialiser le modèle
model = LlamaModel("/chemin/vers/votre/modèle")
 
# Définir la sollicitation et générer du texte
sollicitation = "Bonjour, comment ça va ?"
texte = model.generate(sollicitation)
 
# Afficher le texte généré
print(f"Le texte généré pour la sollicitation '{sollicitation}' est : {texte}")

Ce script Python importe la classe LlamaModel de la bibliothèque llama_cpp_python, initialise le modèle avec le chemin vers votre modèle de langage téléchargé, puis génère du texte en fonction d'une sollicitation donnée.

Exécuter Llama.cpp dans Docker

Si vous êtes familier avec Docker, vous pouvez conteneuriser votre projet Llama CPP pour une déploiement et une évolutivité plus faciles. Voici comment créer et exécuter un conteneur Docker pour votre projet Llama CPP :

# Accédez au répertoire Llama CPP
cd /chemin/vers/le/répertoire/llama_cpp
 
# Construire l'image Docker
docker build -t llama_cpp_image .
 
# Exécuter le conteneur Docker
docker run -it --name llama_cpp_container llama_cpp_image

Dans cet exemple, llama_cpp_image est le nom de l'image Docker, et llama_cpp_container est le nom du conteneur en cours d'exécution. Ces noms peuvent être personnalisés.

Choisir entre CPU et GPU : Optimisez votre construction Llama CPP

Lorsqu'il s'agit de construire votre projet Llama CPP, vous avez deux options principales : CPU et GPU. Chacune a ses propres avantages et inconvénients, mais le choix dépend finalement de vos besoins spécifiques et de vos ressources.

CPU vs GPU : Comparaison rapide :

Vitesse : Les compilations GPU sont généralement plus rapides grâce à leurs capacités de traitement parallèle.
Utilisation des ressources : Les compilations CPU sont moins gourmandes en ressources mais peuvent être plus lentes.
Flexibilité : Les compilations GPU nécessitent un matériel spécifique et une installation supplémentaire, mais offrent des performances supérieures.

Plongeons dans les détails :

Si vous débutez ou si vous n'avez pas de GPU puissant, une compilation CPU est votre meilleur choix. C'est simple et ne nécessite aucune installation supplémentaire. Voici comment compiler votre projet Llama CPP en utilisant uniquement le CPU :

Accéder au répertoire : Ouvrez votre terminal et accédez au répertoire Llama CPP cloné.
Compiler le code : Exécutez la commande suivante :
```
make
```
Exécuter le modèle : Après une compilation réussie, vous pouvez exécuter le modèle en utilisant l'exécutable construit.

Pour ceux qui veulent tirer pleinement parti de leur matériel, une compilation GPU est la solution à privilégier. En particulier, si vous avez une carte graphique NVIDIA, vous pouvez accélérer considérablement les calculs. Voici comment procéder :

Installer la boîte à outils NVIDIA CUDA : Avant de pouvoir compiler le code pour le GPU, vous devez installer la boîte à outils NVIDIA CUDA. Vous pouvez la télécharger à partir du site officiel de NVIDIA.
Compiler avec la prise en charge de CUDA : Accédez au répertoire Llama CPP et exécutez la commande suivante :
```
make clean && LLAMA_CUBLAS=1 make -j
```
Exécution avec prise en charge du GPU: Utilisez l'indicateur --n-gpu-layers lors de l'exécution du modèle pour décharger les calculs vers le GPU.

Remarque: L'utilisation de la version GPU vous permet de décharger des couches spécifiques du modèle vers le GPU, ce qui rend le processus plus rapide et plus efficace.

Exécution de votre premier modèle Llama CPP

Exécution de base du modèle

Pour exécuter votre modèle compilé, vous utiliserez l'exécutable généré lors du processus de compilation. L'indicateur --model-path spécifie l'emplacement de votre modèle de langue téléchargé. Voici comment procéder:

# Naviguez vers le répertoire où se trouve votre exécutable Llama CPP
cd /chemin/vers/le/répertoire/llama_cpp
 
# Exécutez le modèle
./llama_cpp_executable --model-path /chemin/vers/votre/modèle

Remarque: Remplacez /chemin/vers/votre/modèle par le chemin d'accès réel du répertoire où votre modèle de langue téléchargé est stocké. llama_cpp_executable est le nom du fichier exécutable généré après avoir compilé Llama CPP.

Fonctionnalités avancées: Déchargement vers le GPU et plus encore

Si vous avez compilé Llama CPP avec la prise en charge du GPU, vous pouvez décharger les calculs vers le GPU pour accélérer l'exécution du modèle. L'indicateur --n-gpu-layers spécifie le nombre de couches du réseau neuronal qui doivent être traitées par le GPU.

# Exécutez le modèle avec le déchargement vers le GPU
./llama_cpp_executable --model-path /chemin/vers/votre/modèle --n-gpu-layers 2

Dans cet exemple, 2 indique que deux couches du réseau neuronal seront traitées par le GPU. Vous pouvez ajuster ce nombre en fonction des capacités spécifiques de votre GPU et de la taille du modèle que vous exécutez.

Optimisation des performances: Conversion du modèle

Llama CPP fournit un script Python appelé convert.py pour convertir votre modèle en différents formats afin d'améliorer les performances. Par exemple, vous pouvez convertir le modèle en fp16 (virgule flottante 16 bits) pour le rendre plus petit et plus rapide.

# Naviguez vers le répertoire contenant le script convert.py
cd /chemin/vers/le/répertoire/llama_cpp/scripts
 
# Exécutez le script de conversion
python convert.py --input /chemin/vers/le/modèle/original --output /chemin/vers/le/modèle/converti --type fp16

Conclusion

Nous avons couvert beaucoup de sujets dans ce guide, de la configuration de Llama CPP à l'exécution de votre premier modèle et à l'exploration de ses fonctionnalités supplémentaires. Avec sa flexibilité, ses options d'optimisation des performances et ses fonctionnalités supplémentaires telles que l'intégration de Python et la prise en charge de Docker, Llama CPP est un outil robuste pour tous ceux qui souhaitent travailler avec des modèles de langage.

Foire aux questions

Qu'est-ce que Llama CPP?
- Llama CPP est un outil puissant pour travailler avec des modèles de langage. Il permet des compilations CPU et GPU, une intégration avec Python, et plus encore.
Comment exécuter Llama CPP avec Python?
- Vous pouvez intégrer Llama CPP avec Python en utilisant le code et la documentation fournis dans le référentiel GitHub llama-cpp-python.
À quelle vitesse fonctionne Llama CPP?
- La vitesse de Llama CPP dépend que vous utilisiez une compilation CPU ou GPU. Les compilations GPU sont généralement plus rapides en raison de leurs capacités de calcul parallèle.
Llama CPP utilise-t-il le GPU?
- Oui, Llama CPP permet des calculs basés sur le GPU, ce qui peut accélérer considérablement l'exécution du modèle.

Envie de connaître les dernières nouvelles sur LLM? Consultez le dernier classement LLM !

Llama-3-8B et Llama-3-70B : Aperçu rapide des modèles LAMA ouverts de Meta LlamaIndex: l'alternative LangChain qui échelonne les LLN