Comment exécuter Llama 2 localement : Le guide ultime pour Mac, Windows et les appareils mobiles

Name: Jennie Rose

Published on 30/04/2024

Découvrez le guide le plus complet sur la façon d'exécuter Llama 2 localement sur Mac, Windows, Linux, et même sur vos appareils mobiles. Obtenez des instructions pas à pas, des astuces pour profiter au maximum de Llama 2.

Si vous suivez de près le monde du traitement du langage naturel (NLP), vous avez probablement entendu parler de Llama 2, le modèle linguistique révolutionnaire qui fait sensation dans le monde de la technologie. Mais saviez-vous que vous pouvez exécuter ce modèle avancé localement sur votre propre appareil ? C'est vrai ! Vous n'avez pas besoin d'un superordinateur ou même d'une connexion internet pour exploiter la puissance de Llama 2.

Que vous soyez utilisateur Mac, passionné de Windows ou même enthousiaste des appareils mobiles, ce guide répondra à toutes vos attentes. Nous plongerons dans les détails techniques de l'exécution de Llama 2 sur différentes plates-formes, en utilisant différents outils, et nous vous donnerons même quelques astuces pour optimiser votre expérience. Alors, commençons !

Vous voulez connaître les dernières actualités de LLM ? Consultez le dernier classement LLM !

Qu'est-ce que Llama 2 ?

Llama 2 est la dernière itération de la série de modèles linguistiques Llama, conçue pour comprendre et générer du texte semblable à celui produit par les humains en fonction des données sur lesquelles elle est formée. Il s'agit d'un produit de recherche et de développement approfondis, capable d'effectuer une large gamme de tâches de NLP, de la simple génération de texte à la résolution de problèmes complexes. Le modèle existe en différentes tailles, indiquées par le nombre de paramètres qu'il possède, tels que 7B, 13B, et même 70B.

⚠️

Pourquoi exécuter Llama 2 localement ? Voici les avantages :

Confidentialité : Exécuter Llama 2 localement garantit que vos données restent sur votre appareil, offrant une couche supplémentaire de sécurité.
Rapidité : L'exécution locale élimine le besoin de faire transiter les données sur internet, ce qui entraîne des temps de réponse plus rapides.
Accès hors ligne : Une fois installé, vous pouvez utiliser Llama 2 sans connexion internet, ce qui le rend incroyablement polyvalent.
Gestion des ressources : L'exécution du modèle localement vous permet de gérer les ressources de votre appareil de manière plus efficace, surtout lorsque vous n'êtes pas connecté à internet.

Comment installer LLaMA2 localement sur Mac en utilisant Llama.cpp

Si vous êtes un utilisateur Mac, l'une des manières les plus efficaces d'exécuter Llama 2 localement est d'utiliser Llama.cpp. Il s'agit d'une adaptation en langage C/C++ du modèle Llama, qui vous permet de l'exécuter avec une quantification en entiers de 4 bits, ce qui est particulièrement bénéfique pour l'optimisation des performances.

Exigences en RAM : Assurez-vous de disposer d'au moins 8 Go de RAM pour les modèles de 3B, de 16 Go pour les modèles de 7B et de 32 Go pour les modèles de 13B.
Ouvrez le Terminal : Accédez au répertoire de votre choix où vous souhaitez installer Llama.cpp.
Exécutez la commande en une ligne : Exécutez la commande suivante pour installer Llama.cpp :
```
curl -L "https://replicate.fyi/install-llama-cpp" | bash
```
Comprenez le script : Cette commande en une ligne effectue plusieurs actions :
- Clone le dépôt Llama.cpp depuis GitHub.
- Compile le projet avec le support GPU (drapeau LLAMA_METAL=1).
- Télécharge le modèle Llama 2.
- Met en place une invite interactive pour vous permettre de commencer à utiliser Llama 2.
Testez l'installation : Une fois l'installation terminée, vous pouvez la tester en exécutant quelques exemples de saisie. Par exemple :
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
```
Cette commande exécute le modèle en mode interactif avec différents indicateurs pour la personnalisation.

En suivant ces étapes, vous aurez Llama 2 fonctionnant sur votre Mac en un rien de temps. La méthode Llama.cpp est particulièrement utile pour ceux qui sont à l'aise avec les commandes du terminal et recherchent une expérience optimisée sur le plan des performances.

Installer Llama 2 sur Windows avec WSL

Utilisateurs de Windows, vous n'êtes pas en reste ! Vous pouvez également exécuter Llama 2 localement sur votre machine en utilisant le sous-système Windows pour Linux (WSL). WSL vous permet d'exécuter une distribution Linux sur votre machine Windows, ce qui facilite l'installation et l'exécution d'applications basées sur Linux, comme Llama 2.

Exigences en RAM : Assurez-vous de disposer d'au moins 8 Go de RAM pour les modèles de 3B, de 16 Go pour les modèles de 7B et de 32 Go pour les modèles de 13B.
Installez WSL : Si ce n'est pas déjà fait, vous devrez installer WSL sur votre machine Windows. Vous pouvez le faire en suivant le guide officiel de Microsoft.
Ouvrez le terminal WSL : Une fois WSL installé, ouvrez le terminal WSL et accédez au répertoire de votre choix.
Exécutez la commande en une ligne : Exécutez la commande suivante pour installer Llama 2 :
```
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
```
Comprenez le script : Cette commande en une ligne effectue plusieurs actions :
- Clone le dépôt Llama.cpp depuis GitHub.
- Compile le projet.
- Télécharge le modèle Llama 2.
- Met en place une invite interactive pour vous permettre de commencer à utiliser Llama 2.
Testez l'installation : Après l'installation, vous pouvez la tester en exécutant quelques exemples de saisie. Par exemple :
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
```
Cette commande exécute le modèle en mode interactif avec différents indicateurs pour la personnalisation.

La méthode WSL est un moyen robuste d'exécuter Llama 2 sur Windows, notamment si vous êtes familier avec les commandes Linux. Elle offre une expérience transparente sans nécessiter de changer de système d'exploitation.

Exécution de Llama 2 sur les appareils mobiles : MLC LLM pour iOS et Android

Si vous êtes toujours en déplacement, vous serez ravi de savoir que vous pouvez exécuter Llama 2 sur votre appareil mobile. Grâce à MLC LLM, un projet open-source, vous pouvez maintenant exécuter Llama 2 sur les plateformes iOS et Android.

Téléchargez l'application:
- Pour les utilisateurs iOS, téléchargez l'application de discussion MLC depuis l'App Store.
- Pour les utilisateurs Android, téléchargez l'application MLC LLM depuis Google Play.
Installez TestFlight (iOS uniquement): La dernière version qui prend en charge Llama 2 est encore en version bêta pour iOS. Vous devrez installer TestFlight pour l'essayer.
Téléchargez le modèle:
- Ouvrez l'application et accédez à la section de téléchargement du modèle.
- Choisissez la taille du modèle que vous souhaitez télécharger (7B, 13B ou 70B).
Exécutez le modèle:
- Une fois le modèle téléchargé, vous pouvez l'exécuter en accédant à l'interface de discussion dans l'application.
- Saisissez votre invite et attendez que le modèle génère une réponse.

L'exécution de Llama 2 sur votre appareil mobile via MLC LLM offre une commodité inégalée. Que vous soyez en déplacement, en voyage, ou simplement éloigné de votre ordinateur principal, vous pouvez toujours accéder à la puissance de Llama 2 depuis votre poche.

Comment exécuter Llama 2 avec llama2-webui

Si vous recherchez un moyen plus convivial d'exécuter Llama 2, ne cherchez pas plus loin que llama2-webui. Cet outil puissant vous permet d'exécuter Llama 2 avec une interface web, le rendant accessible de n'importe où et sur n'importe quel système d'exploitation, y compris Linux, Windows et Mac. Développé par l'utilisateur GitHub liltom-eth, llama2-webui prend en charge tous les modèles de Llama 2 et propose une gamme de fonctionnalités qui en font un choix polyvalent pour les débutants et les experts.

Fonctionnalités de llama2-webui

Prise en charge des modèles: llama2-webui prend en charge tous les modèles de Llama 2, y compris 7B, 13B, 70B, GPTQ, GGML, GGUF et CodeLlama.
Prise en charge du backend: Il prend en charge différents backends tels que transformers, bitsandbytes pour l'inférence sur 8 bits, AutoGPTQ pour l'inférence sur 4 bits, et llama.cpp.
Compatibilité avec l'API OpenAI: llama2-webui vous permet d'exécuter une API compatible avec OpenAI sur les modèles de Llama 2, ce qui facilite son intégration avec les systèmes existants.

Comment installer llama2-webui

Depuis PyPI: Vous pouvez installer le package llama2-wrapper depuis PyPI en utilisant la commande suivante:
```
pip install llama2-wrapper
```

Depuis la source: Alternativement, vous pouvez cloner le référentiel GitHub et installer les dépendances:

git clone https://github.com/liltom-eth/llama2-webui.git
cd llama2-webui
pip install -r requirements.txt

Comment utiliser llama2-webui

Démarrer l'interface utilisateur de chat: Pour exécuter le chatbot avec une interface web, exécutez la commande suivante:
```
python app.py
```
Démarrer l'interface utilisateur de Code Llama: Si vous êtes intéressé par l'achèvement de code, vous pouvez exécuter l'interface utilisateur de Code Llama avec la commande suivante:
```
python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
```
Personnalisation: Vous pouvez personnaliser le chemin de votre modèle, le type de backend et d'autres configurations dans le fichier .env.

llama2-wrapper pour les développeurs

Pour ceux qui développent des agents génératifs ou des applications, llama2-wrapper peut être utilisé comme un wrapper backend. Voici un exemple en Python:

from llama2_wrapper import LLAMA2_WRAPPER, get_prompt 
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "Connaissez-vous PyTorch"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)

Exécution d'une API compatible OpenAI

Vous pouvez également exécuter un serveur Fast API qui fait office de remplacement plug-and-play pour l'API OpenAI. Pour démarrer le serveur Fast API, utilisez la commande suivante:

python -m llama2_wrapper.server

Évaluation des performances

L'outil est livré avec un script de benchmark pour mesurer les performances de votre installation. Vous pouvez l'exécuter à l'aide de la commande suivante:

python benchmark.py

Autres façons d'exécuter Llama 2 localement

Vous avez compris comment exécuter Llama 2 sur votre appareil, mais vous en voulez plus. Peut-être recherchez-vous des moyens de l'exécuter sans surcharger toutes les ressources de votre système, ou peut-être êtes-vous curieux de l'exécuter sur un appareil qui n'est pas officiellement pris en charge. Quelle que soit la situation, cette section est faite pour vous. Nous explorons des méthodes alternatives pour exécuter Llama 2 localement, chacune ayant ses avantages et ses défis.

Exécution de Llama 2 sur un Raspberry Pi

Oui, vous avez bien lu. Il est tout à fait possible d'exécuter Llama 2 sur un Raspberry Pi, et les performances sont étonnamment bonnes. C'est une option fantastique pour ceux qui veulent un appareil dédié pour exécuter Llama 2 sans se ruiner.

Installer les dépendances: Ouvrez votre terminal et exécutez les commandes suivantes pour installer les paquets nécessaires:
```
sudo apt-get update
sudo apt-get install git cmake build-essential
```
Cloner le référentiel Llama.cpp: Utilisez git pour cloner le référentiel Llama.cpp.
```
git clone https://github.com/ggerganov/llama.cpp.git
```
Compiler et construire: Accédez au répertoire cloné et compilez le projet.
```
cd llama.cpp
make
```
Exécuter Llama 2: Enfin, exécutez la commande suivante pour exécuter Llama 2.
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
```

Exécution de Llama 2 dans un conteneur Docker

Pour ceux qui préfèrent la conteneurisation, exécuter Llama 2 dans un conteneur Docker est une option possible. Cette méthode garantit que l'environnement Llama 2 est isolé de votre système local, offrant une couche de sécurité supplémentaire.

Installer Docker: Si ce n'est pas déjà fait, installez Docker sur votre machine.
Tirer l'image Docker de Llama 2: Ouvrez votre terminal et tirez l'image Docker de Llama 2.
```
docker pull llama2/local
```
Exécuter le conteneur: Exécutez la commande suivante pour exécuter Docker Llama 2 dans un conteneur.
```
docker run -it --rm llama2/local
```

Exécution de Llama 2 sur un appareil Android via Termux

Installer Termux: Téléchargez et installez l'application Termux depuis le Google Play Store.
Mise à jour des packages: Ouvrez Termux et mettez à jour la liste des packages.
```
pkg update
```
Installer les packages requis: Installer les packages nécessaires.
```
pkg install git clang make
```
Cloner et construire Llama.cpp: Suivez les mêmes étapes que dans la section Raspberry Pi pour cloner et construire Llama.cpp.
Exécuter Llama 2: Utilisez la commande suivante pour exécuter Llama 2.
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
```

En explorant ces méthodes alternatives, vous ne lancez pas simplement Llama 2 ; vous le lancez à votre manière. Que ce soit sur un Raspberry Pi économique, un conteneur Docker sécurisé ou même sur votre téléphone Android, les possibilités sont aussi illimitées que votre imagination.

Comment exécuter Llama 2 sur plusieurs appareils

Si vous êtes quelqu'un qui utilise plusieurs appareils et souhaite exécuter Llama 2 sur tous, cette section est pour vous. Cette méthode utilise la synchronisation des appareils pour garantir que votre session Llama 2 est cohérente sur tous vos appareils.

Mettre en place un serveur central : Choisissez un appareil qui agira comme serveur central. Cela peut être votre PC principal ou un serveur cloud.
Installer Llama 2 sur tous les appareils : Assurez-vous que Llama 2 est installé sur tous les appareils que vous souhaitez utiliser.
Synchroniser les appareils : Utilisez un outil comme rsync ou un stockage cloud pour synchroniser les répertoires Llama 2 sur tous les appareils.
```
rsync -avz ~/llama2/ user@remote:/path/to/llama2/
```
Exécuter Llama 2 : Démarrez Llama 2 sur chaque appareil. Ils auront tous accès aux mêmes données, garantissant une expérience transparente.

Conclusion

Dans ce guide complet, nous avons exploré différentes méthodes pour exécuter Llama 2 localement, plongé dans les détails techniques de l'utilisation de Docker, et même évoqué les avantages des solutions basées sur le cloud. Nous avons également mis en évidence la puissance de llama2-webui, un outil polyvalent qui prend en charge non seulement une large gamme de modèles Llama 2, mais qui offre également une compatibilité avec l'API OpenAI, ce qui en fait une solution tout-en-un tant pour les débutants que pour les experts.

Que vous soyez un développeur cherchant à intégrer Llama 2 dans votre application ou un data scientist visant à effectuer des analyses avancées, les techniques et outils discutés ici offrent quelque chose pour tout le monde. En tirant parti de ces méthodes avancées, vous pouvez optimiser votre expérience Llama 2, garantissant une formation de modèle efficace, un déploiement transparent et une utilisation efficace des ressources.

Alors, ne vous contentez pas des bases. Expérimentez avec ces techniques avancées pour débloquer tout le potentiel de Llama 2 et élever vos projets au niveau supérieur.

Vous voulez connaître les dernières nouvelles de LLM ? Consultez le dernier classement LLM !

Comment affiner Jamba : un guide complet Comment exécuter facilement Llama 3 en local sans tracas