Wie man Llama 2 lokal ausführt: Der ultimative Leitfaden für Mac, Windows und mobile Geräte

Name: Jennie Rose

Published on 30.4.2024

Entdecken Sie den umfassendsten Leitfaden, wie man Llama 2 lokal auf Mac, Windows, Linux und sogar auf Ihren mobilen Geräten ausführt. Erhalten Sie schrittweise Anweisungen, Tipps und Tricks, um das Beste aus Llama 2 herauszuholen.

Wenn Sie die Welt der Natural Language Processing (NLP) im Auge behalten haben, haben Sie wahrscheinlich von Llama 2 gehört, dem bahnbrechenden Sprachmodell, das die Tech-Welt im Sturm erobert. Aber wussten Sie, dass Sie dieses fortschrittliche Modell lokal auf Ihrem eigenen Gerät ausführen können? Das stimmt! Sie benötigen keinen Supercomputer oder sogar eine Internetverbindung, um die Leistung von Llama 2 zu nutzen.

Egal, ob Sie ein Mac-Benutzer, ein Windows-Aficionado oder sogar ein Enthusiast für mobile Geräte sind, dieser Leitfaden bietet Ihnen alles, was Sie brauchen. Wir werden uns in die Details des Betriebs von Llama 2 auf verschiedenen Plattformen vertiefen, verschiedene Tools verwenden und Ihnen sogar einige Profi-Tipps geben, um Ihre Erfahrung zu optimieren. Also, lasst uns loslegen!

Möchten Sie die neuesten LLM-Nachrichten erfahren? Schauen Sie sich die neueste LLM-Rangliste an!

Was ist Llama 2?

Llama 2 ist die neueste Iteration der Llama-Sprachmodellreihe, das darauf ausgelegt ist, menschenähnlichen Text basierend auf den trainierten Daten zu verstehen und zu generieren. Es ist das Ergebnis einer umfangreichen Forschung und Entwicklung und kann eine Vielzahl von NLP-Aufgaben ausführen, von einfacher Textgenerierung bis hin zu komplexem Problemlösen. Das Modell gibt es in verschiedenen Größen, die durch die Anzahl der Parameter gekennzeichnet sind, wie z.B. 7B, 13B und sogar 70B.

⚠️

Warum Llama 2 lokal ausführen? Hier sind die Vorteile:

Datenschutz: Die lokale Ausführung von Llama 2 stellt sicher, dass Ihre Daten auf Ihrem Gerät bleiben und eine zusätzliche Sicherheitsebene bieten.
Geschwindigkeit: Die lokale Ausführung eliminiert die Notwendigkeit, dass Daten über das Internet übertragen werden müssen, was zu schnelleren Reaktionszeiten führt.
Offline-Zugriff: Sobald installiert, können Sie Llama 2 ohne Internetverbindung verwenden, was es unglaublich vielseitig macht.
Ressourcenmanagement: Die lokale Ausführung des Modells ermöglicht es Ihnen, die Ressourcen Ihres Geräts effektiver zu verwalten, insbesondere wenn Sie nicht mit dem Internet verbunden sind.

Wie man Llama 2 lokal auf Mac mit Llama.cpp installiert

Wenn Sie ein Mac-Benutzer sind, ist eine der effizientesten Möglichkeiten, Llama 2 lokal auszuführen, die Verwendung von Llama.cpp. Dies ist eine C/C++-Portierung des Llama-Modells, mit der Sie es mit 4-Bit-Quantisierung ausführen können, was besonders vorteilhaft für die Leistungsoptimierung ist.

RAM-Anforderungen: Stellen Sie sicher, dass Sie mindestens 8 GB RAM für die 3B-Modelle, 16 GB für die 7B-Modelle und 32 GB für die 13B-Modelle haben.
Terminal öffnen: Navigieren Sie zu Ihrem bevorzugten Verzeichnis, in dem Sie Llama.cpp installieren möchten.
Führen Sie den Einzeiler aus: Führen Sie den folgenden Befehl aus, um Llama.cpp zu installieren:
```
curl -L "https://replicate.fyi/install-llama-cpp" | bash
```
Verstehen des Skripts: Dieser Einzeiler führt mehrere Aktionen aus:
- Klonen des Llama.cpp-Repositories von GitHub.
- Projekt mit GPU-Unterstützung (LLAMA_METAL=1-Flag) erstellen.
- Das Llama 2-Modell herunterladen.
- Ein interaktiver Prompt wird eingerichtet, um Llama 2 zu starten.
Testen der Installation: Sobald die Installation abgeschlossen ist, können Sie dies testen, indem Sie einige Beispielprompts ausführen. Zum Beispiel:
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
```
Dieser Befehl führt das Modell im interaktiven Modus mit verschiedenen Flags zur Anpassung aus.

Wenn Sie diesen Schritten folgen, haben Sie Llama 2 in kürzester Zeit auf Ihrem Mac zum Laufen gebracht. Die Llama.cpp-Methode ist besonders nützlich für diejenigen, die mit Terminalbefehlen vertraut sind und eine leistungsoptimierte Erfahrung suchen.

Llama 2 unter Windows mit WSL installieren

Windows-Benutzer müssen nicht zurückbleiben! Sie können auch Llama 2 lokal auf Ihrem Gerät mit Windows Subsystem for Linux (WSL) ausführen. WSL ermöglicht es Ihnen, eine Linux-Distribution auf Ihrem Windows-Computer auszuführen, wodurch es einfacher wird, Linux-basierte Anwendungen wie Llama 2 zu installieren und auszuführen.

RAM-Anforderungen: Stellen Sie sicher, dass Sie mindestens 8 GB RAM für die 3B-Modelle, 16 GB für die 7B-Modelle und 32 GB für die 13B-Modelle haben.
Installieren von WSL: Wenn Sie es noch nicht getan haben, müssen Sie WSL auf Ihrem Windows-Computer installieren. Hierzu können Sie der offiziellen Anleitung von Microsoft folgen.
WSL-Terminal öffnen: Sobald WSL installiert ist, öffnen Sie das WSL-Terminal und navigieren Sie zu Ihrem bevorzugten Verzeichnis.
Führen Sie den Einzeiler aus: Führen Sie den folgenden Befehl aus, um Llama 2 zu installieren:
```
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
```
Verstehen des Skripts: Dieser Einzeiler führt mehrere Aufgaben aus:
- Klonen des Llama.cpp-Repositories von GitHub.
- Das Projekt erstellen.
- Das Llama 2-Modell herunterladen.
- Ein interaktiver Prompt wird eingerichtet, um Llama 2 zu starten.
Testen der Installation: Nach Abschluss der Installation können Sie dies testen, indem Sie einige Beispielprompts ausführen. Zum Beispiel:
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
```
Dieser Befehl führt das Modell im interaktiven Modus mit verschiedenen Flags zur Anpassung aus.

Die WSL-Methode ist eine robuste Möglichkeit, Llama 2 unter Windows auszuführen, insbesondere wenn Sie mit Linux-Befehlen vertraut sind. Sie bietet eine nahtlose Erfahrung, ohne dass Sie das Betriebssystem wechseln müssen.

Llama 2 auf mobilen Geräten ausführen: MLC LLM für iOS und Android

Wenn Sie immer unterwegs sind, werden Sie begeistert sein zu wissen, dass Sie Llama 2 auf Ihrem mobilen Gerät ausführen können. Dank MLC LLM, einem Open-Source-Projekt, können Sie Llama 2 jetzt sowohl auf iOS- als auch auf Android-Plattformen ausführen.

Laden Sie die App herunter:
- Für iOS-Benutzer laden Sie die MLC Chat-App aus dem App Store herunter.
- Für Android-Benutzer laden Sie die MLC LLM-App aus dem Google Play Store herunter.
Installieren Sie TestFlight (nur für iOS): Die neueste Version, die Llama 2 unterstützt, befindet sich noch in der Beta-Phase für iOS. Sie müssen TestFlight installieren, um es auszuprobieren.
Laden Sie das Modell herunter:
- Öffnen Sie die App und navigieren Sie zum Abschnitt "Modell herunterladen".
- Wählen Sie die Modellgröße aus, die Sie herunterladen möchten (7B, 13B oder 70B).
Führen Sie das Modell aus:
- Sobald das Modell heruntergeladen ist, können Sie es ausführen, indem Sie zur Chat-Schnittstelle in der App navigieren.
- Geben Sie Ihre Eingabe ein und warten Sie, bis das Modell eine Antwort generiert.

Die Ausführung von Llama 2 auf Ihrem mobilen Gerät über MLC LLM bietet beispiellosen Komfort. Egal, ob Sie pendeln, reisen oder nur von Ihrem primären Computer entfernt sind, Sie können die Leistung von Llama 2 direkt aus Ihrer Hosentasche nutzen.

So führen Sie Llama 2 mit llama2-webui aus

Wenn Sie nach einer benutzerfreundlicheren Möglichkeit suchen, Llama 2 auszuführen, brauchen Sie nicht weiter als llama2-webui zu schauen. Dieses leistungsstarke Tool ermöglicht es Ihnen, Llama 2 mit einer webbasierten Oberfläche auszuführen, damit es von überall und auf jedem Betriebssystem, einschließlich Linux, Windows und Mac, zugänglich ist. Entwickelt von GitHub-Benutzer liltom-eth, unterstützt llama2-webui alle Llama 2-Modelle und bietet eine Reihe von Funktionen, die es zu einer vielseitigen Wahl für Anfänger und Experten machen.

Funktionen von llama2-webui

Modellunterstützung: llama2-webui unterstützt alle Llama 2-Modelle, einschließlich 7B, 13B, 70B, GPTQ, GGML, GGUF und CodeLlama.
Backend-Unterstützung: Es unterstützt verschiedene Backends wie Transformers, BitsandBytes für 8-Bit-Inferenz, AutoGPTQ für 4-Bit-Inferenz und Llama.cpp.
OpenAI API-Kompatibilität: llama2-webui ermöglicht es Ihnen, eine mit OpenAI kompatible API auf Llama 2-Modellen auszuführen, um die Integration mit bestehenden Systemen zu erleichtern.

Wie man llama2-webui installiert

Von PyPI: Sie können das Paket llama2-wrapper von PyPI mit folgendem Befehl installieren:
```
pip install llama2-wrapper
```

Aus dem Quellcode: Alternativ können Sie das GitHub-Repository klonen und die Anforderungen installieren:

git clone https://github.com/liltom-eth/llama2-webui.git
cd llama2-webui
pip install -r requirements.txt

Wie man llama2-webui verwendet

Starten Sie die Chat-Benutzeroberfläche: Um den Chatbot mit einer Web-Benutzeroberfläche auszuführen, führen Sie den folgenden Befehl aus:
```
python app.py
```
Starten Sie die Code Llama-Benutzeroberfläche: Wenn Sie an Code-Vervollständigung interessiert sind, können Sie die Code Llama-Benutzeroberfläche mit dem folgenden Befehl ausführen:
```
python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
```
Anpassung: Sie können Ihren Modellpfad, den Backend-Typ und andere Konfigurationen in der Datei .env anpassen.

llama2-wrapper für Entwickler

Für diejenigen, die generative Agenten oder Apps entwickeln, kann llama2-wrapper als Backend-Wrapper verwendet werden. Hier ist ein Python-Beispiel:

from llama2_wrapper import LLAMA2_WRAPPER, get_prompt 
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "Kennen Sie PyTorch"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)

Ausführung einer OpenAI-kompatiblen API

Sie können auch einen Fast API-Server ausführen, der als vollständiger Ersatz für die OpenAI-API fungiert. Verwenden Sie folgenden Befehl, um den Fast API zu starten:

python -m llama2_wrapper.server

Benchmarking und Leistung

Das Tool enthält ein Benchmark-Skript, mit dem Sie die Leistung Ihrer Konfiguration messen können. Sie können es mit dem folgenden Befehl ausführen:

python benchmark.py

Alternative Möglichkeiten, Llama 2 lokal auszuführen

Sie haben nun den Dreh raus, Llama 2 auf Ihrem Gerät auszuführen, aber Sie möchten noch mehr. Vielleicht suchen Sie nach Möglichkeiten, es auszuführen, ohne alle Ihre Systemressourcen zu verbrauchen, oder Sie möchten es auf einem nicht offiziell unterstützten Gerät ausführen. Was auch immer der Fall ist, dieser Abschnitt ist für Sie. Wir gehen auf alternative Methoden für die lokale Ausführung von Llama 2 ein, von denen jede ihre eigenen Vorteile und Herausforderungen hat.

Ausführung von Llama 2 auf einem Raspberry Pi

Ja, Sie haben richtig gelesen. Es ist durchaus möglich, Llama 2 auf einem Raspberry Pi auszuführen, und die Leistung ist überraschend gut. Dies ist eine fantastische Option für diejenigen, die ein dediziertes Gerät zur Ausführung von Llama 2 wünschen, ohne die Bank zu sprengen.

Installieren Sie Abhängigkeiten: Öffnen Sie Ihr Terminal und führen Sie die folgenden Befehle aus, um die erforderlichen Pakete zu installieren:
```
sudo apt-get update
sudo apt-get install git cmake build-essential
```
Klonen Sie das Llama.cpp-Repository: Verwenden Sie Git, um das Llama.cpp-Repository zu klonen.
```
git clone https://github.com/ggerganov/llama.cpp.git
```
Kompilieren und Erstellen: Navigieren Sie zum geklonten Verzeichnis und kompilieren Sie das Projekt.
```
cd llama.cpp
make
```
Führen Sie Llama 2 aus: Führen Sie schließlich den folgenden Befehl aus, um Llama 2 auszuführen.
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
```

Ausführung von Llama 2 in einem Docker-Container

Für diejenigen, die Containerisierung bevorzugen, ist die Ausführung von Llama 2 in einem Docker-Container eine geeignete Option. Diese Methode gewährleistet, dass die Llama 2-Umgebung von Ihrem lokalen System isoliert ist und eine zusätzliche Sicherheitsebene bietet.

Installieren Sie Docker: Wenn Sie dies noch nicht getan haben, installieren Sie Docker auf Ihrem Computer.
Holen Sie sich das Llama 2 Docker-Image: Öffnen Sie Ihr Terminal und holen Sie sich das Llama 2 Docker-Image.
```
docker pull llama2/local
```
Starten Sie den Container: Führen Sie den folgenden Befehl aus, um Llama 2 in einem Docker-Container auszuführen.
```
docker run -it --rm llama2/local
```

Ausführung von Llama 2 auf einem Android-Gerät über Termux

Installieren Sie Termux: Laden Sie die Termux-App aus dem Google Play Store herunter und installieren Sie sie.
Aktualisieren Sie die Pakete: Öffnen Sie Termux und aktualisieren Sie die Paketliste.
```
pkg update
```
Installieren Sie erforderliche Pakete: Installieren Sie die erforderlichen Pakete.
```
pkg install git clang make
```
Klone und erstelle Llama.cpp: Folgen Sie den gleichen Schritten wie im Abschnitt für den Raspberry Pi, um Llama.cpp zu klonen und zu erstellen.
Llama 2 ausführen: Verwenden Sie den folgenden Befehl, um Llama 2 auszuführen.
```
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin
```

Durch die Erkundung dieser alternativen Methoden führen Sie nicht nur Llama 2 aus; Sie führen es auf Ihre eigene Art aus. Ob auf einem budgetfreundlichen Raspberry Pi, einem sicheren Docker-Container oder sogar Ihrem Android-Telefon - die Möglichkeiten sind grenzenlos wie Ihre Vorstellungskraft.

So führen Sie Llama 2 auf mehreren Geräten aus

Wenn Sie jemand sind, der mehrere Geräte verwendet und Llama 2 auf allen von ihnen ausführen möchte, ist dieser Abschnitt für Sie. Diese Methode verwendet Gerätesynchronisierung, um sicherzustellen, dass Ihre Llama 2-Sitzung auf allen Ihren Geräten konsistent ist.

Einrichten eines zentralen Servers: Wählen Sie ein Gerät aus, das als zentraler Server fungieren soll. Dies könnte Ihr Haupt-PC oder ein Cloud-Server sein.
Llama 2 auf allen Geräten installieren: Stellen Sie sicher, dass Llama 2 auf allen Geräten installiert ist, die Sie verwenden möchten.
Geräte synchronisieren: Verwenden Sie ein Tool wie rsync oder Cloud-Speicher, um die Llama 2-Verzeichnisse auf allen Geräten zu synchronisieren.
```
rsync -avz ~/llama2/ user@remote:/path/to/llama2/
```
Llama 2 ausführen: Starten Sie Llama 2 auf jedem Gerät. Alle Geräte greifen auf dieselben Daten zu, um ein nahtloses Erlebnis zu gewährleisten.

Fazit

In diesem umfassenden Leitfaden haben wir verschiedene Methoden zur lokalen Ausführung von Llama 2 erkundet, uns mit den technischen Details der Verwendung von Docker befasst und sogar die Vorteile von Cloud-Lösungen beleuchtet. Wir haben auch die Stärke von llama2-webui hervorgehoben, einem vielseitigen Tool, das nicht nur eine Vielzahl von Llama 2-Modellen unterstützt, sondern auch OpenAI-API-Kompatibilität bietet und somit eine Komplettlösung für Anfänger und Experten darstellt.

Egal, ob Sie ein Entwickler sind, der Llama 2 in Ihre Anwendung integrieren möchte, oder ein Datenwissenschaftler, der fortschrittliche Analysen durchführen möchte, die hier diskutierten Techniken und Tools bieten für jeden etwas. Durch die Nutzung dieser fortschrittlichen Methoden können Sie Ihr Llama 2-Erlebnis optimieren, um eine effiziente Modelltraining, nahtlose Bereitstellung und effektive Nutzung von Ressourcen zu gewährleisten.

Also bleiben Sie nicht nur bei den Grundlagen. Experimentieren Sie mit diesen fortgeschrittenen Techniken, um das volle Potenzial von Llama 2 freizusetzen und Ihre Projekte auf die nächste Stufe zu bringen.

Möchten Sie die neuesten LLM-Nachrichten erfahren? Schauen Sie sich das neueste LLM-Leaderboard an!

Wie man Jamba feinabstimmt: Ein umfassender Leitfaden Wie man Llama 3 problemlos lokal ausführt