Want to Become a Sponsor? Contact Us Now!🎉

Wie man Llama 2 lokal auf Mac, Windows, iPhone und Android ausführt

Wie man Llama 2 lokal ausführt: Der ultimative Leitfaden für Mac, Windows und mobile Geräte

Published on

Entdecken Sie den umfassendsten Leitfaden zur lokalen Ausführung von Llama 2 auf Mac, Windows, Linux und sogar Ihren mobilen Geräten. Erhalten Sie schrittweise Anweisungen, Tipps und Tricks, um das Beste aus Llama 2 herauszuholen.

Wenn Sie die Welt der Natural Language Processing (NLP) im Auge behalten haben, haben Sie wahrscheinlich schon von Llama 2 gehört, dem bahnbrechenden Sprachmodell, das die Tech-Welt im Sturm erobert. Aber wussten Sie schon, dass Sie dieses fortschrittliche Modell lokal auf Ihrem eigenen Gerät ausführen können? Das stimmt! Sie benötigen keinen Supercomputer oder sogar eine Internetverbindung, um die Leistung von Llama 2 nutzen zu können.

Ob Sie ein Mac-Benutzer, ein Windows-Kenner oder sogar ein mobiler Geräte-Enthusiast sind, dieser Leitfaden hat alles für Sie. Wir werden uns mit allen Details der Ausführung von Llama 2 auf verschiedenen Plattformen beschäftigen, verschiedene Tools verwenden und Ihnen sogar einige Profi-Tipps geben, um Ihre Erfahrung zu optimieren. Also, lasst uns anfangen!

Möchten Sie die neuesten LLM-Nachrichten erfahren? Schauen Sie sich das neueste LLM-Ranking an!

Was ist Llama 2?

Llama 2 ist die neueste Iteration der Llama-Sprachmodellserie, das entworfen wurde, um menschenähnlichen Text anhand der ihm zugrunde liegenden Daten zu verstehen und zu generieren. Es ist das Ergebnis umfangreicher Forschung und Entwicklung und kann eine Vielzahl von NLP-Aufgaben von einfacher Textgenerierung bis hin zu komplexem Problemlösen durchführen. Das Modell gibt es in verschiedenen Größen, die durch die Anzahl der Parameter gekennzeichnet sind, die sie haben, wie z.B. 7B, 13B und sogar 70B.

⚠️

Warum Llama 2 lokal ausführen? Hier sind die Vorteile:

  • Datenschutz: Durch die Ausführung von Llama 2 lokal bleiben Ihre Daten auf Ihrem Gerät und bieten eine zusätzliche Sicherheitsebene.
  • Geschwindigkeit: Die lokale Ausführung eliminiert die Notwendigkeit, dass Daten über das Internet übertragen werden, was zu schnelleren Reaktionszeiten führt.
  • Offline-Zugriff: Sobald installiert, können Sie Llama 2 ohne Internetverbindung verwenden, was es unglaublich vielseitig macht.
  • Ressourcenverwaltung: Die Ausführung des Modells lokal ermöglicht es Ihnen, die Ressourcen Ihres Geräts effektiver zu verwalten, insbesondere wenn Sie nicht mit dem Internet verbunden sind.

Wie man LLaMA2 auf Mac lokal installiert mit Llama.cpp

Wenn Sie ein Mac-Benutzer sind, ist einer der effizientesten Wege, Llama 2 lokal auszuführen, die Verwendung von Llama.cpp. Dies ist eine C/C++-Portierung des Llama-Modells, mit der Sie es mit 4-Bit-Integer-Quantisierung ausführen können, was besonders vorteilhaft für die Leistungsoptimierung ist.

  1. RAM-Anforderungen: Stellen Sie sicher, dass Sie mindestens 8 GB RAM für die 3B-Modelle, 16 GB für die 7B-Modelle und 32 GB für die 13B-Modelle haben.

  2. Terminal öffnen: Navigieren Sie zu Ihrem bevorzugten Verzeichnis, in dem Sie Llama.cpp installieren möchten.

  3. Führen Sie den Einzeiler aus: Führen Sie den folgenden Befehl aus, um Llama.cpp zu installieren:

    curl -L "https://replicate.fyi/install-llama-cpp" | bash
  4. Verstehen Sie das Skript: Dieser Einzeiler führt mehrere Aktionen aus:

    • Klonen des Llama.cpp-Repositorys von GitHub.
    • Kompilieren des Projekts mit GPU-Unterstützung (Flag LLAMA_METAL=1).
    • Herunterladen des Llama 2 Modells.
    • Einrichten einer interaktiven Eingabeaufforderung, um Llama 2 zu verwenden.
  5. Installation überprüfen: Sobald die Installation abgeschlossen ist, können Sie diese überprüfen, indem Sie einige Beispielprompts ausführen. Zum Beispiel:

    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8

    Dieser Befehl führt das Modell im interaktiven Modus mit verschiedenen Flags für die Anpassung aus.

Indem Sie diesen Schritten folgen, haben Sie Llama 2 in kürzester Zeit auf Ihrem Mac einsatzbereit. Die Llama.cpp-Methode ist besonders nützlich für Personen, die mit Terminalbefehlen vertraut sind und eine leistungsoptimierte Erfahrung suchen.

Llama 2 auf Windows mit WSL installieren

Windows-Benutzer, fühlen Sie sich nicht ausgeschlossen! Sie können Llama 2 auch lokal auf Ihrem Computer mit Windows Subsystem for Linux (WSL) ausführen. WSL ermöglicht es Ihnen, eine Linux-Distribution auf Ihrem Windows-Rechner auszuführen, was die Installation und Ausführung von Linux-basierten Anwendungen wie Llama 2 erleichtert.

  1. RAM-Anforderungen: Stellen Sie sicher, dass Sie mindestens 8 GB RAM für die 3B-Modelle, 16 GB für die 7B-Modelle und 32 GB für die 13B-Modelle haben.

  2. WSL installieren: Wenn Sie es noch nicht getan haben, müssen Sie WSL auf Ihrem Windows-Rechner installieren. Dies können Sie mit der offiziellen Anleitung von Microsoft tun.

  3. WSL-Terminal öffnen: Nach der Installation von WSL öffnen Sie das WSL-Terminal und navigieren zu Ihrem bevorzugten Verzeichnis.

  4. Führen Sie den Einzeiler aus: Führen Sie den folgenden Befehl aus, um Llama 2 zu installieren:

    curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash
  5. Verstehen Sie das Skript: Dieser Einzeiler führt mehrere Aufgaben aus:

    • Klonen des Llama.cpp-Repositorys von GitHub.
    • Kompilieren des Projekts.
    • Herunterladen des Llama 2 Modells.
    • Einrichten einer interaktiven Eingabeaufforderung, um Llama 2 zu verwenden.
  6. Installation überprüfen: Nach Abschluss der Installation können Sie diese überprüfen, indem Sie einige Beispielprompts ausführen. Zum Beispiel:

    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8

    Dieser Befehl führt das Modell im interaktiven Modus mit verschiedenen Flags für die Anpassung aus.

Die WSL-Methode ist eine robuste Möglichkeit, Llama 2 unter Windows auszuführen, insbesondere wenn Sie mit Linux-Befehlen vertraut sind. Sie bietet eine nahtlose Erfahrung, ohne dass Sie das Betriebssystem wechseln müssen.

Ausführen von Llama 2 auf mobilen Geräten: MLC LLM für iOS und Android

Wenn Sie immer unterwegs sind, werden Sie begeistert sein zu erfahren, dass Sie Llama 2 auf Ihrem mobilen Gerät ausführen können. Dank MLC LLM, einem Open-Source-Projekt, können Sie Llama 2 jetzt sowohl auf iOS- als auch auf Android-Plattformen ausführen.

  1. App herunterladen:

    • Für iOS-Benutzer: Laden Sie die MLC Chat-App aus dem App Store herunter.
    • Für Android-Benutzer: Laden Sie die MLC LLM-App aus dem Google Play Store herunter.
  2. TestFlight installieren (nur für iOS): Die neueste Version, die Llama 2 unterstützt, ist für iOS noch in der Beta. Sie müssen TestFlight installieren, um es auszuprobieren.

  3. Modell herunterladen:

    • Öffnen Sie die App und navigieren Sie zum Abschnitt "Modell herunterladen".
    • Wählen Sie die Größe des Modells aus, das Sie herunterladen möchten (7B, 13B oder 70B).
  4. Modell ausführen:

    • Sobald das Modell heruntergeladen ist, können Sie es ausführen, indem Sie zur Chat-Schnittstelle innerhalb der App navigieren.
    • Geben Sie Ihre Eingabe ein und warten Sie, bis das Modell eine Antwort generiert.

Das Ausführen von Llama 2 auf Ihrem mobilen Gerät über MLC LLM bietet eine beispiellose Bequemlichkeit. Egal, ob Sie pendeln, reisen oder einfach nur von Ihrem primären Computer entfernt sind, Sie können die Leistung von Llama 2 direkt aus Ihrer Tasche abrufen.

So führen Sie Llama 2 mit llama2-webui aus

Wenn Sie eine benutzerfreundlichere Möglichkeit suchen, Llama 2 auszuführen, müssen Sie nicht weiter suchen als "llama2-webui". Dieses leistungsstarke Tool ermöglicht es Ihnen, Llama 2 mit einer Web-Benutzeroberfläche auszuführen, sodass es von überall und auf jedem Betriebssystem (einschließlich Linux, Windows und Mac) zugänglich ist. Entwickelt von GitHub-Benutzer liltom-eth unterstützt "llama2-webui" alle Llama 2-Modelle und bietet eine Reihe von Funktionen, die es zu einer vielseitigen Wahl für Anfänger und Experten machen.

Funktionen von llama2-webui

  • Modelunterstützung: "llama2-webui" unterstützt alle Llama 2-Modelle, darunter 7B, 13B, 70B, GPTQ, GGML, GGUF und CodeLlama.
  • Backend-Unterstützung: Es unterstützt verschiedene Backends wie Transformers, BitsAndBytes für 8-Bit-Inferenz, AutoGPTQ für 4-Bit-Inferenz und Llama.cpp.
  • OpenAI API-Kompatibilität: "llama2-webui" ermöglicht es Ihnen, eine mit OpenAI kompatible API auf Llama 2-Modellen auszuführen, was die Integration in bestehende Systeme erleichtert.

So installieren Sie llama2-webui

  1. Von PyPI: Sie können das Paket "llama2-wrapper" von PyPI mit folgendem Befehl installieren:
    pip install llama2-wrapper
  2. Aus dem Quellcode: Alternativ können Sie das GitHub-Repository klonen und die Anforderungen installieren:
    git clone https://github.com/liltom-eth/llama2-webui.git
    cd llama2-webui
    pip install -r requirements.txt

So verwenden Sie llama2-webui

  1. Starten Sie die Chat-Benutzeroberfläche: Um den Chatbot mit einer Web-Benutzeroberfläche auszuführen, geben Sie den folgenden Befehl ein:
    python app.py
  2. Starten Sie die Code Llama-Benutzeroberfläche: Wenn Sie an Code-Vervollständigung interessiert sind, können Sie die Code Llama-Benutzeroberfläche mit dem folgenden Befehl ausführen:
    python code_completion.py --model_path ./models/codellama-7b.Q4_0.gguf
  3. Anpassung: Sie können Ihren Modellpfad, den Backend-Typ und andere Konfigurationen in der Datei ".env" anpassen.

llama2-wrapper für Entwickler

Für diejenigen, die generative Agenten oder Apps entwickeln, kann "llama2-wrapper" als Backend-Wrapper verwendet werden. Hier ist ein Python-Beispiel:

from llama2_wrapper import LLAMA2_WRAPPER, get_prompt 
llama2_wrapper = LLAMA2_WRAPPER()
prompt = "Kennen Sie PyTorch?"
answer = llama2_wrapper(get_prompt(prompt), temperature=0.9)

Ausführen der OpenAI-kompatiblen API

Sie können auch einen Fast API-Server ausführen, der als Drop-in-Ersatz für die OpenAI-API fungiert. Verwenden Sie den folgenden Befehl, um den Fast API zu starten:

python -m llama2_wrapper.server

Benchmarking und Leistung

Das Tool wird mit einem Benchmark-Skript geliefert, mit dem die Leistung Ihrer Konfiguration gemessen werden kann. Sie können es mit folgendem Befehl ausführen:

python benchmark.py

Alternative Möglichkeiten zur lokalen Ausführung von Llama 2

Sie haben den Dreh raus, Llama 2 auf Ihrem Gerät auszuführen, aber Sie wollen mehr. Vielleicht sind Sie auf der Suche nach Möglichkeiten, es auszuführen, ohne alle Systemressourcen zu beanspruchen, oder vielleicht interessieren Sie sich dafür, es auf einem Gerät auszuführen, das nicht offiziell unterstützt wird. Was auch immer der Fall ist, dieser Abschnitt ist für Sie. Wir werden alternative Methoden zur lokalen Ausführung von Llama 2 erläutern, von denen jede ihre eigenen Vorteile und Herausforderungen hat.

Llama 2 auf einem Raspberry Pi ausführen

Ja, Sie haben richtig gelesen. Es ist durchaus möglich, Llama 2 auf einem Raspberry Pi auszuführen, und die Leistung ist erstaunlich gut. Dies ist eine fantastische Option für diejenigen, die ein dediziertes Gerät für die Ausführung von Llama 2 möchten, ohne die Bank zu sprengen.

  1. Abhängigkeiten installieren: Öffnen Sie Ihr Terminal und führen Sie die folgenden Befehle aus, um die erforderlichen Pakete zu installieren:
    sudo apt-get update
    sudo apt-get install git cmake build-essential
  2. Llama.cpp-Repository klonen: Verwenden Sie Git, um das Llama.cpp-Repository zu klonen:
    git clone https://github.com/ggerganov/llama.cpp.git
  3. Kompilieren und Erstellen: Navigieren Sie zum geklonten Verzeichnis und kompilieren Sie das Projekt:
    cd llama.cpp
    make
  4. Llama 2 ausführen: Führen Sie schließlich den folgenden Befehl aus, um Llama 2 auszuführen:
    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin

Llama 2 in einem Docker-Container ausführen

Für diejenigen, die Containerisierung bevorzugen, ist das Ausführen von Llama 2 in einem Docker-Container eine gute Option. Auf diese Weise ist sichergestellt, dass die Llama 2-Umgebung von Ihrem lokalen System isoliert ist und eine zusätzliche Sicherheitsebene bietet.

  1. Docker installieren: Wenn Sie es noch nicht getan haben, installieren Sie Docker auf Ihrem Computer.
  2. Llama 2 Docker-Image abrufen: Öffnen Sie Ihr Terminal und laden Sie das Llama 2 Docker-Image herunter:
    docker pull llama2/local
  3. Container ausführen: Führen Sie den folgenden Befehl aus, um Llama 2 in einem Docker-Container auszuführen:
    docker run -it --rm llama2/local

Llama 2 auf einem Android-Gerät über Termux ausführen

  1. Termux installieren: Laden Sie die Termux-App aus dem Google Play Store herunter und installieren Sie sie.
  2. Pakete aktualisieren: Öffnen Sie Termux und aktualisieren Sie die Paketliste:
    pkg update
  3. Installieren der benötigten Pakete: Installieren Sie die erforderlichen Pakete.
    pkg install git clang make
  4. Klonen und Erstellen von Llama.cpp: Folgen Sie den gleichen Schritten wie im Abschnitt für den Raspberry Pi, um Llama.cpp zu klonen und zu erstellen.
  5. Llama 2 ausführen: Verwenden Sie den folgenden Befehl, um Llama 2 auszuführen.
    ./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin

Durch die Erkundung dieser alternativen Methoden führen Sie nicht nur Llama 2 aus, sondern führen es auch auf Ihre eigene Art und Weise aus. Egal, ob es sich um einen budgetfreundlichen Raspberry Pi, einen sicheren Docker-Container oder sogar Ihr Android-Telefon handelt, die Möglichkeiten sind so grenzenlos wie Ihre Vorstellungskraft.

So führen Sie Llama 2 auf mehreren Geräten aus

Wenn Sie mehrere Geräte verwenden und Llama 2 auf allen Geräten ausführen möchten, ist dieser Abschnitt für Sie. Diese Methode verwendet die Gerätesynchronisierung, um sicherzustellen, dass Ihre Llama 2-Sitzung auf allen Geräten konsistent ist.

  1. Einrichten eines zentralen Servers: Wählen Sie ein Gerät aus, das als zentraler Server fungiert. Dies könnte Ihr Haupt-PC oder ein Cloud-Server sein.
  2. Installieren Sie Llama 2 auf allen Geräten: Stellen Sie sicher, dass Llama 2 auf allen Geräten installiert ist, die Sie verwenden möchten.
  3. Geräte synchronisieren: Verwenden Sie ein Tool wie rsync oder Cloud-Speicher, um die Llama 2-Verzeichnisse auf allen Geräten zu synchronisieren.
    rsync -avz ~/llama2/ user@remote:/path/to/llama2/
  4. Llama 2 ausführen: Starten Sie Llama 2 auf jedem Gerät. Sie greifen alle auf die gleichen Daten zu und sorgen so für ein nahtloses Erlebnis.

Fazit

In diesem umfassenden Leitfaden haben wir verschiedene Methoden zur lokalen Ausführung von Llama 2 erkundet, uns mit den technischen Details der Verwendung von Docker beschäftigt und sogar die Vorteile cloud-basierter Lösungen angesprochen. Wir haben auch die Kraft von llama2-webui hervorgehoben, einem vielseitigen Tool, das nicht nur eine Vielzahl von Llama 2-Modellen unterstützt, sondern auch die OpenAI API-Kompatibilität bietet und damit eine Komplettlösung für Anfänger und Experten darstellt.

Egal, ob Sie ein Entwickler sind, der Llama 2 in Ihre Anwendung integrieren möchte, oder ein Datenwissenschaftler, der fortgeschrittene Analysen durchführen möchte, die hier besprochenen Techniken und Tools bieten für jeden etwas. Durch die Nutzung dieser fortgeschrittenen Methoden können Sie Ihr Llama 2-Erlebnis optimieren und eine effiziente Modellschulung, nahtlose Bereitstellung und effektive Ressourcennutzung gewährleisten.

Also halten Sie sich nicht nur an die Grundlagen. Experimentieren Sie mit diesen fortgeschrittenen Techniken, um das volle Potenzial von Llama 2 zu entfesseln und Ihre Projekte auf die nächste Stufe zu bringen.

Möchten Sie die neuesten LLM-News erfahren? Schauen Sie sich das aktuelle LLM-Leaderboard an!

Banner Ad