Want to Become a Sponsor? Contact Us Now!🎉

LLM
Wie man Llama 3 problemlos lokal ausführt

Wie man Llama 3 lokal ausführt

Published on

Ein umfassender Leitfaden zur Installation und Ausführung der leistungsstarken Llama 3 Sprachmodelle (8B und 70B Versionen) auf Ihrem lokalen Computer mit Hilfe des Ollama-Tools.

Metas Llama 3 ist die neueste Version ihres Open-Source-Sprachmodells mit großer Reichweite und beeindruckender Leistung. Mit Modellgrößen von 8 Milliarden (8B) bis zu massiven 70 Milliarden (70B) Parametern bietet Llama 3 ein leistungsfähiges Werkzeug für Aufgaben im Bereich der natürlichen Sprachverarbeitung. Allerdings kann das Ausführen solcher massiven Modelle lokal herausfordernd sein und erfordert erhebliche Rechenressourcen und technisches Fachwissen. Glücklicherweise vereinfacht Ollama, ein schlankes Tool entwickelt von Microsoft, den Prozess des Ausführens von Open-Source-LLMs wie Llama 3 auf lokalen Maschinen.

Anakin AI - The Ultimate No-Code AI App Builder

Was ist Ollama?

Ollama ist eine benutzerfreundliche Lösung, die Modellgewichte, Konfigurationen und Datensätze in einem einzigen Paket, definiert durch eine Modelfile, bündelt. Es optimiert Setup- und Konfigurationsdetails, einschließlich der GPU-Nutzung, und erleichtert so Entwicklern und Forschern das Ausführen von großen Sprachmodellen lokal. Ollama unterstützt eine Vielzahl von Modellen, einschließlich Llama 3, und ermöglicht es Benutzern, diese wegweisenden Sprachmodelle zu erkunden und zu experimentieren, ohne sich mit komplexen Einrichtungsverfahren herumschlagen zu müssen.

Systemanforderungen zum lokalen Ausführen von Llama 3

Bevor Sie mit dem Installationsprozess beginnen, ist es wichtig sicherzustellen, dass Ihr System die Mindestanforderungen für das lokale Ausführen von Llama 3-Modellen erfüllt. Der Ressourcenbedarf variiert je nach Modellgröße, wobei größere Modelle leistungsstärkere Hardware erfordern.

Für das 8B-Modell benötigen Sie mindestens:

  • 8 GB VRAM
  • 16 GB RAM
  • Eine GPU wie die NVIDIA RTX 3070 oder besser wird für optimale Leistung empfohlen.

Für das 70B-Modell benötigen Sie Folgendes:

  • Eine High-End-GPU mit mindestens 24 GB VRAM, wie die NVIDIA RTX 3090 oder A100
  • Mindestens 64 GB RAM
  • Ausreichend Speicherplatz, da diese Modelle mehrere Gigabyte Festplattenspeicher benötigen können.

Installation von Ollama

Der Installationsprozess für Ollama ist unkompliziert und kann mit einem einzigen Befehl durchgeführt werden. Öffnen Sie ein Terminal auf Ihrem System und führen Sie folgendes aus:

curl -fsSL https://ollama.com/install.sh | sh

Dieser Befehl lädt die neueste Version von Ollama auf Ihr System herunter und installiert sie. Sobald die Installation abgeschlossen ist, können Sie die Installation überprüfen, indem Sie ollama --version ausführen.

Herunterladen von Llama 3-Modellen

Ollama bietet eine bequeme Möglichkeit, Llama 3-Modelle herunterzuladen und zu verwalten. Um das 8B-Modell herunterzuladen, führen Sie den folgenden Befehl aus:

ollama pull llama3-8b

Für das 70B-Modell verwenden Sie:

ollama pull llama3-70b

Diese Befehle laden die jeweiligen Modelle und ihre zugehörigen Dateien auf Ihren lokalen Rechner herunter. Je nach Geschwindigkeit Ihrer Internetverbindung und den Spezifikationen Ihres Systems kann der Download-Prozess einige Zeit in Anspruch nehmen, insbesondere für das größere 70B-Modell.

Ausführen von Llama 3-Modellen

Sobald Sie die Modelle heruntergeladen haben, können Sie sie mit dem Befehl run von Ollama ausführen. Führen Sie für das 8B-Modell Folgendes aus:

ollama run llama3-8b

Für das 70B-Modell verwenden Sie:

ollama run llama3-70b

Diese Befehle starten eine interaktive Sitzung mit dem jeweiligen Llama 3-Modell, sodass Sie Eingabeaufforderungen eingeben und generierte Antworten erhalten können. Ollama übernimmt die notwendige Einrichtung und Konfiguration, sodass Sie mit den Modellen interagieren können, ohne umfangreiche technische Kenntnisse zu haben.

Erweiterte Nutzung

Ollama bietet mehrere erweiterte Funktionen und Optionen zur Verbesserung Ihrer Erfahrung mit Llama 3-Modellen. Sie können beispielsweise die Anzahl der zu verwendenden GPUs festlegen, Quantisierung für schnellere Inferenz aktivieren oder die Batch-Größe und die Sequenzlänge anpassen, um optimale Leistung zu erzielen.

Um diese erweiterten Optionen zu erkunden, konsultieren Sie die Ollama-Dokumentation oder führen Sie ollama run --help aus, um eine Liste der verfügbaren Optionen und deren Beschreibungen anzuzeigen.

Integration von Llama 3 in Anwendungen

Während das interaktive Ausführen von Llama 3-Modellen nützlich ist, um sie zu testen und zu erkunden, möchten Sie sie möglicherweise in Ihre Anwendungen oder Workflows integrieren. Ollama bietet eine Python-API, mit der Sie programmgesteuert mit den Modellen interagieren können, um eine nahtlose Integration in Ihre Projekte zu ermöglichen.

Hier ist ein Beispiel, wie Sie die Ollama Python-API verwenden, um Text mit dem Llama 3 8B-Modell zu generieren:

import ollama
 
# Laden des Modells
model = ollama.load("llama3-8b")
 
# Text generieren
prompt = "Es war einmal ein"
output = model.generate(prompt, max_new_tokens=100)
 
print(output)

Dieser Code-Schnipsel lädt das Llama 3 8B-Modell, gibt eine Eingabeaufforderung vor und generiert 100 neue Token als Fortsetzung der Eingabeaufforderung. Sie können die Eingabeaufforderung, die Ausgabelänge und andere Parameter nach Ihren Bedürfnissen anpassen.

Benchmarks und Leistung von Llama 3 8B und Llama 3 70B

Benchmarks und Leistung von Llama 3

Llama 3-Modelle haben auf verschiedenen Benchmarks beeindruckende Leistungen gezeigt und übertreffen oft ihre Vorgänger und größeren Modelle. Hier sind einige Benchmark-Ergebnisse:

Allgemeine Benchmarks

BenchmarkLlama 3 8BLlama 3 70B
MMLU (5-Shot)66.679.5
AGIEval Englisch (3-5 Shot)45.963.0
CommonSenseQA (7-Shot)72.683.8
Winogrande (5-Shot)76.183.1
BIG-Bench Schwer (3-Schüsse, CoT)61.181.3
ARC-Herausforderung (25-Schüsse)78.693.0

Wissensbasiertes Argumentieren

BenchmarkLlama 3 8BLlama 3 70B
TriviaQA-Wiki (5-Schüsse)78.589.7

Leseverständnis

BenchmarkLlama 3 8BLlama 3 70B
SQuAD (1-Schuss)76.485.6
QuAC (1-Schuss, F1)44.451.1
BoolQ (0-Schuss)75.779.0
DROP (3-Schüsse, F1)58.479.7

Diese Benchmarks zeigen die beeindruckenden Fähigkeiten von Llama 3, wobei das 70B-Modell oft besser abschneidet als die 8B-Version, wie erwartet. Dennoch liefert das 8B-Modell immer noch bemerkenswerte Leistung und ist eine geeignete Option für diejenigen mit begrenzten Rechenressourcen.

Fazit

Das Ausführen großer Sprachmodelle wie Llama 3 lokal war noch nie einfacher dank Ollama. Mit seiner benutzerfreundlichen Oberfläche und dem optimierten Einrichtungsprozess ermöglicht Ollama Entwicklern, Forschern und Enthusiasten die Nutzung der Leistungsfähigkeit dieser modernen Modelle auf ihren lokalen Maschinen. Egal, ob Sie an Aufgaben zur natürlichen Sprachverarbeitung arbeiten, die Fähigkeiten von Llama 3 erkunden oder es in Ihre Anwendungen integrieren - Ollama bietet eine bequeme und effiziente Lösung. Also, worauf warten Sie? Laden Sie noch heute Ollama herunter und entdecken Sie das Potenzial von Llama 3 auf Ihrem eigenen System!

Anakin AI - The Ultimate No-Code AI App Builder