Mistral 7B: Das Morgengrauen einer neuen Ära des LLM

Name: Jennie Rose

Published on 30.4.2024

Eine ausführliche Untersuchung von Mistral 7B, dem bahnbrechenden Large Language Model von Mistral AI. Entdecken Sie seine technischen Fähigkeiten, Einrichtung und Anwendungen in der realen Welt.

Die KI-Landschaft ist nicht fremd für Innovationen, aber hin und wieder entsteht ein Wunder wie Mistral 7B, das neue Maßstäbe setzt. Entwickelt von Mistral AI, geht es bei diesem LLM nicht nur um Größe, sondern um Effizienz, Genauigkeit und Vielseitigkeit.

Möchten Sie die neuesten LLM-News erfahren? Schauen Sie sich das neueste LLM-Ranking an!

Mistral 7B: Was ist das?

Die Veröffentlichung von Mistral 7B hat Aufregung und Neugierde in der KI- und NLP-Gemeinschaft ausgelöst. Seine Präsenz auf Plattformen wie Hugging Face und die umfangreiche Dokumentation von Mistral AI haben seine Nutzung in verschiedenen Branchen erleichtert.

Leistungsbenchmarks

Wenn es um LLMs geht, ist die Leistung entscheidend. Mistral 7B hat seine Stärke bewiesen, indem es Konkurrenten, einschließlich des renommierten Llama 2 13B, übertrifft. Doch Zahlen kratzen nur an der Oberfläche. Das wahre Wesen von Mistral 7B liegt in seiner komplexen Architektur und seinen Funktionen.

Die Leistungsbewertungen von Mistral 7B, insbesondere seine Überlegenheit gegenüber Modellen wie LLaMA 1 34B in Code, Mathematik und Argumentation, haben es bei Entwicklern und Forschern beliebt gemacht. Seine Fähigkeit, die Leistung von CodeLlama 7B bei Code-bezogenen Aufgaben anzunähern, unterstreicht seine Fähigkeiten noch weiter.

Anpassungsfähigkeit und Vielseitigkeit von Mistral 7B

Eine der herausragenden Funktionen von Mistral 7B ist seine Anpassungsfähigkeit. Ob für Chatbots, Inhaltsgenerierung, Codevervollständigung oder Forschung, Mistral 7B hat seine Vielseitigkeit in einer Reihe von Anwendungen unter Beweis gestellt.

Mistral 7B: Einrichtung und Bereitstellung

Für diejenigen, die die Leistung von Mistral 7B nutzen möchten, gibt es hier eine detaillierte Anleitung:

1. Erleben Sie Mistral 7B online:
Bevor Sie in die Einrichtung eintauchen, probieren Sie Mistral 7B über seine Online-Demo (opens in a new tab) aus.

2. Mistral 7B erwerben:
Das Modell kann hier über Torrent heruntergeladen werden (opens in a new tab). Der Freischaltcode lautet ab979f50d7d406ab8d0b07d09806c72c.

3. Ausführen von Mistral 7B mit Docker:
Für Benutzer mit einem GPU-fähigen Host kann Mistral 7B mit Docker ausgeführt werden. Hier ist ein Beispielcode, um das Modell mit Docker auszuführen:

docker run --gpus all \
 -e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
 ghcr.io/mistralai/harmattan/vllm-public:latest \
 --host 0.0.0.0 \
 --model mistralai/Mistral-7B-v0.1

Hinweis: Ersetzen Sie $HF_TOKEN durch Ihren Hugging Face Benutzerzugriffstoken.

4. Direkte Bereitstellung mit vLLM:
Für diejenigen, die eine direkte Bereitstellung bevorzugen, unterstützt Mistral 7B vLLM auf GPU-fähigen Hosts mit Cuda 11.8. Hier ist eine Schritt-für-Schritt-Anleitung:

Installation:
Installieren Sie vLLM mit pip:
```
pip install vllm
```
Hugging Face Hub-Anmeldung:
Melden Sie sich beim Hugging Face Hub an:
```
huggingface-cli login
```

Starten des Servers:
Verwenden Sie den folgenden Befehl, um den Server zu starten:

python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model mistralai/Mistral-7B-v0.1

Mistral 7B's Architektonische Innovationen

Mistral 7B sticht nicht nur wegen seiner Leistung heraus, sondern auch wegen seiner einzigartigen architektonischen Innovationen. Lassen Sie uns diese im Detail untersuchen:

Sliding Window Attention (SWA)

SWA ermöglicht es jeder Schicht des Modells, auf die vorherigen 4.096 versteckten Zustände zuzugreifen. Dieser Mechanismus bietet eine lineare Berechnungskosten, die proportional zur Länge der Schiebefenstersequenz ist. Der Vorteil zeigt sich in Echtzeitanwendungen, in denen schnelle Reaktionszeiten unerlässlich sind.

Grouped-query Attention (GQA)

GQA wurde entwickelt, um die Inferenz zu beschleunigen und sicherzustellen, dass Mistral 7B schnell antworten kann, was es für Anwendungen geeignet macht, die Echtzeitinteraktionen erfordern.

Einrichtung und Bereitstellung von Mistral 7B

Mistral 7B bietet Flexibilität bei seiner Bereitstellung. Ob Sie es auf Ihrem lokalen Gerät ausführen oder auf einer Cloud-Plattform bereitstellen möchten, hier ist ein umfassender Leitfaden:

Mistral 7B mit Docker ausführen

Für Benutzer mit einem GPU-fähigen Host kann Mistral 7B mit Docker ausgeführt werden. Hier ist ein Schritt-für-Schritt-Anleitung:

Das Docker-Image herunterladen:
Zunächst müssen Sie das Docker-Image herunterladen, das vLLM, einen schnellen Python-Inferenzserver, zusammen mit allem, was für die Ausführung von Mistral 7B erforderlich ist, bündelt.
```
docker pull ghcr.io/mistralai/harmattan/vllm-public:latest
```
Das Modell mit Docker ausführen:
Sobald das Image heruntergeladen ist, können Sie das Modell mit folgendem Befehl ausführen:
```
docker run --gpus all \
-e HF_TOKEN=$HF_TOKEN -p 8000:8000 \
ghcr.io/mistralai/harmattan/vllm-public:latest \
--host 0.0.0.0 \
--model mistralai/Mistral-7B-v0.1
```
Hinweis: Ersetzen Sie $HF_TOKEN durch Ihren Hugging Face Benutzerzugriffstoken.

Direkte Bereitstellung mit vLLM

Für die direkte Bereitstellung unterstützt Mistral 7B vLLM auf GPU-fähigen Hosts mit Cuda 11.8. Hier ist, wie Sie es einrichten können:

Installation:
Installieren Sie vLLM mit pip:
```
pip install vllm
```
Beim Hugging Face Hub anmelden:
Bevor Sie das Modell verwenden können, müssen Sie sich beim Hugging Face Hub anmelden:
```
huggingface-cli login
```
Den Server starten:
Mit den Voraussetzungen in Ort können Sie den Server mit folgendem Befehl starten:
```
python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model mistralai/Mistral-7B-v0.1
```

Wie man Mistral 7B lokal ausführt

Sobald Mistral 7B eingerichtet und in Betrieb ist, können Sie damit interagieren. Detaillierte Schritte zur Verwendung des Modells finden Sie auf der Seite Interaktion mit dem Modell (opens in a new tab). Dieser Leitfaden bietet Einblicke in das Senden von Anfragen an das Modell, das Verständnis der Antworten und die Feinabstimmung des Modells für spezifische Aufgaben.

Einrichten der Umgebung

Bevor Sie mit Mistral 7B interagieren können, müssen Sie die Umgebung einrichten:

Installieren Sie das OpenAI Python-Paket:
Dieses Paket erleichtert die Interaktion mit dem Modell.
```
pip install openai
```

Konfigurieren des OpenAI-Moduls:
Zeigen Sie das Modul auf den Server, auf dem Mistral 7B bereitgestellt ist.

import openai
openai.api_base = "http://your-server-ip-or-hostname:8000/v1" 
openai.api_key = "none"  # vLLM-Server ist nicht authentifiziert

Generieren von Textergänzungen mit Mistral 7B

Mistral 7B kann gegebene Eingaben vervollständigen und zusammenhängenden und kontextuell relevanten Text liefern. So lösen Sie eine Vervollständigung aus:

Beispielcode für Textergänzung:

completion = openai.Completion.create(
  model="mistralai/Mistral-7B-Instruct-v0.1", 
  prompt="Der Mistral ist",
  temperature=0.7,
  max_tokens=200, 
  stop="."
)
print(completion.to_dict_recursive())

Dieser Code gibt eine Ergänzung wie folgt aus:

{
  'id': 'cmpl-87f6980633bb45f5aecd551bc35335e6',
  'object': 'text_completion',
  'created': 1695651536,
  'model': 'mistralai/Mistral-7B-Instruct-v0.1',
  'choices': [{
    'index': 0,
    'text': ' ein kalter, trockener, nordöstlicher Wind, der über das Mittelmeer weht',
    'logprobs': None,
    'finish_reason': 'stop'
  }],
  'usage': {'prompt_tokens': 5, 'total_tokens': 23, 'completion_tokens': 18}
}

Interaktive Chats führen

Mistral 7B kann auch für interaktive Chats verwendet werden und bietet konversationelle Antworten auf Benutzeranfragen.

Beispielcode für Chat-Interaktion:

messages = [{"role": "user", "content": "Welcher Bash-Befehl listet alle Dateien in einem Ordner auf und sortiert sie nach der letzten Änderung?"}]
chat_completion = openai.ChatCompletion.create(
  model="mistralai/Mistral-7B-Instruct-v0.1",
  temperature=1,
  max_tokens=1024,
  messages=messages
)

Dieser Code initiiert einen Chat mit dem Modell, und das Modell wird eine relevante Antwort auf die Anfrage des Benutzers liefern.

Bereitstellung von Mistral 7B mit SkyPilot

SkyPilot bietet eine nahtlose Erfahrung für die Bereitstellung von Sprachmodellen wie Mistral 7B auf verschiedenen Cloud-Plattformen. Es verspricht maximale Kosteneinsparungen, optimale GPU-Verfügbarkeit und verwaltetes Ausführen. Hier finden Sie eine ausführliche Anleitung zur Bereitstellung von Mistral 7B mit SkyPilot:

SkyPilot-Konfiguration

Erstellen der Konfigurationsdatei:
Beginnen Sie damit, eine Konfigurationsdatei zu erstellen, die SkyPilot die Bereitstellungsdetails Ihres Inferenzservers mitteilt. Hierbei wird der von Mistral AI bereitgestellte vorgefertigte Docker-Container verwendet. Die Konfiguration sollte wie folgt aussehen:

envs:
  MODEL_NAME: mistralai/Mistral-7B-v0.1
resources: 
  cloud: aws
  accelerators: V100:1
  ports: 
  - 8000
run: |
  docker run --gpus all -p 8000:8000 ghcr.io/mistralai/harmattan/vllm-public:latest \\
  --host 0.0.0.0 \\
  --model $MODEL_NAME \\
  --tensor-parallel-size $SKYPILOT_NUM_GPUS_PER_NODE

Einrichten von Umgebungsvariablen:
Sie müssen spezifische Umgebungsvariablen setzen, damit SkyPilot sowohl den Inferenzserver-Container als auch das Modellgewicht abrufen kann.
Starten des Inferenzservers:
Mit den gesetzten Umgebungsvariablen können Sie den Inferenzserver mit folgendem Befehl starten:
```
sky launch mistral-7b-v0.1.yaml --region us-east-1
```
VORSICHT: Die Bereitstellung auf diese Weise macht das Modell weltweit zugänglich. Es ist wichtig, es abzusichern. Sie können es entweder ausschließlich in Ihrem privaten Netzwerk freigeben (durch Ändern der --host-Dockeroption), einen Load Balancer mit einer Authentifizierungsmethode voranstellen oder Ihre Instanzvernetzung entsprechend konfigurieren.

Nutzungskontingente und Cloud-Anbieter

Es ist wichtig zu beachten, dass viele Cloud-Anbieter explizite Zugriffsanfragen für leistungsstarke GPU-Instanzen erfordern. Für Anleitungen dazu können Sie sich an SkyPilots Anleitung (opens in a new tab) wenden.

Fazit: Zukünftige Roadmap für Mistral AI

Obwohl Mistral 7B eine bedeutende Meilenstein darstellt, endet die Reise von Mistral AI hier nicht. Das Engagement des Unternehmens, die Grenzen der NLP und KI zu erweitern, verspricht weitere Innovationen, Verbesserungen und bahnbrechende Modelle in der Zukunft.

Häufig gestellte Fragen (FAQs)

Was ist Mistral 7B?
Mistral 7B ist ein fortschrittliches Large Language Model (LLM), das von Mistral AI entwickelt wurde. Es ist darauf ausgelegt, viele bestehende Modelle in Aufgaben im Zusammenhang mit Code, Mathematik und Argumentation zu übertreffen.
Wie kann ich Mistral 7B auf meinem lokalen Rechner oder in der Cloud bereitstellen?
Mistral 7B bietet flexible Bereitstellungsoptionen. Sie können es lokal mit Docker ausführen oder auf Cloud-Plattformen wie AWS, GCP oder Azure mit SkyPilot bereitstellen.
Ist Mistral 7B Open Source?
Ja, Mistral 7B steht unter der Apache 2.0-Lizenz und ist damit Open Source und für die breitere Community zugänglich.
Wie schneidet Mistral 7B im Vergleich zu anderen LLMs in Bezug auf Leistung ab?
Mistral 7B hat eine überlegene Leistung gegenüber Modellen wie LLaMA 1 34B gezeigt und nähert sich den Fähigkeiten von CodeLlama 7B, insbesondere in Code-bezogenen Aufgaben.

Möchten Sie die neuesten Nachrichten zu LLMs erfahren? Schauen Sie sich das aktuelle LLM-Championat an!

Mistral AI stellt Mistral 7B v0.2 Base Model vor: Ein großer Fortschritt in Leistung und Effizienz Mistral Large: Besser als GPT-4 oder nicht?