14 min Lesezeit

Mistral lokal installieren - Mistral 7B, Mixtral 8x7B und Codestral auf eigener Hardware

Praxis-Anleitung: Mistral 7B Instruct, Mixtral 8x7B und Codestral lokal mit Ollama oder llama.cpp betreiben. Lizenz, Hardware, Quantisierung, Performance.

Mistral AI ist das französische Pendant zu Meta und OpenAI: 2023 in Paris gegründet, gestartet mit dem damals besten 7B-Modell der Welt und seitdem konsequent auf europäische Sprachen, faire Lizenzen und schlanke Architekturen ausgerichtet. Genau diese Mischung macht Mistral für lokale Installationen so attraktiv. Ein Mistral 7B Instruct läuft flüssig auf jedem Mainstream-Laptop, ein Mixtral 8x7B liefert 70B-Qualität auf einer Workstation, und Codestral ist eine ernstzunehmende Alternative zu kommerziellen Coding-Assistenten. In dieser Lektion lernst du, welche Mistral-Variante zu welcher Hardware passt, wie du sie mit Ollama oder llama.cpp installierst, was Mixtrals Mixture-of-Experts-Konzept in der Praxis bedeutet und wie du das Setup für deutschsprachige Aufgaben sauber konfigurierst.

Mistral-Modelle im Überblick

Mistral 7B ist das Modell, mit dem alles begann. Veröffentlicht im September 2023, sieben Milliarden Parameter, klassisch dichte Transformer-Architektur, Apache-2.0-Lizenz. Damit war Mistral 7B das erste wirklich starke Open-Weights-Modell, das man ohne juristische Bauchschmerzen kommerziell einsetzen konnte. Die Instruct-Variante (für Chat und Anweisungen feinabgestimmt) ist heute noch einer der besten Allrounder unter den 7B-Modellen, insbesondere bei strukturierten Aufgaben und längeren Prompts. Wer einen schlanken lokalen Assistenten sucht, kommt an Mistral 7B Instruct schwer vorbei.

Mixtral 8x7B kam Ende 2023 und war der erste große Mixture-of-Experts-Vertreter mit Open-Weights. Acht 7B-Expert-Netze sitzen parallel im Modell, ein Router entscheidet pro Token, welche zwei davon rechnen. Auf dem Papier hat Mixtral 46,7 Milliarden Parameter, in der Praxis sind pro Token aber nur 12,9 Milliarden aktiv. Das Ergebnis: Qualität nahe an 70B-Dense-Modellen, Geschwindigkeit nahe an einem 12B-Dense-Modell. Speicherbedarf bleibt allerdings auf dem Level der Gesamtparameter, weil alle Experten geladen sein müssen. Ebenfalls Apache-2.0, also kommerziell unkritisch.

Codestral ist Mistrals dediziertes Code-Modell. Erstmals 2024 vorgestellt mit 22 Milliarden Parametern, trainiert auf einem Datensatz von über 80 Programmiersprachen, mit besonderem Fokus auf Python, Java, C, C++, JavaScript, TypeScript, Rust und Go. Codestral kann sowohl klassisch chat-basiert antworten als auch FIM-Tasks (Fill-in-the-Middle) lösen, was es für Editor-Integrationen wie Continue.dev oder Cursor besonders interessant macht. Die Lizenz ist restriktiver: Codestral darf für Forschung und nicht-kommerzielle Nutzung frei verwendet werden, für kommerzielle Produkte braucht es eine separate Vereinbarung mit Mistral. Wer nur lokal codet und keine SaaS-Produkte damit baut, ist auf der sicheren Seite.

Mistral NeMo entstand Mitte 2024 als Kooperation mit Nvidia. 12 Milliarden Parameter, Kontextfenster 128k Token, Apache-2.0-Lizenz, optimiert auf moderne Datacenter-GPUs. Die Stärke von NeMo liegt in langen Kontexten und Tool-Use: Function-Calling ist sauber integriert, das Modell hält auch bei mehreren tausend Token Eingabe die Übersicht. Für Agenten-Workflows, RAG-Pipelines mit großen Dokumenten und Multi-Step-Reasoning ist NeMo eine sehr solide Wahl.

Mistral Small (24B) ist die jüngste Open-Weights-Version aus der Mistral-Familie und positioniert sich als Mittelklasse-Modell zwischen 12B und 70B. Apache-2.0, dichte Architektur, deutlich stärker als Mistral 7B bei komplexen Aufgaben, aber noch handhabbar auf einer einzelnen Workstation-GPU. Wer mehr Qualität als Mistral 7B will, aber Mixtrals Speicherbedarf nicht hat, fährt mit Mistral Small gut.

Was Mistral grundsätzlich von vielen anderen Anbietern unterscheidet: Die offiziellen Modelle werden ohne aggressives Safety-Tuning ausgeliefert, der Tonfall ist neutral, das Refusal-Verhalten zurückhaltend. Für deutschsprachige Texte, juristisch-formale Sprache und längere fachliche Antworten merkt man das positiv. Llama 3 wirkt im Vergleich oft etwas paternalistisch, während Mistral pragmatischer antwortet.

Welche Mistral-Variante für welche Hardware?

Bevor du irgendetwas installierst, beantworte zwei Fragen: Wieviel RAM (oder VRAM) hast du, und welche Aufgabe willst du lösen? Mistral-Modelle skalieren stark mit der Größe, aber jede Stufe hat ihre eigene Hardware-Komfortzone. Kleinere Modelle sind nicht “schlechter”, sondern auf andere Anwendungsfälle zugeschnitten. Ein Mistral 7B beantwortet Mails und FAQ-Fragen so gut wie ein Mixtral 8x7B, nur dauert die Erstellung einer dreiseitigen rechtlichen Argumentation beim großen Modell deutlich kürzer und mit besserer Struktur.

Faustregel für Q4-Quantisierung: Speicherbedarf entspricht etwa der Parameterzahl in Milliarden geteilt durch 2, plus 1-2 GB Overhead für KV-Cache und Kontext. Mistral 7B Q4 braucht so 4-5 GB, Mixtral 8x7B Q4 etwa 26 GB, Codestral 22B Q4 rund 13 GB. Wer GPU-VRAM hat, sollte das Modell vollständig auf der GPU halten, weil das die Latenz halbiert. Apple-Silicon-User profitieren vom Unified Memory: Hier ist System-RAM gleichzeitig GPU-RAM, ein M3 Pro mit 36 GB kann Mixtral problemlos laden.

Für Production-Setups gilt: Lieber ein Modell, das komfortabel in den Speicher passt, als ein größeres, das zu 90 Prozent reinpasst. Sobald das Betriebssystem zu swappen beginnt oder das Modell zwischen GPU und CPU pendeln muss, bricht die Tokens-pro-Sekunde-Rate dramatisch ein. Lieber Mistral 7B Q5_K_M mit 60 Tokens/s als Mixtral mit 4 Tokens/s, weil der KV-Cache ständig nachgeladen wird.

Modell	Quantisierung	RAM-Bedarf	Empfohlen für
Mistral 7B Instruct	Q4	4-5 GB	Mainstream-Laptop, Allzweck
Mixtral 8x7B	Q4	26 GB	M3 Pro, Workstation, Top-Qualität
Codestral 22B	Q4	13 GB	Coding, Pair-Programming
Mistral NeMo 12B	Q4	7 GB	Lange Kontexte, Function-Calling

Eine Besonderheit: Mixtral 8x7B braucht zwar 26 GB Speicher, ist beim Inferieren aber kaum langsamer als ein 12B-Dense-Modell, weil ja nur zwei Experten pro Token rechnen. Wer also den RAM hat, bekommt mit Mixtral das beste Verhältnis von Qualität zu Antwortzeit. Wer nur 16 GB hat, fährt mit Mistral NeMo 12B oder Mistral Small Q3 besser.

Installation mit Ollama

Ollama ist der bequemste Weg, Mistral-Modelle lokal zu betreiben. Die Software übernimmt Download, Quantisierung und Modelldefinition vollständig. Wer Ollama noch nicht installiert hat, holt sich den Installer von ollama.com (macOS, Linux, Windows). Nach dem Start läuft im Hintergrund ein Daemon auf Port 11434, mit dem CLI und alle möglichen UIs (Open WebUI, LobeChat, AnythingLLM) kommunizieren.

Die Standard-Pulls für die wichtigsten Mistral-Varianten sind kurz und merkbar. Ohne weitere Tags lädt Ollama immer die als Default markierte Quantisierung, in der Regel Q4_K_M. Wer eine bestimmte Quantisierung will, hängt sie hinten an: mistral:7b-instruct-q5_K_M zum Beispiel.

ollama pull mistral                # Mistral 7B Instruct, Standard
ollama pull mixtral:8x7b-q4_K_M    # Mixtral 8x7B, 26 GB
ollama pull codestral              # Codestral 22B
ollama run mistral "Erkläre die deutsche Mehrwertsteuer in 3 Sätzen"

Der erste Pull dauert je nach Internetverbindung mehrere Minuten bis Stunden: Mistral 7B sind etwa 4 GB, Mixtral 26 GB. Ollama legt die Modelle unter ~/.ollama/models ab, auf macOS ist das Verzeichnis nicht versteckt und kann auf eine externe SSD verschoben werden. Wer ein 256-GB-MacBook hat, sollte das früh tun, bevor das Systemvolume vollläuft. Ein symbolischer Link reicht aus.

Wenn der erste ollama run antwortet, hast du quasi alles geschafft. Antwortzeiten messen kannst du mit --verbose: Ollama zeigt dann nach jeder Antwort prompt eval und eval rate in Tokens pro Sekunde. Auf einem MacBook M3 Pro mit Mistral 7B Q4 sind 50-65 Tokens/s realistisch, mit Mixtral 8x7B Q4 noch 20-30 Tokens/s. Beides ist deutlich schneller als ein Mensch lesen kann, also gefühlt instant.

Installation mit llama.cpp

Wer mehr Kontrolle braucht, etwa für Server-Setups, eingebettete Systeme oder Custom-Quantisierungen, geht direkt zu llama.cpp. Das ist die C++-Inferenz-Engine, die unter der Haube auch Ollama, LM Studio und viele andere Tools antreibt. Klone das Repository, kompiliere mit Metal-Support (macOS) oder CUDA-Support (Linux/Windows mit Nvidia), und du hast einen schlanken Inferenz-Server in unter zehn Minuten.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_METAL=1                 # macOS, Apple Silicon
# alternativ: make LLAMA_CUBLAS=1  # Linux/Windows, Nvidia-GPU

Mistral-Modelle holst du dir am besten als GGUF-Dateien direkt von Hugging Face. Die offiziellen Repositories sind unter mistralai/Mistral-7B-Instruct-v0.3 (oder neuer) zu finden, GGUF-Konvertierungen liefert die TheBloke-Community oder mittlerweile bartowski, beide pflegen die gängigen Quantisierungen ab Q2_K bis Q8_0. Für die meisten Use-Cases ist Q4_K_M der Sweet-Spot zwischen Qualität und Speicherbedarf.

# Beispielpfad - ersetze durch aktuelles Repo
huggingface-cli download bartowski/Mistral-7B-Instruct-v0.3-GGUF \
  Mistral-7B-Instruct-v0.3-Q4_K_M.gguf --local-dir ./models

./main -m ./models/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf \
  -p "Du bist ein hilfreicher deutscher Assistent. Erkläre Photosynthese." \
  -n 512 --color

Für eine API-kompatible Schnittstelle startest du den Server-Modus von llama.cpp. Der hört auf Port 8080 und spricht ein OpenAI-kompatibles Protokoll, sodass jede Software, die mit der OpenAI-API umgehen kann, auch dein lokales Mistral nutzen kann. Praktisch für Continue.dev, AnythingLLM, n8n-Workflows oder eigene Skripte.

./server -m ./models/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf \
  -c 8192 --host 0.0.0.0 --port 8080

Im laufenden Betrieb lohnt es sich, die Parameter -ngl (Number of GPU Layers) und -c (Kontextlänge) bewusst zu setzen. Mit -ngl 99 versuchst du, alle Layer auf die GPU zu legen, was bei ausreichend VRAM die schnellste Variante ist. -c 8192 reserviert Platz für 8.000 Token Kontext: Reicht für die meisten Chats, ohne unnötig RAM zu binden.

Mixtral - das Mixture-of-Experts-Konzept verstehen

Mixtral 8x7B ist auf den ersten Blick verwirrend, weil zwei Zahlen im Spiel sind, die sehr unterschiedliche Dinge messen. Die Gesamt-Parameterzahl liegt bei 46,7 Milliarden, das ist die Speichergröße des Modells. Die aktiven Parameter pro Token liegen bei nur 12,9 Milliarden, das ist die Rechengröße pro Token. Mixtral kombiniert also Speicherbedarf eines mittelgroßen Dense-Modells mit Rechengeschwindigkeit eines kleinen Dense-Modells. Wer beide Zahlen verwechselt, glaubt entweder Mixtral sei zu langsam (falsch) oder zu speichersparsam (auch falsch).

Wie funktioniert das genau? In jeder Transformer-Schicht sitzt nicht ein einzelnes Feed-Forward-Netz, sondern acht parallele Feed-Forward-Netze, die “Experten” genannt werden. Vor jedem Expert-Block läuft ein Router, ein kleines neuronales Netz, das pro Token entscheidet, welche zwei der acht Experten konsultiert werden. Die Outputs der zwei Experten werden gewichtet zusammengerechnet, das Ergebnis geht weiter durch das Modell. Token für Token kann der Router unterschiedliche Experten wählen, was eine Art “Spezialisierung” innerhalb des Modells erlaubt: Der eine Experte ist gut in mathematischer Notation, der andere in französischer Lyrik, der dritte in Code, und so weiter. Trainiert wird das implizit, ohne dass Menschen die Spezialisierungen vorgeben.

Der Speicherbedarf bleibt voll auf 46,7B, weil alle acht Experten zu jeder Zeit im Speicher liegen müssen: Welche zwei der Router auswählt, weiß man erst zur Inferenzzeit. Die Rechenzeit hingegen entspricht in etwa zwei Expertendurchläufen plus Router-Overhead, also rund 12,9B aktive Parameter pro Token. In der Praxis heißt das: Mixtral generiert Tokens schneller als ein 70B-Dense-Modell, beansprucht aber nur etwa zwei Drittel des Speichers eines 70B-Dense-Modells (in Q4 sind das 26 vs. ~40 GB).

Wann lohnt MoE? Immer dann, wenn du genug RAM hast, um das gesamte Modell zu laden, aber nicht die GPU-Rechenleistung für ein gleich starkes Dense-Modell. Apple Silicon ist dafür wie geschaffen: Unified Memory von 36, 64 oder 128 GB, kombiniert mit moderater Rechenleistung der GPU-Cores. Klassische PCs mit einer einzelnen 24-GB-GPU haben es schwerer, weil Mixtral nicht vollständig in den VRAM passt und Layer ausgelagert werden müssen, was die Geschwindigkeit halbiert.

Wann lohnt MoE nicht? Wenn dein Hauptproblem reine Geschwindigkeit ist und du mit etwas Qualitätsverlust leben kannst, sind Mistral 7B oder Mistral NeMo schlanker und meist schneller. Mixtral spielt seine Stärken erst aus, wenn du komplexe Multi-Step-Aufgaben, lange Kontexte, oder vielsprachige Gespräche fährst.

Performance-Vergleich Mistral vs Llama

Die folgenden Werte stammen aus eigenen Messungen auf einem MacBook Pro M3 Pro 36 GB unter Ollama 0.5.x mit Q4_K_M-Quantisierung. Sie sind nicht laborrein, aber realistisch für den typischen Entwickler-Alltag mit kurzen Eingabeprompts (50-200 Tokens) und Antwortlängen um 256 Tokens. Auf anderen Maschinen können die Werte um 20-30 Prozent variieren, die relativen Verhältnisse zwischen den Modellen bleiben aber stabil.

Modell	Tokens/s (M3 Pro)	Speicher	Stärken
Mistral 7B Q4	60	4 GB	Allrounder, lange Prompts
Llama 3.2 7B Q4	58	4 GB	Tool-Use, Multimodalität
Mixtral 8x7B Q4	22	26 GB	Top-Qualität, MoE
Llama 3.3 70B Q4	5	40 GB	Höchste Qualität

Auffällig ist, dass Mistral 7B und Llama 3.2 7B in puncto Speed quasi gleichauf liegen, was zu erwarten ist, weil beide dichte 7B-Architekturen sind. Bei der Qualität macht Llama 3.2 das Rennen bei Werkzeug-Aufrufen und multimodalen Inputs (Bilder), während Mistral bei rein textuellen Aufgaben wie Zusammenfassen, Übersetzen und langen Antworten leicht vorne liegt.

Mixtral 8x7B liefert mit 22 Tokens/s eine sehr brauchbare Geschwindigkeit, kommt qualitativ aber bemerkenswert nahe an Llama 3.3 70B heran. Der Speed-Vorsprung gegenüber dem 70B-Modell ist drastisch: 22 vs. 5 Tokens/s, also über vierfach schneller. Für die meisten Workloads ist Mixtral damit der bessere Kompromiss, sofern man die 26 GB RAM bereithalten kann.

Llama 3.3 70B ist auf dem M3 Pro 36 GB nicht mehr komfortabel: Das Modell ist zu groß, der KV-Cache wird ständig nachgeladen, und die Geschwindigkeit fällt auf 5 Tokens/s. Wer regelmäßig 70B-Qualität will, sollte zum M3 Max mit 64 GB oder größer greifen, oder eben Mixtral als näherungsweise gleichwertige Alternative wählen.

Praxis-Beispiel: Mistral als deutscher Übersetzer

Mistral hat in deutschen Texten einen leichten Vorteil gegenüber Llama, vor allem bei längeren Passagen mit fachsprachlichem Vokabular. Genau dieser Vorteil lässt sich für eine konkrete Aufgabe nutzen: ein lokaler Übersetzungs-Assistent, der englische Texte schnell und stilistisch sauber ins Deutsche bringt, ohne dass die Daten den Rechner verlassen. Für freie Journalisten, juristische Übersetzer, Patentanwälte oder einfach für jeden, der sensible Texte nicht durch DeepL schicken will, ist das eine echte Killer-Anwendung.

Die einfachste Form ist ein Ollama-Modelfile mit System-Prompt. Modelfiles funktionieren wie Dockerfiles für LLMs: Du nimmst ein Basismodell, hängst System-Prompt, Parameter und Tool-Definitionen an, und Ollama baut daraus eine eigene Modellinstanz. Die Datei legst du irgendwo ab (üblich: ~/ollama-models/uebersetzer.modelfile), dann erstellst du das Modell via ollama create.

FROM mistral:7b-instruct-q5_K_M

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

SYSTEM """
Du bist ein professioneller Übersetzer für die Sprachpaare Englisch-Deutsch
und Französisch-Deutsch. Übersetze den Eingabetext wörtlich, aber stilistisch
sauber. Behalte Fachterminologie bei, übersetze keine Eigennamen, und gib
ausschließlich die Übersetzung zurück, ohne Vor- oder Nachwort.
"""

Mit ollama create uebersetzer -f ~/ollama-models/uebersetzer.modelfile wird daraus ein eigenes Modell, das du wie jedes andere mit ollama run uebersetzer ansprechen kannst. Temperatur 0.3 sorgt für konsistente, wenig kreative Antworten (was bei Übersetzungen erwünscht ist), und 8.192 Token Kontext reichen für mehrere Seiten Eingabetext.

Eine Beispielsitzung sieht so aus:

> The court found that the contractual ambiguity must be resolved in favor of the consumer.
Das Gericht entschied, dass die vertragliche Mehrdeutigkeit zugunsten des Verbrauchers aufzulösen ist.

> Notice of termination shall be effective on the date of receipt.
Die Kündigungserklärung wird mit dem Tag des Zugangs wirksam.

Beide Ausgaben treffen den juristischen Ton, übersetzen “ambiguity” korrekt mit “Mehrdeutigkeit” (statt dem oft falschen “Zweideutigkeit”) und behalten den passiven Charakter rechtssprachlicher Formulierungen bei. Mit einem 7B-Modell auf einem Laptop, ohne API-Kosten, ohne Cloud, ohne DSGVO-Bauchschmerzen.

Codestral für Coding-Tasks

Codestral ist Mistrals Antwort auf GitHub Copilot, Tabnine, Codeium und andere Coding-Assistenten. 22 Milliarden Parameter, in Q4-Quantisierung etwa 13 GB Speicherbedarf, ausreichend für eine Workstation oder ein gut bestücktes MacBook. Trainiert wurde Codestral auf 80+ Programmiersprachen mit besonderem Fokus auf die Mainstream-Sprachen Python, Java, JavaScript, TypeScript, C, C++, C#, Go und Rust. Die Stärken: solide Code-Vervollständigung, präzise Erklärungen vorhandenen Codes, korrekte Refactorings auch über mehrere Dateien hinweg.

Die wahrscheinlich praktischste Integration ist Continue.dev, eine quelloffene VS-Code- und JetBrains-Erweiterung. Continue spricht Ollama nativ an, sodass die Konfiguration auf wenige Zeilen schrumpft. In der ~/.continue/config.json legst du Codestral als Tab-Autocomplete- und als Chat-Modell fest, der Rest passiert automatisch.

{
  "models": [
    {
      "title": "Codestral",
      "provider": "ollama",
      "model": "codestral",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Codestral Autocomplete",
    "provider": "ollama",
    "model": "codestral"
  }
}

Cursor, der KI-Editor auf VS-Code-Basis, lässt sich ebenfalls auf einen lokalen Ollama-Endpoint umbiegen, allerdings nur in der Pro-Variante mit “Custom Models”. Die Latenz hängt stark von der Hardware ab: Auf einem M3 Pro fühlt sich Codestral fast wie GitHub Copilot an, auf einem älteren Intel-Mac kann die Antwort spürbar verzögert eintreffen, weshalb sich dort eher das schlankere DeepSeek Coder 6.7B oder Codestral in Q3-Quantisierung anbietet.

Eine direkte Anfrage in Ollama sieht so aus, kein Editor-Setup nötig:

ollama run codestral "Schreibe eine Python-Funktion, die alle deutschen Postleitzahlen in einem Text findet und als Liste zurückgibt. Mit Docstring und einem pytest-Test."

Codestral antwortet mit einem re.findall-Aufruf, korrekter PLZ-Regex (\b\d{5}\b oder spezifischer), sauberem Docstring inklusive Args/Returns/Examples-Sektionen und einer pytest-Funktion mit zwei oder drei Testfällen. Die Qualität liegt auf dem Niveau von Claude Sonnet oder GPT-4 für diese Art einfacher Tasks, ohne dass auch nur ein Bit den Rechner verlässt.

Häufige Fehler

Falsche Quantisierung gewählt. Q2_K wirkt auf den ersten Blick attraktiv, weil das Modell drastisch schrumpft, aber die Qualitätsverluste sind erheblich. Mixtral in Q2 verliert spürbar an Konsistenz, Mistral 7B in Q2 wird unzuverlässig bei längeren Antworten. Faustregel: Q4_K_M oder Q5_K_M, alles darunter nur, wenn Hardware sonst nicht ausreicht.

Kontextlänge nicht angepasst. Default-Kontexte in Ollama liegen oft bei 2.048 oder 4.096 Token. Wer dann einen langen Prompt schickt, bemerkt nicht immer, dass der Anfang abgeschnitten wird. Setze num_ctx im Modelfile oder per Parameter explizit, je nach Use-Case auf 8.192, 16.384 oder mehr. Beachten: Höherer Kontext bedeutet mehr Speicherverbrauch, der KV-Cache wächst linear.

System-Prompt fehlt. Ohne System-Prompt verhält sich Mistral generisch und antwortet manchmal in Englisch, obwohl der User-Prompt auf Deutsch ist. Ein klarer System-Prompt (“Du bist ein hilfreicher deutscher Assistent. Antworte ausschließlich auf Deutsch.”) fixt das Problem zuverlässig und kostet nur ein paar Tokens.

Mixtral auf zu wenig RAM gestartet. Wer Mixtral 8x7B Q4 auf einem 16-GB-Rechner laden will, fängt sich entweder einen OOM-Crash oder eine Geschwindigkeit von unter 2 Tokens/s ein, weil Layer ständig nachgeladen werden. Prüfe vorher mit ollama show mixtral:8x7b und vm_stat (macOS) oder free -h (Linux), ob der RAM reicht. Im Zweifel zu Mistral NeMo 12B oder Mistral Small Q3 greifen.

Codestral kommerziell genutzt. Codestral steht unter einer eigenen, restriktiveren Lizenz als Mistral 7B oder Mixtral. Wer das Modell in einem kommerziellen Produkt einsetzen will (SaaS, kostenpflichtige App, Enterprise-Tooling), braucht eine separate Vereinbarung mit Mistral. Für den persönlichen Einsatz und Forschung ist es kostenfrei, aber lies die Lizenz, bevor du etwas baust.

GPU-Layer falsch konfiguriert. In llama.cpp regelt -ngl (Number of GPU Layers), wie viele Schichten auf die GPU geschoben werden. Wer den Wert zu niedrig setzt, lässt GPU-Leistung liegen, wer ihn zu hoch setzt, riskiert Out-of-Memory-Fehler. -ngl 99 versucht, alle Layer auf die GPU zu packen, was meist die richtige Wahl ist, sofern der VRAM reicht. Bei knappem VRAM hilft Schritt-für-Schritt-Tuning: 32, 48, 64 Layer, bis es passt.

Nächster Schritt

In dieser Lektion hast du die wichtigsten Mistral-Modelle (7B, Mixtral, Codestral, NeMo, Small) kennengelernt, ihre Hardware-Anforderungen verstanden, sie über Ollama oder llama.cpp installiert und Mixtral-MoE konzeptionell durchdrungen. Du kannst jetzt selbst entscheiden, welche Variante zu deiner Maschine passt, und hast mit dem deutschen Übersetzer und der Codestral-Integration zwei Praxis-Setups in der Hand.

Wenn du Mistral und Llama direkt vergleichen willst, geht es in der nächsten Lektion weiter: Llama lokal installieren zeigt das gleiche Setup für die Meta-Modelle und arbeitet die Unterschiede in Tonfall, Function-Calling und Multimodalität heraus. Wer noch unsicher ist, wieviel Hardware er braucht, schaut in den Hardware-Guide, der konkrete Empfehlungen für Apple Silicon, Nvidia-GPUs und CPU-only-Setups gibt. Und wenn das Ziel ein lokaler Wissens-Assistent auf eigenen Dokumenten ist, ist RAG lokal der logische nächste Schritt: Embeddings, Vektor-Datenbank, Retrieval-Pipeline, alles offline.

Häufige Fragen

Welche Mistral-Modelle sind frei nutzbar?

Mistral 7B (Apache-2.0), Mixtral 8x7B (Apache-2.0) und Codestral (frei für Forschung und nicht-kommerzielle Nutzung). Die größeren kommerziellen Mistral-Large-Modelle sind nicht als Open-Weights verfügbar.

Wieviel RAM brauche ich für Mixtral 8x7B?

In Q4-Quantisierung rund 26 GB. Auf einem MacBook M3 Pro mit 36 GB läuft das, ein M3 Max mit 64 GB ist komfortabler. Aktivierte Parameter pro Token: nur etwa 12,9B (Mixture-of-Experts).

Was ist Mixtral - der Unterschied zu Mistral?

Mixtral 8x7B ist ein Mixture-of-Experts-Modell mit acht 7B-Expert-Netzen, von denen pro Token nur zwei aktiv sind. Das ergibt 70B-Qualität bei 12B-Geschwindigkeit. Mistral 7B ist das klassische dichte Modell.

Spricht Mistral besser Deutsch als Llama?

Mistral kommt aus Paris und legt traditionell mehr Wert auf europäische Sprachen. In der Praxis sind Mistral 7B und Llama 3.2 7B in Deutsch ähnlich stark, mit leichten Vorteilen für Mistral bei längeren Texten.

Wo bekomme ich die Mistral-Modelle?

Direkt bei Hugging Face unter den offiziellen Mistralai-Repositories oder über Ollama. Für Mistral 7B Instruct reicht ein einzelner ollama pull mistral.

Ist Mistral 7B besser als Llama 3.2 7B?

Bei reinem Q&A liegen beide gleichauf. Mistral hat einen Vorteil bei langen Prompts und mathematisch-formal strukturierten Aufgaben, Llama 3.2 ist bei Tool-Use und Multimodalität voraus.

Was ist Codestral?

Codestral ist Mistrals dediziertes Code-Modell (22B Parameter). Es unterstützt 80+ Programmiersprachen und ist auf Code-Vervollständigung und -Erklärung spezialisiert.

Sind Mistral-Modelle kommerziell nutzbar?

Mistral 7B und Mixtral 8x7B stehen unter Apache-2.0, dürfen also frei kommerziell genutzt werden. Codestral hat eine restriktivere Lizenz, prüfe vor kommerziellem Einsatz.