Praxis-Guide · Deutsch · DSGVO-konform
Wie kann man ein LLM lokal erstellen?
Eine vollständige, deutsche Anleitung zum Betrieb von Sprachmodellen auf eigener Hardware. Mit konkreten Tool-Empfehlungen, Hardware-Tipps und einer ehrlichen Cloud-vs-Lokal-Abwägung.
9 Themen ~ 30 min Pillar Stand 2026
Direkte Antwort
Ein lokales LLM ist ein Sprachmodell, das vollständig auf deiner eigenen Hardware läuft - kein Cloud-Account, keine API-Calls, keine Datenweitergabe. Du installierst dafür ein Inferenz-Tool wie Ollama oder LM Studio, lädst ein Modell wie Llama 3.3 oder Mistral 7B, und kannst sofort offline mit dem Modell sprechen.
Das ist die kürzeste richtige Antwort. Wenn du die Details brauchst - welche Hardware, welches Modell, wie installieren, wann sich der Aufwand lohnt - arbeite den Rest dieses Pillars durch oder spring direkt in die thematische Sub-Page.
Quickstart in 5 Schritten
- Hardware prüfen. Mindestens 16 GB RAM, idealerweise 32 GB. GPU ab 8 GB VRAM beschleunigt deutlich, ist aber kein Zwang. Detail: Hardware-Guide.
- Tool wählen. Ollama für Kommandozeile, LM Studio für grafische Oberfläche. Beide kostenlos, beide auf Mac/Windows/Linux.
- Modell laden. Llama 3.2 (3B) für Einsteiger, Llama 3.3 (70B Q4) für Profis, Mistral 7B als ausgewogener Allrounder.
- Erste Inferenz starten. Eine Frage stellen, Tokens-pro-Sekunde beobachten, Kontextlänge prüfen.
- Optimieren. Quantisierungsstufe wählen, GPU-Layer aktivieren, Kontextfenster anpassen.
Vertiefen - die Sub-Pages
Jedes Thema bekommt seine eigene Seite mit Praxisbeispielen, Befehlen und FAQs. Lies sie in beliebiger Reihenfolge.
Ollama Tutorial - Lokale LLMs in 5 Minuten starten
Praxis-Quickstart für Ollama: Installation auf Mac, Windows, Linux. Modelle ziehen, Modelfiles schreiben, REST-API nutzen, GPU aktivieren.
Llama lokal installieren - Llama 3.2, 3.3 und Code-Llama auf eigener Hardware
Schritt-für-Schritt: Llama 3.2, Llama 3.3 70B und Code-Llama lokal mit Ollama oder llama.cpp betreiben. Hardware, Quantisierung, Performance, Lizenz.
Mistral lokal installieren - Mistral 7B, Mixtral 8x7B und Codestral auf eigener Hardware
Praxis-Anleitung: Mistral 7B Instruct, Mixtral 8x7B und Codestral lokal mit Ollama oder llama.cpp betreiben. Lizenz, Hardware, Quantisierung, Performance.
LM Studio - GUI für lokale LLMs auf Mac, Windows, Linux
LM Studio im Praxis-Test: Modell-Browser, Chat-Interface, OpenAI-kompatibler lokaler Server. Wann LM Studio besser passt als Ollama.
Hardware für lokale LLMs - Mac, Windows, Linux 2026 im Vergleich
Welche Hardware brauchst du für lokale Sprachmodelle? Konkrete RAM-, GPU- und CPU-Empfehlungen für Mac, PC und Linux mit Tokens/s-Werten.
RAG lokal - Retrieval-Augmented Generation auf eigener Hardware
Eigene Dokumente lokal mit LLM verbinden: Embeddings, Vektor-Stores, Chunking-Strategien. Praxis-Setup mit Ollama, nomic-embed-text und Qdrant lokal.
Lokale LLMs und DSGVO - der ehrliche Compliance-Check 2026
Warum lokale Sprachmodelle DSGVO-freundlicher sind als Cloud-APIs, wann sie es nicht sind, und welche Risiken trotzdem bleiben.
LLM Cloud vs lokal - die ehrliche Abwägung 2026
Wann lohnt sich ein lokales LLM, wann ein VPS, wann doch die Cloud-API? Kostenrechnung, DSGVO-Implikationen, Performance-Vergleich für DACH-Praktiker.
Wann lokales LLM, wann Cloud?
Lokal lohnt sich, wenn Datenschutz Priorität hat (Mandantengeheimnis, Patientendaten, interne Geschäftslogik), wenn du häufig offline arbeitest, oder wenn dich die Cloud-Kosten bei großem Volumen erschlagen. Cloud lohnt sich, wenn du Spitzen-Qualität brauchst (GPT-4, Claude 4) oder die nötige Hardware-Investition vermeiden willst.
Eine ehrliche Abwägung mit Kostenrechnung findest du auf der dedizierten Sub-Page Cloud vs. Lokal. Wer eine Mittelweg sucht: ein eigener VPS bringt dir die Privatsphäre eines Self-Hosted-Setups, ohne dass deine Hardware mitspielen muss.
Wer betreibt LLMlokal?
LLMlokal ist eine redaktionelle Sammelseite mit Praxis-Anleitungen für DACH-Nutzer. Wir betreiben selbst lokale LLMs auf Mac- und Linux-Setups, und schreiben über das, was funktioniert - inklusive der Stellen, an denen die Marketing-Versprechen der Modell-Anbieter brechen. Kontakt und vollständige Angaben im Impressum.
Häufig gestellte Fragen
Was bedeutet "LLM lokal betreiben"?
Ein Large Language Model läuft komplett auf deiner eigenen Hardware - keine Daten verlassen deinen Rechner, keine Cloud-API wird aufgerufen, kein Account ist nötig.
Welche Hardware brauche ich mindestens?
Für 3B-Modelle wie Llama 3.2 reichen 8 GB RAM. Für 7B-Modelle (Llama, Mistral) solltest du 16 GB RAM haben. Eine dedizierte GPU mit 8 GB+ VRAM beschleunigt die Inferenz deutlich, ist aber kein Muss.
Welches Tool soll ich nehmen - Ollama oder LM Studio?
Ollama ist die richtige Wahl, wenn du dich auf der Kommandozeile wohl fühlst und das Modell in andere Programme einbinden willst. LM Studio bietet eine grafische Oberfläche und eignet sich besser für Einsteiger oder reine Desktop-Nutzung.
Welche Modelle sind 2026 für DACH-Nutzer empfehlenswert?
Llama 3.3 70B (Quantisiert) für Top-Qualität, Llama 3.2 3B für Geschwindigkeit, Mistral 7B Instruct als ausgewogener Allrounder, Mixtral 8x7B für komplexe Tasks. Alle laufen lokal und sind kommerziell nutzbar.
Ist das DSGVO-konform?
Ja - lokal betriebene LLMs verarbeiten Daten ausschließlich auf deinem Rechner. Es gibt keinen Drittstaaten-Transfer und kein Auftragsverarbeitungsverhältnis. Das macht lokale LLMs zur datenschutzfreundlichsten Variante.
Kann ich Llama 3 kommerziell nutzen?
Ja, mit Einschränkungen. Die Llama-3-Lizenz erlaubt kommerzielle Nutzung, sofern du nicht über 700 Millionen monatlich aktive Nutzer hast. Für die meisten DACH-Unternehmen kein Problem.
Was kostet das Setup?
Software: 0 Euro (Ollama, LM Studio, alle gängigen Modelle). Hardware: vorhandene Computer reichen für kleine Modelle, ein Mac mit M-Chip ab 16 GB oder ein Linux-PC mit RTX-GPU sind ideal.
Wie schnell läuft so ein lokales LLM?
Auf einem MacBook M3 Pro mit 18 GB RAM erreicht Llama 3.2 3B rund 30-50 Tokens/Sekunde. Mit dedizierter GPU (RTX 4070 oder besser) erreichst du 70+ Tokens/Sekunde, vergleichbar mit ChatGPT-Niveau-Geschwindigkeit.
Was ist der Unterschied zu ChatGPT oder Claude?
Lokale LLMs sind privater, kostenlos im Betrieb und funktionieren offline - dafür sind sie meist eine halbe Liga schwächer als die kommerziellen Top-Modelle. Für die meisten Aufgaben (Zusammenfassungen, Übersetzung, Code-Schnipsel) reichen lokale Modelle völlig aus.