Praxis-Guide · Deutsch · DSGVO-konform

Wie kann man ein LLM lokal erstellen?

Eine vollständige, deutsche Anleitung zum Betrieb von Sprachmodellen auf eigener Hardware. Mit konkreten Tool-Empfehlungen, Hardware-Tipps und einer ehrlichen Cloud-vs-Lokal-Abwägung.

9 Themen ~ 30 min Pillar Stand 2026

Direkte Antwort

Ein lokales LLM ist ein Sprachmodell, das vollständig auf deiner eigenen Hardware läuft - kein Cloud-Account, keine API-Calls, keine Datenweitergabe. Du installierst dafür ein Inferenz-Tool wie Ollama oder LM Studio, lädst ein Modell wie Llama 3.3 oder Mistral 7B, und kannst sofort offline mit dem Modell sprechen.

Das ist die kürzeste richtige Antwort. Wenn du die Details brauchst - welche Hardware, welches Modell, wie installieren, wann sich der Aufwand lohnt - arbeite den Rest dieses Pillars durch oder spring direkt in die thematische Sub-Page.

Quickstart in 5 Schritten

Hardware prüfen. Mindestens 16 GB RAM, idealerweise 32 GB. GPU ab 8 GB VRAM beschleunigt deutlich, ist aber kein Zwang. Detail: Hardware-Guide.
Tool wählen. Ollama für Kommandozeile, LM Studio für grafische Oberfläche. Beide kostenlos, beide auf Mac/Windows/Linux.
Modell laden. Llama 3.2 (3B) für Einsteiger, Llama 3.3 (70B Q4) für Profis, Mistral 7B als ausgewogener Allrounder.
Erste Inferenz starten. Eine Frage stellen, Tokens-pro-Sekunde beobachten, Kontextlänge prüfen.
Optimieren. Quantisierungsstufe wählen, GPU-Layer aktivieren, Kontextfenster anpassen.

Vertiefen - die Sub-Pages

Jedes Thema bekommt seine eigene Seite mit Praxisbeispielen, Befehlen und FAQs. Lies sie in beliebiger Reihenfolge.

Modul 01 13 min

Ollama Tutorial - Lokale LLMs in 5 Minuten starten

Praxis-Quickstart für Ollama: Installation auf Mac, Windows, Linux. Modelle ziehen, Modelfiles schreiben, REST-API nutzen, GPU aktivieren.

Modul 02 14 min

Llama lokal installieren - Llama 3.2, 3.3 und Code-Llama auf eigener Hardware

Schritt-für-Schritt: Llama 3.2, Llama 3.3 70B und Code-Llama lokal mit Ollama oder llama.cpp betreiben. Hardware, Quantisierung, Performance, Lizenz.

Modul 03 14 min

Mistral lokal installieren - Mistral 7B, Mixtral 8x7B und Codestral auf eigener Hardware

Praxis-Anleitung: Mistral 7B Instruct, Mixtral 8x7B und Codestral lokal mit Ollama oder llama.cpp betreiben. Lizenz, Hardware, Quantisierung, Performance.

Modul 04 11 min

LM Studio - GUI für lokale LLMs auf Mac, Windows, Linux

LM Studio im Praxis-Test: Modell-Browser, Chat-Interface, OpenAI-kompatibler lokaler Server. Wann LM Studio besser passt als Ollama.

Modul 05 14 min

Hardware für lokale LLMs - Mac, Windows, Linux 2026 im Vergleich

Welche Hardware brauchst du für lokale Sprachmodelle? Konkrete RAM-, GPU- und CPU-Empfehlungen für Mac, PC und Linux mit Tokens/s-Werten.

Modul 06 15 min

RAG lokal - Retrieval-Augmented Generation auf eigener Hardware

Eigene Dokumente lokal mit LLM verbinden: Embeddings, Vektor-Stores, Chunking-Strategien. Praxis-Setup mit Ollama, nomic-embed-text und Qdrant lokal.

Modul 07 11 min

Lokale LLMs und DSGVO - der ehrliche Compliance-Check 2026

Warum lokale Sprachmodelle DSGVO-freundlicher sind als Cloud-APIs, wann sie es nicht sind, und welche Risiken trotzdem bleiben.

Modul 08 18 min

LLM Cloud vs lokal - die ehrliche Abwägung 2026

Wann lohnt sich ein lokales LLM, wann ein VPS, wann doch die Cloud-API? Kostenrechnung, DSGVO-Implikationen, Performance-Vergleich für DACH-Praktiker.

Modul 90 4 min

512-GB-MacBook fuer Ollama: Reicht das fuer lokale LLMs?

Ein Praxischeck fuer Ollama auf dem MacBook: Speicherplatz, RAM, Modellgroesse, Quantisierung und lokale LLMs wie GLM, Llama oder Mistral.

Wann lokales LLM, wann Cloud?

Lokal lohnt sich, wenn Datenschutz Priorität hat (Mandantengeheimnis, Patientendaten, interne Geschäftslogik), wenn du häufig offline arbeitest, oder wenn dich die Cloud-Kosten bei großem Volumen erschlagen. Cloud lohnt sich, wenn du Spitzen-Qualität brauchst (GPT-4, Claude 4) oder die nötige Hardware-Investition vermeiden willst.

Eine ehrliche Abwägung mit Kostenrechnung findest du auf der dedizierten Sub-Page Cloud vs. Lokal. Wer eine Mittelweg sucht: ein eigener VPS bringt dir die Privatsphäre eines Self-Hosted-Setups, ohne dass deine Hardware mitspielen muss.

Wer betreibt LLMlokal?

LLMlokal ist eine redaktionelle Sammelseite mit Praxis-Anleitungen für DACH-Nutzer. Wir betreiben selbst lokale LLMs auf Mac- und Linux-Setups, und schreiben über das, was funktioniert - inklusive der Stellen, an denen die Marketing-Versprechen der Modell-Anbieter brechen. Kontakt und vollständige Angaben im Impressum.

Häufig gestellte Fragen

Was bedeutet "LLM lokal betreiben"?

Ein Large Language Model läuft komplett auf deiner eigenen Hardware - keine Daten verlassen deinen Rechner, keine Cloud-API wird aufgerufen, kein Account ist nötig.

Welche Hardware brauche ich mindestens?

Für 3B-Modelle wie Llama 3.2 reichen 8 GB RAM. Für 7B-Modelle (Llama, Mistral) solltest du 16 GB RAM haben. Eine dedizierte GPU mit 8 GB+ VRAM beschleunigt die Inferenz deutlich, ist aber kein Muss.

Welches Tool soll ich nehmen - Ollama oder LM Studio?

Ollama ist die richtige Wahl, wenn du dich auf der Kommandozeile wohl fühlst und das Modell in andere Programme einbinden willst. LM Studio bietet eine grafische Oberfläche und eignet sich besser für Einsteiger oder reine Desktop-Nutzung.

Welche Modelle sind 2026 für DACH-Nutzer empfehlenswert?

Llama 3.3 70B (Quantisiert) für Top-Qualität, Llama 3.2 3B für Geschwindigkeit, Mistral 7B Instruct als ausgewogener Allrounder, Mixtral 8x7B für komplexe Tasks. Alle laufen lokal und sind kommerziell nutzbar.

Ist das DSGVO-konform?

Ja - lokal betriebene LLMs verarbeiten Daten ausschließlich auf deinem Rechner. Es gibt keinen Drittstaaten-Transfer und kein Auftragsverarbeitungsverhältnis. Das macht lokale LLMs zur datenschutzfreundlichsten Variante.

Kann ich Llama 3 kommerziell nutzen?

Ja, mit Einschränkungen. Die Llama-3-Lizenz erlaubt kommerzielle Nutzung, sofern du nicht über 700 Millionen monatlich aktive Nutzer hast. Für die meisten DACH-Unternehmen kein Problem.

Was kostet das Setup?

Software: 0 Euro (Ollama, LM Studio, alle gängigen Modelle). Hardware: vorhandene Computer reichen für kleine Modelle, ein Mac mit M-Chip ab 16 GB oder ein Linux-PC mit RTX-GPU sind ideal.

Wie schnell läuft so ein lokales LLM?

Auf einem MacBook M3 Pro mit 18 GB RAM erreicht Llama 3.2 3B rund 30-50 Tokens/Sekunde. Mit dedizierter GPU (RTX 4070 oder besser) erreichst du 70+ Tokens/Sekunde, vergleichbar mit ChatGPT-Niveau-Geschwindigkeit.

Was ist der Unterschied zu ChatGPT oder Claude?

Lokale LLMs sind privater, kostenlos im Betrieb und funktionieren offline - dafür sind sie meist eine halbe Liga schwächer als die kommerziellen Top-Modelle. Für die meisten Aufgaben (Zusammenfassungen, Übersetzung, Code-Schnipsel) reichen lokale Modelle völlig aus.