11 min Lesezeit

LM Studio - GUI für lokale LLMs auf Mac, Windows, Linux

LM Studio im Praxis-Test: Modell-Browser, Chat-Interface, OpenAI-kompatibler lokaler Server. Wann LM Studio besser passt als Ollama.

LM Studio ist die GUI-Antwort auf die Frage, wie lokale Sprachmodelle ohne Terminal-Zauberei nutzbar werden. Die Desktop-App für macOS, Windows und Linux bündelt einen Modell-Browser für den Hugging Face Hub, ein Chat-Interface mit Verlauf und einen OpenAI-kompatiblen API-Server in einer einzigen Oberfläche. Wer Ollama als reines Kommandozeilen-Werkzeug zu spröde findet, oder wer mehrere Modelle visuell vergleichen möchte, ohne jedes Mal ollama pull und ollama run zu tippen, landet früher oder später bei LM Studio. Die App ist proprietär, aber kostenlos und ohne Account-Zwang, und sie hat sich in den letzten Monaten zur ersten Wahl für nicht-technische Anwender entwickelt, die trotzdem ernsthaft mit lokalen Modellen arbeiten wollen.

Wer LM Studio nutzen sollte

Die erste Zielgruppe sind Anwender ohne tiefe Linux- oder Terminal-Erfahrung. Wer auf einem MacBook oder Windows-Laptop einfach nur ein Sprachmodell laden, eine Frage stellen und die Antwort lesen möchte, bekommt mit LM Studio in unter zehn Minuten ein lauffähiges Setup. Es gibt keine Konfigurationsdateien, keine YAML-Manifeste und keine systemd-Services. Die App startet mit einem Begrüßungsdialog, schlägt ein erstes Modell vor und führt durch den Download. Für Einsteiger ist diese geführte Erfahrung deutlich freundlicher als die Ollama-Lernkurve, die mit einer leeren Shell beginnt.

Die zweite Gruppe sind Tester und Evaluatoren. Wer regelmäßig zwei oder drei Modelle nebeneinander prüft (etwa Llama 3 gegen Mistral gegen Qwen), profitiert vom integrierten Modell-Manager. Du siehst auf einen Blick, welche Modelle lokal liegen, wie viel Speicher sie belegen, welche Quantisierung aktiv ist und wann du sie zuletzt verwendet hast. Das Wechseln zwischen Modellen geschieht per Klick im Header, und der Chat-Verlauf bleibt pro Modell erhalten. Wer in Ollama drei Tabs offen hat und manuell zwischen ollama run llama3 und ollama run mistral wechselt, spart in LM Studio mehrere Minuten pro Vergleichssession.

Die dritte Gruppe sind Mac-Anwender mit Apple Silicon. LM Studio nutzt Metal automatisch und gibt im UI direkt an, wie viele Layer auf die GPU geladen werden. Auf einem M1, M2, M3 oder M4 mit ausreichend Unified Memory laufen Modelle bis 13 Milliarden Parameter butterweich, und die App liefert dabei ehrliche Speicher-Schätzungen, bevor du überhaupt herunterlädst. Apple-Nutzer berichten häufig, dass LM Studio sich auf macOS einfach nativer anfühlt als ein Docker-Container oder ein über Homebrew installierter CLI-Daemon.

Die vierte Gruppe sind Entwickler in der Prototyping-Phase. Wer eine Idee gegen ein lokales Modell prüfen möchte, ohne ein Backend aufzusetzen, aktiviert in LM Studio den Server-Modus. Aus Python, Node.js oder einer beliebigen anderen Sprache spricht man dann gegen http://localhost:1234/v1 mit der gewohnten OpenAI-Library und kann später ohne Code-Änderung gegen die echte OpenAI-API oder einen anderen Anbieter tauschen. Genau diese Kombination aus geringer Einstiegshürde und produktiver API-Kompatibilität macht LM Studio in vielen kleinen Teams zum Standard für die ersten Wochen eines Projekts.

Eine fünfte Gruppe schließlich sind Datenschutz-bewusste Anwender, die ihre Prompts grundsätzlich nicht in die Cloud schicken wollen, aber gleichzeitig keine Lust auf Server-Administration haben. LM Studio läuft als ganz normale Desktop-App, ist nach dem ersten Download komplett offline funktionsfähig und braucht keinen Daemon, der im Hintergrund Ports öffnet, wenn du es nicht möchtest. Anwaltskanzleien, Steuerberater und Ärzte, die mit sensiblen Daten arbeiten, bekommen damit ein Werkzeug, das sich wie ein Office-Programm bedienen lässt und trotzdem ein vollwertiges LLM unter der Haube hat.

Installation in 3 Schritten

Der erste Schritt ist der Download von der offiziellen Website lmstudio.ai. Die Seite erkennt das Betriebssystem automatisch und schlägt den passenden Installer vor. Auf macOS lädst du eine DMG-Datei, auf Windows eine EXE, auf Linux ein AppImage. Die Dateigrößen liegen zwischen 400 und 900 Megabyte, weil die App neben der GUI auch das llama.cpp-Backend, mehrere Inferenz-Engines (CUDA, ROCm, Metal, Vulkan) und einen kompletten Hugging-Face-Client mitbringt. Wer eine alte Version aktualisieren möchte, findet im Hilfemenü einen Update-Check, der das automatisch erledigt.

Der zweite Schritt ist die Installation selbst. Auf macOS ziehst du das App-Symbol wie gewohnt in den Programme-Ordner. Auf Windows führt der Installer dich durch einen Standard-Wizard mit Pfad-Auswahl und optionalem Desktop-Icon. Auf Linux machst du das AppImage ausführbar (chmod +x LM-Studio.AppImage) und startest es per Doppelklick oder aus dem Terminal. Beim ersten Start fragt LM Studio nach dem Speicherort für Modelle, und es lohnt sich, hier ein Verzeichnis mit ausreichend Platz zu wählen, idealerweise auf einer SSD. Modelle in den gängigen Quantisierungen belegen schnell zwanzig bis fünfzig Gigabyte, wenn du mehrere Varianten parallel testen willst.

Der dritte Schritt ist das erste Modell. LM Studio öffnet nach dem Start die Discover-Ansicht und schlägt einsteigerfreundliche Modelle wie Llama 3 8B Instruct oder Mistral 7B Instruct vor. Du klickst auf “Download”, die App lädt die GGUF-Datei aus dem Hugging Face Hub und legt sie im konfigurierten Ordner ab. Sobald der Download fertig ist, wechselst du in den Chat-Tab, wählst das Modell aus dem Dropdown und schickst die erste Frage ab. Auf einem M2 Pro mit 16 Gigabyte RAM antwortet ein 7B-Modell typischerweise mit dreißig bis vierzig Tokens pro Sekunde, also schnell genug für eine flüssige Konversation.

Im vierten Schritt empfiehlt sich ein Blick in die Einstellungen. Hier legst du fest, wie viele GPU-Layer offloaded werden, ob Flash Attention aktiv ist und wie groß das Kontextfenster sein soll. Die Defaults sind konservativ und funktionieren auf den meisten Geräten ohne Anpassung, aber wer mehr Performance herausholen möchte, kann hier experimentieren. LM Studio zeigt dir bei jeder Änderung, wie sich die geschätzte Speichernutzung verändert, und warnt dich, bevor du das System überlastest.

Modell-Browser nutzen

Der Modell-Browser ist das Kernstück von LM Studio. Du öffnest die Discover-Ansicht über das Lupen-Symbol in der Seitenleiste, gibst einen Suchbegriff wie “llama”, “mistral”, “qwen” oder “phi” ein und siehst sofort eine Liste von passenden Repositories aus dem Hugging Face Hub. Jedes Ergebnis zeigt das Original-Modell, den Quantisierer (etwa “TheBloke”, “bartowski” oder “MaziyarPanahi”) und eine Übersicht der verfügbaren Quantisierungen. Du kannst nach Beliebtheit, Aktualität oder Modellgröße sortieren, was bei der täglichen Modell-Pflege Zeit spart.

Die Filter-Optionen helfen, das Angebot auf das Sinnvolle einzukochen. Du kannst nach Quantisierungs-Stufe filtern (Q4_K_M, Q5_K_M, Q6_K, Q8_0), nach Modellgröße in Milliarden Parametern (1B, 3B, 7B, 8B, 13B, 70B), nach Lizenz (Apache, MIT, Llama Community, Gemma) oder nach Architektur (Llama, Mistral, Qwen, Gemma, Phi). Wer ein Modell für ein bestimmtes RAM-Budget sucht, stellt einfach die maximale Größe ein und sieht nur noch passende Vorschläge. Die App rechnet dabei mit, ob das Modell auf das aktuelle System passen wird, und blendet die Anzeige rot ein, wenn der Download zu groß für den verfügbaren Speicher wäre.

Eine besondere Stärke ist die Hardware-Kompatibilitäts-Anzeige. LM Studio kennt deinen RAM, deine GPU und die verfügbaren Backend-Optionen. Es zeigt dir bei jedem Modell eine grüne, gelbe oder rote Ampel: grün heißt “läuft mühelos”, gelb heißt “läuft, aber knapp”, rot heißt “wird nicht oder kaum laden”. Diese Vorhersage ist nicht perfekt, aber deutlich besser als jede Hochrechnung aus einer README. Wer auf einem Laptop mit 8 Gigabyte RAM sitzt, wird zuverlässig zu kleinen Modellen geleitet (Phi-3-Mini, Llama 3.2 3B, Qwen 2.5 3B), während Workstations mit 64 Gigabyte ohne Warnung auf 70B-Modelle zugreifen dürfen.

Die Hugging-Face-Integration geht über reine Suche hinaus. Du kannst pro Modell die README direkt in der App lesen, die Modell-Karte mit Lizenz-Hinweisen ansehen und prüfen, welche Quantisierungen ein bestimmter Uploader anbietet. Beliebte Uploader wie bartowski oder lmstudio-community bieten oft fünf oder sechs Quantisierungen pro Modell an, sodass du genau die Variante wählen kannst, die in dein Speicher- und Qualitäts-Budget passt. Die App merkt sich, welche Modelle du heruntergeladen hast, und blendet die ein, die bereits lokal liegen, separat aus.

Verwaltet werden die Modelle im “My Models”-Tab. Hier siehst du alle GGUF-Dateien aus deinem Modell-Ordner, kannst sie umbenennen, in Unterordner verschieben oder löschen. LM Studio rechnet automatisch zusammen, wie viel Speicher pro Modell belegt ist, und zeigt eine Gesamtsumme an. Wer regelmäßig aufräumt, behält den Überblick über die schnell wachsende lokale Modell-Bibliothek. Auch das Importieren von Modellen, die du auf anderen Wegen heruntergeladen hast, funktioniert: einfach die GGUF-Datei in den Modell-Ordner legen, App neu laden, fertig.

Das Chat-Interface in der Praxis

Das Chat-Interface ist bewusst schlicht gehalten und erinnert an die ChatGPT-Oberfläche. Links eine Liste der Konversationen, in der Mitte das eigentliche Gespräch, rechts ein Inspector mit den Modell-Parametern. Du tippst deine Frage in das Eingabefeld, drückst Enter und das Modell antwortet streamingweise Token für Token. Bei längeren Antworten siehst du eine kleine Statistik mit Tokens pro Sekunde und Gesamttoken-Zahl, was beim Vergleich zwischen Modellen sehr hilfreich ist. Wer eine Antwort abbrechen möchte, klickt auf “Stop generation” und kann die Eingabe sofort verfeinern.

Der System-Prompt lässt sich pro Konversation oder als Default für ein Modell setzen. Du öffnest den entsprechenden Bereich im Inspector und gibst etwa “Du bist ein präziser deutscher Recherche-Assistent, der nur in vollständigen Sätzen antwortet” ein. LM Studio speichert diesen Prompt zusammen mit der Konversation, sodass du ihn beim nächsten Aufruf nicht erneut eingeben musst. Wer mehrere Personas pflegt (Recherche, Code-Review, Übersetzer), legt einfach mehrere Konversationen an und wechselt zwischen ihnen.

Die Sampling-Parameter Temperature, Top-K und Top-P sitzen direkt im Inspector und sind ohne Neuladen änderbar. Temperature regelt die Kreativität (0 für deterministische Antworten, 0.7 als guter Default, 1.2 für sehr explorative Ausgaben), Top-K beschränkt die Auswahl auf die wahrscheinlichsten K Tokens, Top-P arbeitet mit einer kumulierten Wahrscheinlichkeit als Cutoff. Für die meisten Aufgaben funktioniert die Kombination Temperature 0.7, Top-K 40 und Top-P 0.95 zuverlässig. Wer reproduzierbare Antworten braucht (etwa für Tests oder Benchmarks), setzt Temperature auf 0 und fixiert den Seed.

Konversationen lassen sich speichern, exportieren und durchsuchen. LM Studio legt sie als JSON-Dateien im Anwendungsverzeichnis ab, sodass du sie sichern, in ein Repository einchecken oder mit anderen Anwendern teilen kannst. Der Export-Button am rechten Rand bietet Markdown, JSON und reinen Text als Formate an. Praktisch ist die Volltextsuche über alle bisherigen Gespräche, die hilft, eine alte Recherche oder einen guten Prompt schnell wiederzufinden, ohne sich durch Dutzende Sessions zu klicken.

OpenAI-kompatibler Server-Modus

Den eigentlichen Schritt zum Entwickler-Werkzeug macht LM Studio mit dem Server-Modus. Du öffnest den “Local Server”-Tab in der linken Seitenleiste, wählst ein geladenes Modell aus dem Dropdown und klickst auf “Start Server”. Sofort lauscht LM Studio standardmäßig auf http://localhost:1234/v1 und akzeptiert OpenAI-kompatible Requests. Der Server unterstützt Chat-Completions, klassische Completions und Embeddings, je nachdem ob du ein Sprachmodell oder ein Embedding-Modell geladen hast. Im UI siehst du in Echtzeit jede eingehende Anfrage, was beim Debuggen ungemein praktisch ist.

Die Server-Einstellungen lassen sich feingranular kontrollieren. Du kannst den Port wechseln (etwa auf 8000, wenn 1234 schon belegt ist), das Logging detaillierter einstellen, CORS-Header setzen, falls du den Server direkt aus einer Browser-App ansprichst, und festlegen, ob LM Studio auf allen Netzwerk-Interfaces lauscht oder nur auf localhost. Letzteres ist wichtig: Standardmäßig ist der Server nur lokal erreichbar, was sicherheitsmäßig der richtige Default ist. Wer den Server bewusst im LAN freigeben möchte, etwa um vom Smartphone darauf zuzugreifen, aktiviert die entsprechende Option und sollte gleichzeitig eine Firewall-Regel oder einen Reverse-Proxy davorsetzen.

Mit jeder OpenAI-Library sprichst du den Server ohne Anpassungen an. In Python sieht das so aus:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "Was ist Quantisierung?"}],
)
print(response.choices[0].message.content)

Das api_key-Argument ist Pflicht, weil die OpenAI-Library es erwartet, der Wert ist aber egal: LM Studio prüft den Schlüssel nicht. Der model-Parameter wird in den meisten Fällen ignoriert, weil LM Studio das im UI ausgewählte Modell verwendet. Wer mehrere Modelle gleichzeitig laden und gezielt ansprechen möchte, kann die JIT-Loading-Option aktivieren: dann lädt LM Studio das angeforderte Modell automatisch nach, sobald ein Request kommt, und entlädt es nach einer konfigurierbaren Idle-Zeit wieder.

Multi-Tenant-Use ist ein interessanter Anwendungsfall. Wer ein kleines Team mit drei oder vier Entwicklern hat, kann auf einer Workstation oder einem Mac Studio einen LM-Studio-Server starten und allen Kollegen die URL geben. Sie sprechen dann von ihren Laptops aus gegen den zentralen Server und teilen sich die GPU. Das skaliert nicht beliebig, weil die Anfragen sequentiell abgearbeitet werden, aber für Prototyping und kleine Teams reicht es. Wer mehr Parallelität braucht, setzt mehrere Instanzen auf, oder wechselt zu vLLM oder TGI für echte Production-Workloads.

Das Logging zeigt jede Anfrage mit Zeitstempel, Modell, Prompt-Länge, Antwort-Länge und Tokens-pro-Sekunde. Du kannst die Log-Zeile aufklappen und den vollständigen Request- und Response-Body sehen, was beim Debuggen von Tool-Calls und JSON-Modi sehr hilft. Für längere Auswertungen exportierst du die Logs als JSONL und analysierst sie in einem Notebook. LM Studio unterstützt mittlerweile auch Function-Calling und JSON-Mode, sofern das geladene Modell diese Features beherrscht (Llama 3.1 und neuer, Qwen 2.5, Mistral Nemo).

Wichtig zu wissen: der Server speichert keine Anfragen dauerhaft, sondern hält sie nur im RAM, solange das Logging-Fenster offen ist. Wer eine echte Audit-Trail braucht, schaltet einen Reverse-Proxy davor (Caddy, nginx oder Traefik) und protokolliert dort. Die Performance unterscheidet sich kaum zwischen Chat-UI und Server-Modus, weil beide intern auf dieselbe llama.cpp-Inferenz zurückgreifen.

LM Studio vs Ollama - direkter Vergleich

Die Frage “LM Studio oder Ollama” taucht in Foren und Slack-Channels mehrmals pro Woche auf, und die ehrliche Antwort lautet: es kommt auf dein Profil an. Beide Werkzeuge greifen unter der Haube auf llama.cpp zurück, beide laufen plattformübergreifend, beide sind kostenlos. Die Unterschiede liegen in der Bedien-Philosophie, in der Lizenz und in der Frage, wie sehr du das Modell ins eigene System einbetten möchtest.

LM Studio ist GUI-zentriert. Du klickst, ziehst, scrollst und siehst alle Optionen visuell. Für Einsteiger und für Anwender, die selten mit Modellen arbeiten und nicht jedes Mal Befehle nachschlagen wollen, ist das ein klarer Vorteil. Ollama ist CLI-zentriert. Du tippst ollama pull, ollama run, ollama list, und automatisierst alles über Shell-Skripte oder die REST-API. Für Server-Setups, für Continuous-Integration-Pipelines und für Anwender, die den Ollama-Daemon einfach im Hintergrund laufen lassen, ist das ebenso ein klarer Vorteil.

Die Lizenz-Frage ist für viele Unternehmen nicht trivial. Ollama ist MIT-lizenziert und damit Open Source im klassischen Sinn: du darfst den Code lesen, anpassen, weitergeben und kommerziell nutzen, ohne Rückfrage. LM Studio ist proprietär, kostenlos für persönliche und kommerzielle Nutzung, aber der Quellcode der GUI ist nicht offen. Wer in einer regulierten Branche arbeitet und vor jedem neuen Tool eine Lizenz-Prüfung durchläuft, hat es mit Ollama leichter. Wer einfach nur arbeitet, ist bei beiden auf der sicheren Seite.

Bei der Modell-Quelle gibt es unterschiedliche Ansätze. Ollama betreibt eine eigene Modell-Library mit kuratierten Versionen (ollama pull llama3:8b lädt aus dieser Library), erlaubt aber auch das Importieren beliebiger GGUF-Dateien per Modelfile. LM Studio greift direkt auf den Hugging Face Hub zu und gibt dir Zugriff auf jede dort verfügbare Quantisierung. In der Praxis heißt das: Ollama ist schneller für die Top-20-Modelle, LM Studio ist flexibler für seltene Varianten und experimentelle Releases.

Aspekt	LM Studio	Ollama
Lizenz	Proprietär (kostenlos)	Open Source (MIT)
Bedienung	GUI	CLI plus REST-API
Modell-Quelle	Hugging Face direkt	Eigene Library plus HF
Server-Modus	OpenAI-kompatibel	OpenAI-kompatibel plus eigene API
Best für	Einsteiger, Nicht-Entwickler	Entwickler, Server-Setups
Plattformen	Mac, Windows, Linux	Mac, Windows, Linux

Pragmatisch hat es sich bewährt, beide parallel zu installieren. LM Studio dient als visuelles Test- und Vergleichswerkzeug, Ollama als Daemon für Skripte und Backend-Integrationen. Die GGUF-Dateien lassen sich sogar zwischen beiden teilen, wenn man die Pfade entsprechend setzt, sodass kein doppelter Speicherplatz draufgeht. Wer ganz neu einsteigt, startet mit LM Studio und wechselt zu Ollama, sobald das Skripten und Automatisieren in den Vordergrund rückt.

Häufige Fehler in LM Studio

Der erste typische Fehler ist die Auswahl einer zu großen Quantisierung. Anfänger ziehen oft die Q8_0-Variante eines 13B-Modells, weil “höher gleich besser” vermutet wird, und wundern sich dann, warum das Modell nicht lädt oder nur ein Token pro Sekunde liefert. Faustregel: für die meisten Aufgaben reicht Q4_K_M oder Q5_K_M aus, der Qualitätsverlust ist marginal, der Speichergewinn enorm. Q6 und Q8 lohnen sich nur, wenn du ein sehr kleines Modell hast und die volle Qualität brauchst, oder wenn du genug RAM und VRAM für den Komfort übrig hast.

Der zweite typische Fehler betrifft die GPU-Layer. LM Studio bietet im Modell-Lade-Dialog einen Schieberegler für die Anzahl der GPU-Layer. Setzt du ihn zu hoch, knallt der VRAM voll und das Modell crasht. Setzt du ihn zu niedrig, läuft die Inferenz auf der CPU und ist deutlich langsamer als nötig. Die “Auto”-Einstellung trifft meist eine vernünftige Wahl, aber bei knappen Ressourcen lohnt es sich, manuell auszuprobieren, wie viele Layer das System verträgt. Auf einem Laptop mit 8 Gigabyte VRAM und einem 13B-Modell sind oft nur 25 von 41 Layern auf die GPU offloaded, der Rest läuft über die CPU, und das Ergebnis fühlt sich trotzdem flüssig an.

Der dritte Fehler ist eine zu lange Kontext-Länge. Viele Modelle können theoretisch 32k, 128k oder mehr Tokens verarbeiten, aber jeder zusätzliche Token kostet Speicher. Wer in den Einstellungen blind das Maximum einträgt, bekommt schnell Out-of-Memory-Fehler. Empfehlung: starte mit 4096 oder 8192 Tokens, und erhöhe nur, wenn du sie wirklich brauchst. LM Studio zeigt dir den geschätzten Speicherverbrauch live an, sobald du den Wert änderst, was die Justierung erleichtert.

Der vierte Fehler liegt im falschen Chat-Template. Manche heruntergeladenen Modelle bringen kein Standard-Template mit, oder LM Studio erkennt es nicht automatisch. Die Folge: das Modell antwortet seltsam, halluziniert die Rolle des Assistenten oder wiederholt Fragen. Im Inspector kannst du das Template manuell setzen (ChatML, Llama 3, Mistral, Vicuna), und in den meisten Fällen löst das das Problem sofort. Ein kurzer Blick in die Modell-Karte auf Hugging Face verrät, welches Template das Modell erwartet.

Der fünfte Fehler ist das Vergessen, den Server zu stoppen. Wer den Local Server gestartet hat und LM Studio im Hintergrund laufen lässt, hat einen offenen Port und ein gemountetes Modell im RAM. Auf einem Laptop frisst das Akku und Arbeitsspeicher ohne Nutzen. Im Server-Tab steht prominent ein “Stop Server”-Button, und es lohnt sich, ihn nach getaner Arbeit zu drücken. Alternativ aktivierst du das Idle-Unloading: dann entlädt LM Studio das Modell nach einer einstellbaren Pause automatisch.

Ein sechster, häufig übersehener Punkt sind die Modell-Dateipfade auf Linux. Wenn du LM Studio als AppImage startest, liegen die Modelle standardmäßig im Home-Verzeichnis unter einem versteckten Ordner. Wer auf einer separaten Daten-SSD arbeiten möchte, sollte den Pfad in den Einstellungen umlegen, bevor er das erste Modell zieht. Verschiebt man den Ordner nachträglich, muss LM Studio die Modelle neu indizieren, was bei vielen GGUF-Dateien einige Minuten dauert.

Nächster Schritt

Wenn du nach diesem Überblick lieber mit der Kommandozeile arbeitest oder Modelle auf einem Server deployen möchtest, lies das Ollama Tutorial und vergleiche die beiden Ansätze direkt im Praxis-Setup. Wer dagegen unsicher ist, ob die eigene Hardware überhaupt für lokale LLMs reicht, sollte vorher den Hardware-Guide durchgehen, in dem RAM-, VRAM- und Storage-Empfehlungen pro Modellgröße zusammengefasst sind. Beide Lektionen ergänzen LM Studio um die zwei Stellschrauben, die in der täglichen Arbeit den größten Unterschied machen: die Wahl des Werkzeugs und die Wahl der Maschine darunter.

Häufige Fragen

Was ist LM Studio?

LM Studio ist eine kostenlose Desktop-Anwendung für Mac, Windows und Linux, mit der du lokale LLMs grafisch verwalten und ansprechen kannst. Eingebauter Modell-Browser, Chat-Interface und OpenAI-kompatibler API-Server.

Ist LM Studio Open Source?

Die Anwendung ist proprietär (Element Labs Inc.), aber kostenlos und ohne Account-Zwang nutzbar. Die GUI selbst ist nicht offen, die zugrundeliegende llama.cpp-Inferenz schon.

Was sind die Unterschiede zu Ollama?

LM Studio ist GUI-zentriert mit Modell-Browser und Chat-Interface, Ollama ist CLI-zentriert. LM Studio ist proprietär aber funktionsreicher für Nicht-Entwickler, Ollama ist Open Source und besser für Server-Setups.

Auf welchen Plattformen läuft LM Studio?

macOS (Apple Silicon und Intel), Windows 10+ (x64) und Linux (AppImage). Apple-Silicon-Macs nutzen Metal automatisch, NVIDIA-GPUs unter Windows und Linux werden via CUDA beschleunigt.

Wo lädt LM Studio Modelle herunter?

Direkt aus dem Hugging Face Hub. Du suchst im integrierten Browser nach einem Modell und LM Studio holt die GGUF-Dateien automatisch.

Funktioniert LM Studio offline?

Nach dem ersten Modell-Download komplett offline. Für die Suche und neue Downloads ist eine Verbindung zu Hugging Face nötig.

Kann ich LM Studio in eigene Apps einbinden?

Ja, über den eingebauten OpenAI-kompatiblen Server. Aktivierst du den Server-Modus, lauscht LM Studio standardmäßig auf http://localhost:1234/v1, und jede OpenAI-Library spricht direkt mit ihm.