18 min Lesezeit
LLM Cloud vs lokal - die ehrliche Abwägung 2026
Wann lohnt sich ein lokales LLM, wann ein VPS, wann doch die Cloud-API? Kostenrechnung, DSGVO-Implikationen, Performance-Vergleich für DACH-Praktiker.
Es gibt drei Wege, ein modernes Sprachmodell produktiv zu nutzen, und keiner davon ist für jeden Anwendungsfall richtig. Die einen schwören auf das lokale Setup im Heimnetz, die anderen mieten einen VPS in Frankfurt, und ein dritter Teil lebt entspannt mit Cloud-APIs von OpenAI oder Anthropic. Diese Lektion ordnet die drei Modi nüchtern ein, rechnet Kosten über zwölf und vierundzwanzig Monate durch, vergleicht Performance, beleuchtet die DSGVO-Lage und gibt am Ende eine klare Empfehlung pro Nutzertyp. Wer die Entscheidung einmal sauber durchgedacht hat, spart sich später teure Korrekturen.
Die drei Modi im Überblick
Bevor wir in die Details gehen, lohnt sich ein klarer Blick auf das, was die drei Modi überhaupt sind. Lokal bedeutet: Das Modell läuft auf deinem eigenen Rechner, deinem Mac mini, deinem Laptop, deinem Desktop. Du installierst eine Inferenz-Software wie Ollama, llama.cpp oder LM Studio, lädst die Modellgewichte herunter und startest. Vom ersten Token bis zum letzten Wort verlässt nichts deine Maschine. Stromkosten sind die einzige variable Größe, der Rest ist eine einmalige Hardware-Investition.
VPS heißt: Du mietest bei einem Provider wie Hostinger, Hetzner, Netcup oder Strato eine virtuelle Maschine in einem europäischen Rechenzentrum. Auf dieser virtuellen Maschine läuft die gleiche Inferenz-Software wie lokal, nur dass die Hardware fremd ist und über das Internet erreichbar. Du zahlst monatlich eine fixe Miete, hast aber keine Hardware-Anschaffung. Datenschutzrechtlich liegst du, sofern der Provider in der EU sitzt, deutlich näher am lokalen Setup als an einer US-Cloud.
Cloud-API ist der Modus, den die meisten kennen: Du schickst eine Anfrage an einen externen Anbieter, OpenAI, Anthropic, Google oder Mistral, und bekommst eine Antwort zurück. Du zahlst pro verbrauchtem Token, hast keine Hardware und keine Wartung, dafür aber ein Auftragsverarbeitungsverhältnis mit einem fremden Anbieter, oft mit Datenfluss in die USA, und du bist zwingend auf eine stabile Internet-Verbindung angewiesen.
Diese drei Modi unterscheiden sich nicht nur im Preis, sondern in fast jeder relevanten Dimension. Datenhoheit, Verfügbarkeit, Wartungsaufwand, Skalierbarkeit, Performance, Modellauswahl, Compliance, alles ändert sich je nach Wahl. Und die Wahl ist selten “alles oder nichts”. Viele DACH-Praktiker fahren am Ende eine hybride Strategie, in der zwei oder sogar alle drei Modi parallel laufen. Mehr dazu weiter unten.
Wichtig ist, dass du die Modi nicht nach Bauchgefühl wählst. “Cloud-API ist immer am einfachsten” stimmt nicht, sobald du Datenschutz brauchst. “Lokal ist immer am günstigsten” stimmt nicht, wenn du nur dreimal die Woche eine Frage stellst. “VPS ist nur für Profis” stimmt nicht, wenn du einen Telegram-Bot betreibst, der 24/7 verfügbar sein muss. Jede Aussage in diesem Bereich braucht Kontext, und der Kontext lautet: Volumen, Sensitivität, technisches Niveau, Verfügbarkeitsanspruch.
| Aspekt | Lokal (eigener Rechner) | VPS (gemietet) | Cloud-API (OpenAI etc.) |
|---|---|---|---|
| Hardware-Investition | Hoch (einmalig) | Keine | Keine |
| Monatliche Fixkosten | 0 | 5-50 Euro | 0 |
| Pay-per-Token | 0 | 0 | 0,01-0,06 Euro/1k Token |
| DSGVO | Optimal | Sehr gut bei EU-Server | Komplex |
| Verfügbarkeit | Eigene Hardware abhängig | 99,9% Provider-SLA | 99,99% Anbieter-SLA |
| Wartung | Eigene Sache | Selbst auf VPS | Anbieter |
| Best für | Datenschutz, Hobby, Dauerbetrieb | Mittelweg, Server-Apps | Spitzenqualität, sporadisch |
Wann lokal die richtige Wahl ist
Lokal ist die Königsdisziplin in Sachen Datenschutz. Sobald sensible Daten ins Spiel kommen, also Patientendaten in einer Arztpraxis, Mandantenakten in einer Kanzlei, Lohnabrechnungen, Passwörter, interne Strategiepapiere oder Steuerunterlagen, ist das lokale Setup nicht nur die beste Option, sondern oft die einzige rechtlich saubere. Es gibt schlicht kein Auftragsverarbeitungsverhältnis, keinen Drittstaaten-Transfer und keine Frage, ob ein US-Anbieter eines Tages auf Anordnung der eigenen Behörden Zugriff bekommt. Wenn dein Anwalt zum dritten Mal nachfragt, ob die KI wirklich nichts speichert, ist die Antwort bei Lokal-Setup einfach: nein, weil sie das Haus gar nicht verlässt.
Der zweite klare Vorteil ist der Dauerbetrieb. Wenn du das Modell acht oder mehr Stunden am Tag aktiv nutzt, sei es als Coding-Assistent in der IDE, als Recherche-Helfer im Browser oder als Texterstellungs-Tool im Marketing, dann lohnt sich die einmalige Hardware-Investition meistens schon innerhalb des ersten Jahres. Bei Cloud-APIs zahlst du jeden gerenderten Token, bei lokal zahlst du genau einmal die Anschaffung und ein paar Euro Strom pro Monat. Wer jeden Tag mehrere Stunden mit einem Sprachmodell arbeitet, wird merken, dass die Pay-per-Token-Logik bei Cloud schnell vierstellig pro Jahr wird, während ein Mac mini M4 mit 24 GB RAM einmalig rund 1.300 Euro kostet.
Der dritte Vorteil ist die Offline-Fähigkeit. Klingt erstmal exotisch, wird aber überraschend oft relevant: Reisen ohne stabile Verbindung, Bahnfahrten durch Funklöcher, Flüge, Auslandsaufenthalte, oder einfach Tage, an denen die heimische Internetleitung mal wieder spinnt. Ein lokales Modell läuft, solange dein Akku hält. Selbst ohne Internet kannst du Dokumente zusammenfassen, Code refaktorieren, Texte korrigieren oder mit der eigenen Wissensbasis chatten. Die Cloud-API steht in dem Moment auf “Verbindung fehlgeschlagen” und ist nutzlos.
Der vierte Punkt ist die Vollkostenrechnung über zwei Jahre. Eine ehrliche Total Cost of Ownership zeigt: Wer einen Mac mini M4 mit 24 GB für 1.300 Euro kauft und ihn vier Jahre nutzt, hat eine effektive Belastung von rund 27 Euro pro Monat, inklusive Strom. Damit liegt das Lokal-Setup zwischen einem KVM4-VPS (knapp zehn Euro pro Monat) und einer mittleren Cloud-API-Nutzung (oft 50 Euro und mehr pro Monat). Sobald die Cloud-Rechnung aber konstant über 30 Euro liegt, ist die Lokal-Hardware betriebswirtschaftlich überlegen, vor allem weil sie nach den vier Jahren noch immer einen Wiederverkaufswert hat.
Der fünfte und für viele entscheidende Punkt ist die Lernkurve. Wer einmal ein Modell lokal aufgesetzt hat, versteht die Mechanik dahinter: was ein Modellfile ist, wie Quantisierung funktioniert, warum manche Modelle 4 GB und andere 70 GB brauchen, wie Tokenisierung den Speicherbedarf treibt. Diese technische Tiefe gewinnst du bei Cloud-APIs nie, weil dort alles abstrahiert ist. Für jeden Entwickler, jeden technisch interessierten Marketer, jeden ITK-affinen Mittelständler ist das lokale Setup auch ein Lernfeld, das sich später bei jeder weiteren KI-Entscheidung auszahlt.
Wann ein VPS Sinn ergibt
Es gibt einen sehr konkreten Sweet Spot, in dem ein VPS die beste aller drei Welten ist: Wenn dein eigener Rechner nicht stark genug ist, du aber trotzdem Datenhoheit willst und das Modell idealerweise rund um die Uhr verfügbar sein soll. In genau diesem Szenario gewinnst du mit einem VPS den vielleicht entspanntesten Workflow überhaupt. Du hast keine Hardware-Investition, du hast keine 24/7-Lüfter im Wohnzimmer, du hast Datacenter-SLAs, du hast eine deutsche oder litauische IP, und du zahlst weniger als zehn Euro pro Monat für ein KVM4 mit 8 GB RAM. Genau dieser Workflow ist es, den viele DACH-Praktiker am Ende fahren.
Der zweite Anwendungsfall sind Server-Anwendungen mit 24/7-Anspruch. Wenn du einen Telegram-Bot betreibst, der jederzeit antworten muss, einen Slack-Helfer, einen WordPress-Plug-in mit lokalem LLM-Backend, einen Zapier-Webhook, einen Slackbot fürs Team, einen Discord-Bot für die Community, oder einen API-Endpoint für eine Mobile-App, dann ist lokal in der Praxis kaum machbar. Der Heim-Rechner geht nachts in Standby, beim Stromausfall ist Schluss, und die heimische Internet-Verbindung hat selten eine feste IP. Ein VPS hingegen ist genau für genau diesen Job gemacht: stabile IP, garantierte Verfügbarkeit, Frankfurt oder Vilnius, alles bereit.
Der dritte klassische Use Case ist Mehrbenutzer-Zugriff. Sobald nicht nur du, sondern auch deine Kollegen, deine Mandanten, deine Kunden oder deine Familie ein gemeinsames Modell nutzen sollen, wird der heimische Rechner schnell zum Flaschenhals. Auf einem VPS kannst du Open-WebUI mit Authentifizierung deployen, jedem Nutzer einen eigenen Account geben, Quotas setzen, Logs einsehen und das Ganze hinter einem Reverse Proxy mit HTTPS absichern. Dasselbe lokal zu Hause aufzusetzen ist möglich, aber mit Dynamic-DNS, Port-Forwarding und Sicherheitsfragen oft komplizierter als ein VPS-Klick.
Der vierte Aspekt sind mittlere Token-Volumina. Wenn du 50.000 bis 500.000 Tokens pro Tag verarbeitest, also kleine Automation-Pipelines, RAG-Systeme oder kontinuierliche Zusammenfassungs-Jobs, dann ist die Cloud-API entweder schon zu teuer oder du landest bei einem mittleren dreistelligen Monatsbetrag. Auf einem KVM8 für 19,99 Euro pro Monat kannst du dieselben Volumina mit einem 7B- oder Mixtral-8x7B-Modell selbst fahren, dauerhaft. Die Mathematik geht auf: 500k Tokens pro Tag bei OpenAI GPT-4o-mini sind rund 4,50 Euro pro Tag, das sind 135 Euro pro Monat, gegen 20 Euro VPS.
Der fünfte Aspekt ist die Cloud-Nähe ohne Cloud-API. Du willst die Bequemlichkeit einer Cloud, aber nicht die Probleme einer Cloud-API. Du willst nicht in Echtzeit Anfragen an OpenAI schicken, aber du willst auch nicht, dass deine Hardware morgens aufgeweckt werden muss. Du willst nicht das Auftragsverarbeitungsverhältnis mit einem US-Anbieter, aber du willst die DSGVO-Position eines deutschen Rechenzentrums. Du willst keine 1.300 Euro investieren, aber du willst auch nicht jeden Token einzeln bezahlen. Genau diese Schnittmenge bedient ein VPS perfekt. Frankfurt, Vilnius, deutsches oder litauisches Recht, EU-Datenraum, monatlich kündbar.
Der sechste Aspekt, den viele unterschätzen, ist die Skalierbarkeit nach oben. Wenn dein Setup wächst, kannst du beim VPS-Provider mit wenigen Klicks von KVM2 auf KVM4 oder KVM8 wechseln. Bei lokal heißt Skalierung: neuer Rechner kaufen. Beim VPS heißt Skalierung: Plan upgraden, neu starten, fertig. Falls du irgendwann doch eine GPU brauchst, kannst du zumindest bei manchen Providern auf eine GPU-Linie umziehen, wenn auch zu deutlich höheren Preisen.
Wann Cloud-API doch besser ist
Es gibt Anwendungsfälle, in denen lokal und VPS ehrlich gesprochen verlieren, und in denen die Cloud-API von OpenAI, Anthropic oder Google die richtige Wahl ist. Der erste ist Spitzenqualität. Wenn du ein Bild analysieren willst, das ein eigenhändig fotografiertes Beispiel deiner Stoffausstellung zeigt, oder ein PDF mit komplexem Layout durchsuchen willst, dann sind GPT-4 mit Vision oder Claude Sonnet mit hochwertiger PDF-Verarbeitung in der Praxis kaum lokal zu schlagen. Open-Source-Modelle wie Llama 3.2 Vision oder Qwen 2.5 VL kommen zwar näher heran, aber bei der Qualität auf einem 7B-Lokalsystem fehlt der finale Schliff, den nur die Top-Tier-Cloud-APIs liefern.
Der zweite Anwendungsfall ist die sporadische Nutzung mit niedrigem Volumen. Wenn du dreimal die Woche eine Frage stellst, ein-, zweimal pro Monat eine Mail formulierst und nur gelegentlich einen Code-Snippet generieren lässt, dann ist die Cloud-API mit Pay-per-Token die einzig vernünftige Wahl. Eine Lokal-Hardware für 1.300 Euro für eine Nutzung von einer halben Stunde pro Woche ist betriebswirtschaftlich nicht zu rechtfertigen. Selbst der günstigste VPS für zehn Euro pro Monat würde 99 Prozent der Zeit ungenutzt laufen. Ein paar Euro pro Monat für GPT-4o-mini sind hier schlicht der ehrlichste Pfad.
Der dritte Aspekt sind multimodale, komplexe Prompts. Wenn dein Use Case ist: “Hier ist ein 200-Seiten-PDF, ein Excel-Sheet mit Quartalszahlen und drei Screenshots, mache mir daraus einen Vorstandsbericht”, dann ist die schiere Modellgröße und die multimodale Architektur von Cloud-Top-Modellen ein klarer Vorteil. Lokale Modelle können das technisch alles, brauchen aber für vergleichbare Qualität entweder massive Hardware (M3 Ultra mit 192 GB) oder mehrere Stunden Inferenzzeit. Ein GPT-4 oder Claude Opus erledigt diese Aufgabe in zwei Minuten in akzeptabler Qualität.
Der vierte Anwendungsfall ist Experimentieren mit dem absoluten State of the Art. Wenn du herausfinden willst, was aktuell überhaupt machbar ist, welche Reasoning-Tiefe ein Modell schafft, wie lange Kontextfenster wirklich performen, dann sind die Cloud-Anbieter immer einen Schritt voraus. Open-Source holt schnell auf, aber zwischen Erscheinen eines neuen Spitzenmodells und stabilen Open-Source-Pendants liegen oft zwei bis sechs Monate. Wer in dieser Frühphase mitmischen will, kommt um Cloud-APIs nicht herum.
Der fünfte Aspekt ist die fehlende technische Lust auf Wartung. Manchmal will man einfach nur, dass es läuft. Keine Updates, keine Modell-Migration, keine Disk-Bereinigung, keine Logs filtern, keine Sicherheitspatches einspielen. Wer ohne Lust auf Server-Wartung KI nutzen will, sollte ehrlich zu sich selbst sein und die Cloud-API nehmen. Es ist absolut legitim, das Geld für Bequemlichkeit auszugeben.
Kostenrechnung über 12 Monate
Reden wir Klartext und rechnen den klassischen Fall durch: Du verarbeitest 100.000 Tokens pro Tag, also rund 30 Anfragen mit je circa 3.000 Tokens Ein- und Ausgabe zusammengenommen. Das entspricht einem moderaten produktiven Einsatz, etwa als Coding-Assistent für eine Person oder als RAG-System für eine kleine Wissensdatenbank. Wir nehmen vier Varianten unter die Lupe: ein lokales Mac-mini-Setup, ein VPS bei Hostinger, eine Cloud-API mit GPT-4o-mini und eine mit Claude 4 Sonnet.
Beim lokalen Mac mini M4 mit 24 GB RAM zahlst du einmal 1.299 Euro für die Hardware. Strom kosten dich überschlägig 8 bis 12 Euro pro Monat (Idle-Modus mehr als Volllast, Apple Silicon ist sehr effizient), das ist so wenig, dass wir es im 12-Monats-Total bei einem Anschaffungs-Preis runden können. Nach zwölf Monaten hast du also 1.300 Euro ausgegeben. Sofern du die Hardware vier Jahre behältst, sind das effektiv etwa 27 Euro monatlich.
Beim Hostinger KVM4 mit 8 GB RAM und 4 vCPU zahlst du 9,99 Euro pro Monat, also 119,88 Euro pro Jahr. Das ist mit Abstand die günstigste laufende Variante, wenn du keine Hardware-Investition machen willst. Bei diesem Volumen kommst du noch klar mit einem 7B-Modell wie Llama 3.2 oder Qwen 2.5, beide laufen in Q4-Quantisierung sauber auf 8 GB RAM.
Bei OpenAI GPT-4o-mini liegt der Preis aktuell bei rund 0,15 Euro pro Million Input-Tokens und 0,60 Euro pro Million Output-Tokens. Bei einer realistischen Mischung von 60 Prozent Input und 40 Prozent Output pro Anfrage und 100k Tokens pro Tag landest du bei rund 1,50 Euro pro Tag, also 540 Euro pro Jahr. Das ist viereinhalbmal so teuer wie ein Hostinger-VPS und schon deutlich näher an einem Mac mini.
Bei Claude 4 Sonnet liegt der Preis spürbar höher, rund 3 Dollar pro Million Input-Tokens und 15 Dollar pro Million Output-Tokens. Bei den genannten 100k Tokens pro Tag bist du bei rund 5 Dollar pro Tag, also 1.800 Dollar pro Jahr. Das ist die mit Abstand teuerste Variante, schlägt mit Cents pro Anfrage zu Buche und übersteigt locker die Anschaffungskosten eines Mac mini in unter einem Jahr.
| Variante | Setup | Monatliche Fixkosten | 12-Monats-Total bei 100k Token/Tag |
|---|---|---|---|
| Lokal: Mac mini M4 24 GB | 1.300 Euro | 0 | 1.300 Euro |
| VPS: Hostinger KVM4 | 0 | 9,99 Euro | 120 Euro |
| Cloud: GPT-4o-mini | 0 | 0 | 540 Euro (variabel) |
| Cloud: Claude 4 Sonnet | 0 | 0 | 1.800 Euro (variabel) |
Wer nüchtern auf diese Tabelle blickt, sieht: Im ersten Jahr ist der VPS unschlagbar günstig, gefolgt von GPT-4o-mini, dann Mac mini lokal, dann Claude. Im zweiten Jahr kippt die Rechnung: Der Mac mini ist abbezahlt, du zahlst nur noch Strom (geschätzt 100 Euro/Jahr), und liegt damit dauerhaft unter VPS und allen Cloud-Varianten. Wer also wirklich langfristig denkt und wer kontinuierlich nutzt, fährt mit Lokal am Ende am günstigsten. Aber: Cash-Flow-mäßig ist der VPS für viele angenehmer, weil keine 1.300 Euro auf einmal fällig sind.
Performance-Vergleich - was bekommst du wirklich?
Geschwindigkeit und Qualität sind zwei verschiedene Dinge, und beide variieren stark zwischen den drei Modi. Schauen wir uns die Tokens-pro-Sekunde-Werte an, die in der Praxis erreichbar sind. Bei Cloud-APIs liefert GPT-4 oder Claude Opus zwischen 50 und 100 Tokens pro Sekunde, bei den schnelleren Mini-Modellen wie GPT-4o-mini oder Claude Haiku auch mal 150 bis 200 Tokens pro Sekunde. Das ist der Maßstab, an dem sich lokale Setups messen lassen müssen.
Lokal auf einer RTX 4070 mit Llama 3.2 7B in Q4 erreichst du etwa 80 bis 120 Tokens pro Sekunde, also fast Cloud-Niveau. Auf einem M3 Max mit 64 GB RAM und einem 70B-Modell in Q4 sind es nur noch 8 bis 12 Tokens pro Sekunde, was sich für interaktive Chats schon zäh anfühlt. Auf einem M4 Mac mini mit 24 GB RAM und einem 7B-Modell hast du wieder 30 bis 50 Tokens pro Sekunde, gut nutzbar. Die einfache Regel: Je größer das Modell und je geringer die Speicherbandbreite, desto langsamer wird es.
Auf einem CPU-only-VPS ohne GPU sieht es anders aus. Hier rechnest du mit AVX2 oder AVX-512 in der CPU und erreichst je nach VPS-Plan und Modellgröße 4 bis 12 Tokens pro Sekunde. Das ist für interaktive Chats grenzwertig: für ein Wort musst du etwa eine halbe Sekunde warten, was sich zwar wie eine Mensch-Schreibgeschwindigkeit anfühlt, aber für Tippen-und-Lesen-Workflows manchmal zu langsam ist. Für Hintergrund-Jobs (Zusammenfassungen, RAG-Embeddings, Stapelverarbeitung) ist das absolut praktikabel, weil dort niemand wartet.
Das Kontextfenster ist eine zweite wichtige Dimension. Cloud-APIs haben hier oft die Nase vorn: GPT-4o erlaubt 128k Tokens, Claude 4 Sonnet sogar bis zu 200k. Lokale Modelle sind je nach Quantisierung und RAM auf 8k, 16k oder 32k beschränkt, weil mehr Kontext quadratisch mehr Speicher kostet. Wer mit 200-Seiten-PDFs arbeitet, kommt lokal schnell an Grenzen, in der Cloud nicht.
| Modus / Setup | Tokens/s | Kontextfenster | Latenz (erstes Token) |
|---|---|---|---|
| Cloud GPT-4o | 80-120 | 128k | 0,5-1 s |
| Cloud Claude 4 Sonnet | 50-80 | 200k | 0,8-1,5 s |
| Lokal RTX 4070 (Llama 7B Q4) | 80-120 | 8k-32k | 0,2-0,4 s |
| Lokal M4 Mac mini (Llama 7B Q4) | 30-50 | 8k-32k | 0,4-0,6 s |
| Lokal M3 Max (Llama 70B Q4) | 8-12 | 8k-32k | 1-2 s |
| VPS KVM4 CPU (Llama 7B Q4) | 4-12 | 4k-8k | 1-3 s |
Die Latenz beim ersten Token ist bei lokal oft sogar besser als in der Cloud, weil keine Internet-Strecke und keine Queue dazwischen liegt. Wer wirklich schnelle Erstantwort braucht, etwa für Live-Antworten in einem Chatbot, sollte lokal oder VPS in Frankfurt nutzen, nicht Cloud-APIs aus den USA.
Hybride Setups - das Beste aus beiden Welten
In der Praxis ist die spannendste Antwort meistens “alles drei, aber für unterschiedliche Aufgaben”. Diese hybride Strategie nutzt jeden Modus dort, wo er stark ist, und ersetzt ihn dort, wo er schwach ist. Sie braucht ein bisschen Konfigurationsarbeit am Anfang, zahlt sich dann aber jeden Monat aus. Schauen wir uns drei typische Hybrid-Modelle an.
Modell eins ist “lokal first, Cloud fallback”. Hier läuft auf deinem Mac mini ein 7B-Modell für 95 Prozent aller Anfragen. Wenn aber eine Anfrage zu komplex ist, etwa weil sie ein hochauflösendes Bild enthält oder mehr als 32k Kontext braucht, leitet eine kleine Routing-Logik die Anfrage an GPT-4 oder Claude Opus weiter. So zahlst du Cloud-Kosten nur für die wirklich komplexen Fälle, alle Standard-Anfragen bleiben kostenlos und privat. Tools wie LiteLLM, Open-WebUI oder eigene Python-Wrapper können diese Logik mit zwanzig Zeilen Code abbilden.
Modell zwei ist “VPS für Server-App, lokal für Entwicklung”. Auf einem Hostinger-VPS läuft die produktive Anwendung, der Telegram-Bot, der Slack-Helfer, das interne Tool, mit Open-WebUI hinter HTTPS. Beim Entwickeln und Testen nutzt du dasselbe Modell aber lokal, ohne Latenz und ohne Trafficverbrauch im VPS. So hast du eine produktive 24/7-Umgebung und gleichzeitig einen schnellen Dev-Loop. Die Modelle und Konfigurationen kannst du zwischen den beiden Setups syncen, weil Ollama- und llama.cpp-Modellfiles plattformunabhängig sind.
Modell drei ist “Sensibel lokal, Standard in der Cloud, Skalierung im VPS”. Hier teilst du Anfragen nach Sensitivität auf. Patienten-Akten oder Vertragsdokumente bleiben strikt lokal. Allgemeine Coding-Hilfe darf auch über Cloud-APIs gehen, weil dort keine Identifikatoren drin sind. Ein RAG-System mit dem internen Firmen-Wiki läuft auf dem VPS, weil dort viele Mitarbeiter zugreifen. Diese Aufteilung erfordert eine etwas durchdachtere Architektur, ist aber für mittlere und größere Organisationen oft die einzig sinnvolle Lösung. Die DSGVO-Auditoren freuen sich, weil jede Datenkategorie ihren passenden Modus hat.
In allen drei Hybrid-Modellen ist der entscheidende Punkt: Du musst dich nicht für einen Modus entscheiden. Die drei Modi sind keine Konkurrenten, sondern Werkzeuge in einem Werkzeugkasten. Ein guter Praktiker kennt sie alle, weiß wann er welchen einsetzt, und baut seine Setups so, dass er flexibel bleiben kann. Diese Flexibilität ist auch eine Versicherung: Wenn ein Cloud-Anbieter Preise erhöht, einen Dienst einstellt oder seine Nutzungsbedingungen ändert, kannst du innerhalb weniger Stunden auf eine Alternative umschalten.
Provider-Vergleich für lokale-Modelle-im-VPS-Setup
Wenn du dich für die VPS-Variante entschieden hast, stehst du vor der nächsten Frage: Welcher Provider? In der DACH-Region gibt es vier ernsthafte Kandidaten, die wir im Praxistest verglichen haben. Der Fokus liegt auf Standort, Preis-Leistung im 8-GB-RAM-Bereich, Bedienbarkeit und Eignung für LLM-Inferenz auf CPU.
Hostinger ist der einfachste Einstieg. Das Webinterface ist der freundlichste der vier, der Setup-Prozess geht in zehn Minuten, Standorte sind Frankfurt und Vilnius (beide EU). Der KVM4-Plan mit 8 GB RAM, 4 vCPU und 200 GB NVMe kostet 9,99 Euro pro Monat. Es gibt 30 Tage Geld-zurück-Garantie und einen passablen 24/7-Support per Live-Chat. Für Einsteiger und kleine Unternehmen ist Hostinger oft die beste Wahl, weil der erste Server läuft, bevor du dich mit Linux-Details herumschlagen musst.
Hetzner ist der Profi-Pfad. Standorte in Falkenstein und Nürnberg sind klassische deutsche Datacenter mit langer Tradition, Preise sind aggressiv (CX22 mit 4 GB für 4,90 Euro, CX32 mit 8 GB für 11,79 Euro). Das Webinterface ist nüchterner, der Support antwortet langsamer als bei Hostinger, aber die Hardware-Qualität und die Netzanbindung sind erstklassig. Wer sich auskennt, bekommt bei Hetzner mehr Server für weniger Geld. Wer sich nicht auskennt, wird ein paar Tage Lernkurve einplanen.
Netcup liegt preislich zwischen Hostinger und Hetzner. Standorte in Karlsruhe und Nürnberg, Preise um 9,86 Euro pro Monat für VPS 2000 mit 8 GB RAM. Der Support ist mittelmäßig, das Webinterface schon etwas in die Jahre gekommen, aber die Preis-Leistung stimmt und in der DACH-Community wird Netcup oft positiv erwähnt. Eine solide Mittellösung.
Strato ist mit 14 Euro pro Monat der teuerste der vier und auch der mit dem schwächsten Webinterface. Vorteil: deutsche Konzern-Solidität, Standort Berlin, deutscher Support, klare Vertragsbedingungen. Wer ein Hosting-Setup mit klassischer DACH-Reputation braucht und Bürokratie-fest sein will, ist hier richtig. Für reines LLM-Hosting auf VPS sehen wir aber keinen besonderen Vorteil gegenüber den drei anderen.
| Provider | DACH-Standort | Preis (8 GB RAM) | Affiliate verfügbar |
|---|---|---|---|
| Hostinger | Frankfurt, Vilnius | 9,99 Euro | Ja |
| Hetzner | Falkenstein, Nürnberg | 11,79 Euro | Nein |
| Netcup | Karlsruhe, Nürnberg | 9,86 Euro | Nein |
| Strato | Berlin | 14,00 Euro | Nein |
Es gibt noch eine kleine Reihe zweiter Anbieter (Contabo, IONOS, OVHcloud), die wir hier bewusst weglassen, weil entweder die Datacenter-Standorte unklar sind oder die Performance bei CPU-Inferenz inkonsistent ist. Wer zu einem dieser Anbieter greifen will, sollte vorher unbedingt einen Testmonat einplanen und die Tokens-pro-Sekunde messen.
Empfehlung der Redaktion
Für die meisten DACH-Praktiker, die heute zum ersten Mal mit lokalen oder VPS-Sprachmodellen anfangen, empfehlen wir einen klaren Pfad: Starte mit Hostinger KVM4 für 9,99 Euro pro Monat, weil der Einstieg innerhalb einer Stunde gelingt und die Hürde minimal ist. Du verlierst dabei nichts, weil der Vertrag monatlich kündbar ist und 30 Tage Geld-zurück-Garantie greifen. Falls du nach drei Monaten merkst, dass dein Anwendungsfall schwerer wird, kannst du auf KVM8 wechseln (19,99 Euro) oder doch lokale Hardware kaufen. Dieser Pfad hat das geringste Initialrisiko.
Wer schon technische Erfahrung hat, kein Problem mit der Linux-Kommandozeile sieht und nach Maximum-Performance pro Euro sucht, sollte Hetzner CX32 nehmen (11,79 Euro für 8 GB). Die Hardware ist bei Hetzner in einigen Tests messbar schneller, das Netzwerk in Falkenstein ist erstklassig angebunden und du hast den langjährigen Ruf eines deutschen Profi-Hosters auf deiner Seite. Der einzige Nachteil: Der Support ist nüchterner und du musst mehr selbst herausfinden.
Wer sicher weiß, dass er das Modell mehr als acht Stunden täglich nutzen wird, sollte direkt in lokale Hardware investieren. Ein Mac mini M4 mit 24 GB RAM ist hier der Sweet Spot: leise, energieeffizient, schnell genug für 7B- und 14B-Modelle, einmalig 1.299 Euro. Die effektive Belastung über vier Jahre liegt bei 27 Euro pro Monat (inklusive Strom), das ist günstiger als jede Cloud-API mit ähnlicher Nutzungsintensität. Plus: Du baust technisches Know-how auf, das später bei jeder weiteren KI-Entscheidung wertvoll ist.
Wer nur sporadisch nutzt, drei Anfragen pro Woche, Mailtexte, Recherche, sollte ehrlich zur Cloud-API greifen. GPT-4o-mini kostet selbst bei moderater Nutzung weniger als zehn Euro pro Monat und du sparst dir die Wartung. Wenn der Datenschutz nicht super-streng ist und du nur Standardtexte schreiben lässt, ist die Cloud-API die mit Abstand pragmatischste Lösung. Die anderen Modi für seltene Nutzung aufzubauen ist Overkill.
Und wer hybrid fahren will, etwa lokal für sensitive Sachen und VPS für die Server-App, kombiniert Hostinger plus Mac mini. Das ist ein typisches Setup für Selbstständige und kleine Agenturen: 9,99 Euro Fixkosten plus einmalige 1.299 Euro Hardware, ergibt eine Lösung mit starker DSGVO-Position, vollem Datenschutz für sensible Inhalte und gleichzeitig professioneller 24/7-Verfügbarkeit für externe Apps. Diese Kombination ist aus unserer Sicht die mit dem besten Preis-Leistungs-Verhältnis für ernsthafte Anwender.
Häufige Fehler bei der Wahl
Der erste klassische Fehler ist Überdimensionierung. Viele Einsteiger lesen, dass 70B-Modelle qualitativ nahe an GPT-4 herankommen, kaufen dann sofort einen M3 Max mit 64 GB RAM für über 4.000 Euro und stellen nach drei Monaten fest, dass die meisten Aufgaben auch mit einem 7B- oder 14B-Modell auf 24 GB RAM problemlos lösbar sind. Die Lehre: Starte klein, miss deinen tatsächlichen Bedarf, und skaliere erst nach echten Engpässen.
Der zweite Fehler ist Unterdimensionierung beim VPS. Wer einen KVM2 mit 4 GB RAM für 4,99 Euro nimmt und dann ein 7B-Modell laden will, wird mit Out-of-Memory-Fehlern oder extrem langsamen Quantisierungs-Stufen kämpfen. Für 7B-Modelle ist KVM4 mit 8 GB die untere Grenze, für Mixtral oder 14B-Modelle braucht es KVM8 mit 16 GB. Spar dir an der falschen Stelle nicht.
Der dritte Fehler ist die DSGVO-Blindheit bei Cloud-APIs. “Wir nutzen GPT-4 nur für interne Sachen” ist kein Plan, sondern eine Risikoposition. Sobald auch nur ein Mitarbeiter sensible Daten in den Prompt klebt, hast du eine ungewollte Datenübermittlung in die USA. Wer Cloud-APIs nutzen will, sollte das mit klaren Richtlinien, geschultem Personal und einer dokumentierten Anonymisierungs-Logik tun, sonst kommt das Bumerang.
Der vierte Fehler ist Vendor Lock-in. Wer alle Workflows fest auf OpenAI baut, ist in der nächsten Preisrunde wehrlos. Eine vorausschauende Architektur nutzt einen Adapter wie LiteLLM oder OpenAI-kompatible Endpoints überall, sodass du jederzeit von OpenAI auf Anthropic, auf Ollama lokal oder auf einen VPS-Endpoint umschalten kannst. Diese Flexibilität ist Gold wert, sobald sich Marktbedingungen ändern.
Der fünfte Fehler ist die unterschätzte Wartungslast bei lokal und VPS. Modell-Updates kommen alle paar Wochen, OS-Patches müssen eingespielt werden, Disk-Space muss verwaltet werden. Wer das nicht einplant, hat nach sechs Monaten ein verstaubtes Setup mit veralteter Software. Plane bewusst eine halbe Stunde pro Monat für Wartung ein, dann läuft es dauerhaft sauber.
Der sechste Fehler, den viele Einsteiger machen, ist die fehlende Backup-Strategie. Auf einem VPS ist jedes Modell, jede Konfiguration und jede gespeicherte Konversation potenziell weg, wenn der Provider eine Festplatte verliert oder du den falschen Befehl absetzt. Snapshots, externe Backups und regelmäßige Tests sind keine Kür, sondern Pflicht, sobald dein Setup mehr als reine Spielerei ist.
Nächster Schritt
Wenn dieser Vergleich dir geholfen hat, deine Richtung zu finden, vertiefe dich in die zwei nächsten Bausteine. Im Hardware-Guide bekommst du konkrete Modell-Empfehlungen für jeden Speicher- und Budgetrahmen, von 8 GB RAM bis 192 GB Mac Studio. Im Guide Sicherheit und DSGVO findest du eine schrittweise Anleitung, wie du dein VPS- oder Lokal-Setup datenschutzkonform absicherst, was bei einer Auftragsverarbeitung zu beachten ist und welche technischen Maßnahmen Behörden im Zweifel sehen wollen. Beide Lektionen ergänzen diese Cloud-vs-Lokal-Abwägung um die nächste Konkretisierungsstufe.
Häufige Fragen
Was ist günstiger - lokal, VPS oder Cloud-API?
Bei dauerhaftem Betrieb (mehr als 8 Stunden täglich): lokales Setup, weil keine variablen Kosten. Bei sporadischer Nutzung: Cloud-API, weil keine Hardware-Investition. VPS ist der Mittelweg ab 100k Tokens täglich oder bei Datenschutz-Druck.
Was kostet ein KVM-VPS für ein lokales LLM-Setup?
Hostinger KVM2 (4 GB RAM, 2 vCPU): 4,99 Euro/Monat - reicht für 3B-Modelle. KVM4 (8 GB, 4 vCPU): 9,99 Euro/Monat - 7B-Modelle. KVM8 (16 GB, 8 vCPU): 19,99 Euro/Monat - Mixtral 8x7B in Q4.
Funktioniert ein LLM auf einem VPS ohne GPU?
Ja - mit AVX2 oder AVX-512-CPU-Inferenz. Geschwindigkeit: 4 bis 12 Tokens/s je nach Modell und CPU. Für interaktive Chats grenzwertig, für Hintergrund-Jobs (Zusammenfassungen, RAG) absolut praktikabel.
Welche DSGVO-Vorteile hat ein VPS gegenüber Cloud-APIs?
Du hast die Datenhoheit, kein Auftragsverarbeitungsverhältnis mit OpenAI, kein Drittstaaten-Transfer in die USA. Standorte in Frankfurt oder Vilnius (EU) erfüllen DSGVO-Standards.
Wie schnell ist Cloud-API im Vergleich zu lokal?
GPT-4 und Claude liefern 50-100 Tokens/s. Lokales Llama 3.2 7B auf RTX 4070: 80-120 Tokens/s. Lokales Llama 3.3 70B auf M3 Max 64 GB: 8-12 Tokens/s. Cloud ist meist gleich schnell wie ein gutes lokales Setup.
Welche Hostinger-Alternative gibt es?
Hetzner CX22 (4,90 Euro/Monat, deutsches Datacenter), Netcup VPS 2000 (5,76 Euro/Monat), Strato Server. Hostinger ist im Test der einfachste Einstieg, Hetzner der robusteste Profi-Pfad.
Was passiert bei einem Strom- oder Internet-Ausfall?
Lokal: kein Internet, aber Strom-Ausfall stoppt das Modell. VPS: Internet-Ausfall trennt dich vom Modell. Cloud-API: beide Ausfälle stoppen die Nutzung. Robusteste Variante: lokales Setup auf Laptop mit Akku.
Lohnt sich ein VPS gegenüber Hetzner oder Strato?
Hostinger ist preislich vorne und hat einen freundlicheren Support für Einsteiger. Hetzner ist robuster und hat mehr Features für Profis. Netcup liegt dazwischen.
Kann ich auf dem VPS später eine GPU dazubuchen?
Bei Hostinger und Hetzner derzeit nein - GPU-VPS ist eine eigene Produktlinie und teurer (ab 200 Euro/Monat). Für Inferenz mit kleinen Modellen reicht CPU-VPS, für 70B-Modelle wirst du irgendwann lokale GPU brauchen.
Wann macht eine hybride Lösung Sinn?
Wenn du große Volumina hast: kleine Anfragen lokal beantworten, Spezialfälle (lange Kontexte, multimodale Inputs) per Cloud-API ergänzen. So nutzt du beide Welten.