14 min Lesezeit

Hardware für lokale LLMs - Mac, Windows, Linux 2026 im Vergleich

Welche Hardware brauchst du für lokale Sprachmodelle? Konkrete RAM-, GPU- und CPU-Empfehlungen für Mac, PC und Linux mit Tokens/s-Werten.

Hardware ist der erste Hebel, wenn du lokale Sprachmodelle ernsthaft betreiben willst. Viele Anleitungen verkürzen die Antwort auf “GPU rein, fertig”. Das stimmt nicht. Die ehrliche Antwort lautet: Es kommt darauf an, welches Modell du fahren möchtest, wie viel RAM dein System hat, ob du Apple Silicon oder eine dedizierte GPU bevorzugst und wie viel Geräusch und Stromverbrauch du tolerierst. In dieser Lektion bekommst du konkrete Profile mit echten Tokens-pro-Sekunde-Werten, verständliche Empfehlungen für drei Anwendertypen und die typischen Fehler, die in Foren immer wieder auftauchen.

Die drei Hardware-Wege im Überblick

Du hast bei lokalen LLMs grundsätzlich drei realistische Hardware-Pfade. Jeder Pfad hat eigene Stärken, eigene Kompromisse und eigene Zielgruppen. Bevor du Geld ausgibst, lohnt es sich, ehrlich zu prüfen, welcher Pfad zu deinem Anwendungsfall passt. Die teuerste Lösung ist nicht zwingend die beste, weil viele Anwender nie ein 70B-Modell brauchen werden.

Der erste Pfad ist Apple Silicon. Seit dem M1 nutzt Apple eine Unified-Memory-Architektur, bei der CPU, GPU und Neural Engine sich denselben physikalischen Speicher teilen. Das ist für LLMs ein Glücksfall, weil du keine Modellgewichte zwischen System-RAM und VRAM hin- und herschaufeln musst. Ein Mac mini M4 mit 24 GB RAM verhält sich für ein 7B-Modell ähnlich wie eine Mittelklasse-GPU mit 16 GB VRAM, ist dabei aber leiser, energieeffizienter und schlüsselfertig.

Der zweite Pfad ist NVIDIA-GPU. Hier kaufst du dir rohe Inferenzgeschwindigkeit. Eine RTX 4090 mit 24 GB VRAM produziert im 7B-Bereich bis zu 150 Tokens pro Sekunde, ist aber laut, stromhungrig (450 Watt unter Last) und braucht ein dimensioniertes Netzteil. Außerdem musst du dich mit CUDA-Versionen, Treibern und Backend-Frameworks auseinandersetzen. Wer Geschwindigkeit über alles stellt und 70B-Modelle ernsthaft betreiben will, kommt um NVIDIA kaum herum.

Der dritte Pfad ist CPU-only. Klingt nach Verzweiflung, ist aber für Einsteiger und kleine Modelle absolut praktikabel. Mit einem modernen Ryzen 7 oder i7, AVX2- oder AVX-512-Befehlssatz und 32 GB DDR5-RAM bekommst du bei Llama 3.2 3B etwa 8 bis 12 Tokens pro Sekunde. Das reicht für Chatbots, Notizen-Zusammenfassungen oder Code-Vervollständigung in moderatem Tempo. Bei 7B-Modellen wird es mit 3 bis 5 Tokens pro Sekunde zäh, aber funktional.

Welcher Pfad für dich der richtige ist, hängt von drei Fragen ab: Hast du bereits einen Mac mit Apple Silicon? Brauchst du wirklich 70B-Modelle, oder reicht 7B bis 13B? Und wie tolerant bist du gegenüber Lüftergeräuschen und Stromrechnung? Wer auf alle drei Fragen klare Antworten hat, weiß bereits, welche Hardware er kaufen sollte.

Apple-Silicon-Setup (Mac mini, MacBook Pro, Mac Studio)

Apple Silicon ist 2026 die einfachste Option für lokale LLMs. Du installierst Ollama oder LM Studio, lädst ein Modell und es läuft. Keine Treiberkonflikte, keine CUDA-Versionen, keine BIOS-Updates. Die Unified-Memory-Architektur macht es möglich, dass du ein 70B-Modell auf einem Mac Studio mit 64 GB RAM laufen lassen kannst, ohne dir über VRAM Gedanken zu machen.

Der wichtigste Faktor bei Apple Silicon ist nicht der Chip-Generation, sondern die RAM-Menge. Ein M1 mit 16 GB schlägt einen M3 mit 8 GB bei Sprachmodellen jedes Mal, weil das Modell selbst der Engpass ist. Daher gilt die Regel: Lieber älterer Chip mit mehr RAM als neuester Chip mit knappem RAM. Ein M2 Pro mit 32 GB ist für LLM-Arbeit massiv besser positioniert als ein M4 mit 16 GB.

Die zweite wichtige Größe ist die Speicherbandbreite. Standard-M-Chips haben rund 100 bis 120 GB/s, Pro-Varianten 200 bis 270 GB/s, Max-Varianten bis zu 400 GB/s und Ultra-Chips erreichen 800 GB/s. Diese Bandbreite limitiert direkt deine Inferenzgeschwindigkeit, weil das Modell für jedes Token den vollen Gewichtsblock durch den Speicherbus jagen muss. Ein M2 Ultra mit 800 GB/s rendert 70B-Modelle deutlich schneller als ein M3 Pro mit 200 GB/s, obwohl der M3 Pro chiparchitektonisch jünger ist.

Die Neural Engine ist bei Inferenz übrigens weniger relevant als oft behauptet. Frameworks wie llama.cpp und Ollama nutzen primär die GPU-Kerne über Metal Performance Shaders. Die Neural Engine kommt vor allem bei Apple-eigenen ML-Workflows zum Einsatz. Was zählt, ist die Kombination aus GPU-Kern-Anzahl, RAM-Größe und Speicherbandbreite.

Für die meisten Nutzer ist ein Mac mini M4 mit 24 GB RAM die Sweet-Spot-Konfiguration. Du bekommst eine leise, energieeffiziente Maschine, die problemlos Llama 3.2 7B, Mistral 7B und Phi-3-Modelle in akzeptabler Geschwindigkeit fährt. Wer es ernster meint, geht zum MacBook Pro M3 Pro mit 36 GB oder zum Mac Studio M2 Max mit 64 GB. Letzterer fährt sogar 70B-Modelle in Q4-Quantisierung, wenn auch mit moderater Geschwindigkeit.

Eine Übersicht typischer Mac-Konfigurationen mit realistischen Tokens-pro-Sekunde-Werten:

Mac-Modell	RAM	Empfohlen für	Tokens/s Llama 3.2 3B
Mac mini M4 16 GB	16 GB	Einsteiger, 1B-3B	35-50
Mac mini M4 24 GB	24 GB	Allzweck bis 7B	30-45
MacBook Pro M3 Pro 36 GB	36 GB	13B und Mixtral	25-40
Mac Studio M2 Max 64 GB	64 GB	70B in Q4	8-12
Mac Studio M2 Ultra 192 GB	192 GB	Profi, 70B FP16	15-25

Beachte: Die Tokens-pro-Sekunde-Werte beziehen sich auf das 3B-Modell, weil das eine vergleichbare Bezugsgröße ist. Beim Mac Studio M2 Max sieht der Wert relativ niedrig aus, weil er hier als 70B-Treiber gemessen wurde, nicht als reine 3B-Maschine. Bei kleineren Modellen erreicht ein M2 Max problemlos 60 bis 80 Tokens pro Sekunde.

NVIDIA-GPU-Setup

Wenn du maximale Geschwindigkeit willst, führt kein Weg an NVIDIA vorbei. CUDA ist seit Jahren das ausgereifteste Ökosystem für LLM-Inferenz, und alle relevanten Frameworks (llama.cpp, vLLM, TGI, Ollama) sind hier am besten optimiert. Eine RTX 4090 mit 24 GB VRAM ist 2026 immer noch die Referenzkarte für Privatanwender, die ernsthaft mit Modellen arbeiten wollen. Die RTX 5090 ist verfügbar, aber der Preisaufschlag rechnet sich für die meisten Anwender nicht.

Die wichtigste Größe bei einer GPU ist nicht die Rechenleistung, sondern der VRAM. Ein 7B-Modell in Q4-Quantisierung braucht etwa 4,5 GB VRAM, ein 13B-Modell rund 8 GB, ein 30B-Modell etwa 18 GB, und ein 70B-Modell in Q4 belegt rund 40 GB. Sobald dein Modell nicht vollständig in den VRAM passt, beginnt die GPU mit dem System-RAM zu jonglieren, und die Geschwindigkeit bricht um Faktor 5 bis 10 ein. Daher gilt: Eine RTX 3060 mit 12 GB ist für 7B-Modelle besser als eine RTX 4070 mit 8 GB, obwohl die 4070 chipseitig schneller ist.

Beim CPU-Unterbau lohnt sich kein Premium. Ein Ryzen 5 7600 oder ein i5-13600K reicht völlig, weil bei NVIDIA-Setups der Großteil der Arbeit auf der GPU stattfindet. Wichtig ist genug System-RAM (mindestens 32 GB), eine schnelle NVMe-SSD für den Modell-Ladevorgang und ein dimensioniertes Netzteil. Eine RTX 4090 zieht 450 Watt unter Volllast und braucht mit Reserve ein 850-Watt-Netzteil. Wer hier spart, fängt sich Abstürze ein.

Die größte Herausforderung bei NVIDIA-Setups ist die Lautstärke. Eine RTX 4090 unter Volllast klingt wie ein Staubsauger im Zimmer. Wer im selben Raum schläft oder konzentriert arbeitet, muss entweder einen Tower-Kühler mit Custom-Lüftern bauen, ein Wasserkühlungs-Setup kaufen oder die Karte in einen separaten Raum verlegen. Apple-Silicon-Macs sind hier prinzipiell überlegen, weil sie geräuscharm bleiben.

Stromverbrauch ist der zweite Punkt. Eine RTX 4090 unter Dauerlast verbraucht in 8 Stunden rund 3,6 kWh. Bei 30 Cent pro kWh sind das 1,08 Euro pro Tag, hochgerechnet rund 32 Euro im Monat. Klingt wenig, summiert sich aber. Apple-Silicon-Macs verbrauchen unter Volllast 30 bis 60 Watt, das sind rund ein Zehntel.

Konkrete Karten und realistische Tokens-pro-Sekunde-Werte:

GPU	VRAM	Modelle	Tokens/s 7B
RTX 3060 12 GB	12 GB	Llama 3.2 7B Q4	50-70
RTX 4060 Ti 16 GB	16 GB	Llama 3.2 7B-13B	70-90
RTX 4070 Ti Super 16 GB	16 GB	Llama 3.2 11B Vision	90-120
RTX 4090 24 GB	24 GB	Llama 3.3 70B Q4 (Hybrid)	6-10

Die RTX 4090 zeigt in der Tabelle nur 6 bis 10 Tokens pro Sekunde, weil sie hier mit dem 70B-Modell im Hybrid-Modus gemessen wurde (Teile im VRAM, Teile im System-RAM). Bei reinem 7B-Betrieb erreicht sie 130 bis 160 Tokens pro Sekunde, also dreimal so schnell wie die RTX 3060. Wenn du dich also fragst, ob die 4090 den Aufpreis wert ist: Bei kleinen Modellen kaum, bei großen Modellen massiv.

CPU-only-Setup

CPU-only-Inferenz hat in den letzten zwei Jahren erstaunliche Fortschritte gemacht. Frameworks wie llama.cpp sind so optimiert, dass moderne Prozessoren mit AVX2- und AVX-512-Befehlssätzen 3B- und 7B-Modelle in akzeptabler Geschwindigkeit ausführen. Die magische Zutat heißt Quantisierung: Statt FP16-Gewichten lädst du Q4- oder Q5-Versionen, die ein Viertel der Größe haben und auf CPUs spürbar schneller laufen.

Der wichtigste Faktor bei CPU-Inferenz ist die RAM-Bandbreite, nicht die Kernzahl. Ein Ryzen 9 7950X mit 16 Kernen und DDR5-6000-RAM ist deutlich schneller als ein Threadripper mit 32 Kernen und DDR4-3200, weil die Modellgewichte sequenziell durch den Speicherbus müssen. DDR5 mit 6000 oder 6400 MT/s ist hier der Sweet Spot, und Dual-Channel-Bestückung ist Pflicht. Wer nur einen RAM-Riegel verbaut, halbiert die Bandbreite und damit die Geschwindigkeit.

AVX-512 macht einen messbaren Unterschied. Intels jüngere Generationen (12th Gen und später) und AMD ab Ryzen 7000 unterstützen es. llama.cpp nutzt AVX-512 automatisch, wenn verfügbar, und holt damit 20 bis 30 Prozent zusätzliche Performance heraus. Wer einen alten Xeon ohne AVX-512 hat, verschenkt diese Reserve.

Realistische Werte: Auf einem Ryzen 7 7700X mit 32 GB DDR5-6000 erreichst du bei Llama 3.2 3B Q4 etwa 10 bis 14 Tokens pro Sekunde, bei Llama 3.2 7B Q4 rund 5 bis 7 Tokens pro Sekunde. Bei 13B-Modellen wird es zäh: 2 bis 3 Tokens pro Sekunde fühlen sich beim Chatten wie zähes Tippen an. Modelle ab 30B sind auf reiner CPU nicht praktikabel, da sind selbst Hardcore-Geduldsmenschen frustriert.

Wer ein CPU-only-Setup baut, sollte trotzdem über eine günstige NVIDIA-Einsteiger-GPU nachdenken. Eine RTX 3060 mit 12 GB kostet gebraucht 200 bis 250 Euro und macht aus einem 5-Tokens-pro-Sekunde-Erlebnis ein 60-Tokens-pro-Sekunde-Erlebnis. Das ist der größte Leistungssprung pro Euro, den du bei lokalen LLMs bekommen kannst. CPU-only ist eine valide Übergangslösung, aber selten das langfristige Ziel.

Was du wirklich brauchst - drei realistische Profile

Statt Hardware-Theorie hier drei ehrliche Profile, die zu 80 Prozent aller Anwender passen. Wähle das Profil, das deinem Nutzungsfall am nächsten kommt, und du sparst dir wochenlanges Recherchieren in Foren und Reddit-Threads. Die Empfehlungen sind 2026er-Stand und bewusst konservativ kalkuliert.

Profil “Hobby-Tester”: Du willst einfach mal sehen, was lokale LLMs können, hast keinen konkreten produktiven Use-Case und willst maximal 1.500 Euro investieren. Empfehlung: entweder ein Mac mini M4 mit 16 GB RAM (rund 700 Euro) oder ein bestehender PC mit nachgerüsteter RTX 3060 12 GB (rund 250 bis 300 Euro). Beide Setups fahren 1B-, 3B- und 7B-Modelle problemlos. Du kannst Llama 3.2, Mistral 7B, Phi-3 und Gemma 2 ausprobieren und dir ein Bild machen, ob lokale LLMs für dich relevant sind. Wenn du nach drei Monaten merkst, dass du mehr willst, ist das Setup nicht verschwendet, weil du beide Geräte weiterverwenden kannst.

Profil “Power-User”: Du nutzt LLMs täglich, hast konkrete Use-Cases (Coding-Assistent, Research-Helfer, Content-Tools, Privacy-sensible Notizen) und willst auch 13B-Modelle und Mixtral fahren. Empfehlung: ein Mac mini M4 Pro mit 48 GB RAM (rund 2.200 Euro) oder eine Workstation mit RTX 4070 Ti Super 16 GB plus 32 GB RAM (rund 1.700 bis 2.000 Euro). Beide Setups fahren komfortabel Llama 3.2 11B Vision, Mixtral 8x7B in Q4 und Code-spezifische Modelle wie Qwen 2.5 Coder. Mac ist leiser und energieeffizienter, NVIDIA ist schneller bei einzelnen Anfragen.

Profil “Profi”: Du willst 70B-Modelle ernsthaft fahren, betreibst möglicherweise eine kleine API für Team oder Kunden und brauchst echte Zuverlässigkeit. Empfehlung: ein Mac Studio M2 Max mit 64 GB RAM (rund 3.200 Euro) oder eine Workstation mit RTX 4090 24 GB plus 64 GB System-RAM (rund 3.500 bis 4.000 Euro). Auf Mac läuft Llama 3.3 70B in Q4 mit 8 bis 12 Tokens pro Sekunde, auf RTX 4090 mit Hybrid-Offloading bei 6 bis 10 Tokens pro Sekunde. Wer richtig produktiv mit 70B-Modellen arbeitet, sollte über zwei RTX 4090 mit 48 GB Gesamt-VRAM nachdenken oder den Schritt zu professioneller Hardware wie der RTX A6000 mit 48 GB machen, dann sind es allerdings 5.000 Euro aufwärts.

Eine ehrliche Empfehlung am Rande: Wer unsicher ist, fängt mit dem Hobby-Tester-Profil an. Lokale LLMs sind cool, aber nicht jeder braucht sie täglich. Drei Monate mit einem 700-Euro-Setup zeigen dir, ob du investieren solltest, oder ob ein API-Abonnement bei einem Cloud-Anbieter eigentlich praktischer wäre. Es gibt keinen Mehrwert darin, eine RTX 4090 zu kaufen und sie dann 90 Prozent der Zeit ungenutzt im Tower stehen zu haben.

Speicher und Kühlung

NVMe-SSDs sind beim Modell-Ladevorgang relevanter, als oft gedacht. Ein 70B-Modell in Q4 wiegt rund 40 GB. Auf einer SATA-SSD mit 500 MB/s dauert das Laden 80 Sekunden, auf einer NVMe Gen3 mit 3.500 MB/s rund 12 Sekunden, auf einer NVMe Gen4 mit 7.000 MB/s nur 6 Sekunden. Wer häufig zwischen Modellen wechselt (z. B. spezialisierte Coding-Modelle und allgemeine Chat-Modelle parallel betreibt), spart pro Tag mehrere Minuten Wartezeit, wenn er auf moderne NVMe setzt.

Plane großzügig beim Speicherplatz. Eine ernsthafte LLM-Bibliothek belegt schnell 100 bis 200 GB, weil du oft mehrere Quantisierungs-Varianten desselben Modells parallel hältst (Q4 für Speed, Q8 für höhere Qualität, FP16 für Tests). Ein 1-TB-NVMe ist heute der absolute Mindeststandard, 2 TB sind komfortabler. Externe USB4-SSDs sind eine valide Option, kosten dich aber 20 bis 30 Prozent Lade-Performance gegenüber internen NVMes.

Kühlung wird unterschätzt. NVIDIA-GPUs unter Dauerlast erzeugen 400 bis 450 Watt Abwärme, das ist mehr als ein Heizlüfter im Sommerbetrieb. Im Sommer kann ein RTX-4090-PC ein Schlafzimmer um 3 bis 5 Grad aufheizen, wenn das Modell stundenlang läuft. Tower-Cases mit guter Belüftung (mindestens drei 140-mm-Lüfter), thermische Pads auf VRAM-Chips und im Idealfall AIO-Wasserkühlung helfen, das Throttling zu vermeiden. Bei Throttling fällt deine Inferenzgeschwindigkeit nach 5 bis 10 Minuten Dauerlast um 15 bis 25 Prozent ab.

Apple-Silicon-Macs haben diese Probleme nicht. Ein Mac mini M4 erreicht unter Volllast maximal 65 Grad Chip-Temperatur, der Lüfter bleibt im Hintergrund hörbar, aber nicht störend. Mac Studios mit aktiver Kühlung halten auch 70B-Modelle stundenlang stabil. Das ist ein nicht zu unterschätzender Komfortvorteil, besonders in Wohn- oder Schlafräumen.

Häufige Fehler

Erstens: Zu wenig RAM kaufen, weil der Chip neu ist. Ein M4 mit 16 GB ist eine schlechtere LLM-Maschine als ein M2 Pro mit 32 GB, obwohl der M4 chipseitig moderner ist. Bei lokalen LLMs ist RAM König. Wer einen Mac kauft, sollte beim ersten Schritt mindestens 24 GB RAM einplanen, und 32 GB sind die ehrliche Komfortzone.

Zweitens: GPU mit zu wenig VRAM kaufen. Eine RTX 4070 mit 8 GB VRAM klingt nach guter Mittelklasse, ist für 7B-Modelle in Q4 aber schon grenzwertig, weil neben dem Modell auch der KV-Cache und der Kontextfenster-Speicher hinein müssen. Bei langen Konversationen läuft der VRAM voll, und die Karte beginnt mit dem System-RAM zu jonglieren. Mindestens 12 GB VRAM, besser 16 GB oder 24 GB.

Drittens: Auf reine GPU-Rechenleistung statt VRAM-Größe optimieren. Wer eine RTX 4080 mit 16 GB einer RTX 3090 mit 24 GB vorzieht, weil sie Benchmark-mäßig stärker ist, macht für LLM-Anwendungen oft den falschen Schritt. Bei großen Modellen schlägt VRAM die Rechenleistung jedes Mal.

Viertens: Single-Channel-RAM verbauen. Bei DDR5-Systemen ist Dual-Channel Pflicht, sonst halbiert sich die effektive RAM-Bandbreite. Das hat besonders bei CPU-Inferenz dramatische Folgen. Immer zwei oder vier identische Riegel verbauen, niemals einen einzelnen.

Fünftens: Netzteil unterdimensionieren. Eine RTX 4090 plus modernes Mittelklasse-System braucht ein dimensioniertes 850-Watt-Netzteil mit 80-Plus-Gold-Zertifizierung. Wer hier ein 650-Watt-Bronze-Netzteil aus dem alten Build weiterverwendet, fängt sich unter Last Abstürze ein, die schwer zu diagnostizieren sind.

Sechstens: Kühlung vernachlässigen. Eine schlecht belüftete Tower-Workstation mit RTX 4090 erreicht nach 10 Minuten Volllast Throttling-Temperaturen. Mindestens drei 140-mm-Gehäuselüfter, ein guter CPU-Kühler und eine GPU mit Custom-Kühler sind die Basis. Wer es ernst meint, geht zur AIO-Wasserkühlung. Throttling kostet dich locker 20 Prozent Performance, ohne dass du es merkst.

Nächster Schritt

Du weißt jetzt, welche Hardware-Pfade es gibt, was sie kosten und welche realistischen Tokens-pro-Sekunde du erwarten kannst. Bevor du Geld ausgibst, lies die ehrliche Abwägung in Cloud vs. Lokal. Manchmal ist ein API-Abo wirtschaftlich sinnvoller als ein 3.000-Euro-Setup, das du selten nutzt. Wenn du dich für lokal entschieden hast, geht es mit dem Ollama Tutorial konkret an die Installation und das erste lauffähige Modell.

Häufige Fragen

Brauche ich zwingend eine GPU für lokale LLMs?

Nein. Auf Mac mit M-Chip läuft Inferenz über die Neural Engine ausreichend schnell. Auf Windows und Linux ohne GPU ist es deutlich langsamer (3 bis 8 Tokens/s), aber funktional.

Wieviel RAM ist das Minimum?

8 GB für 1B-3B-Modelle (z. B. Llama 3.2 3B), 16 GB für 7B-Modelle, 32 GB für komfortable Mehrfach-Modelle, 64 GB für 70B-Modelle in Q4.

Apple Silicon oder NVIDIA-GPU?

Apple-Silicon-Macs sind die einfachste, leiseste, energieeffizienteste Option. NVIDIA-GPUs sind die schnellste und besten für 70B-Modelle, aber laut, stromhungrig und teurer im Setup.

Lohnt sich AMD-GPU für lokale LLMs?

Bedingt. AMD ROCm wird besser, aber NVIDIA CUDA hat das ausgereiftere Ökosystem. Für Hobby-Nutzung ja, für ernsthaftes Setup eher NVIDIA oder Apple Silicon.

Wieviel Speicherplatz brauche ich?

Plane 100 bis 200 GB SSD für mehrere Modelle und Quantisierungs-Varianten. Modelle wachsen schnell: Llama 3.3 70B Q4 allein wiegt 40 GB.

Reicht ein 5 Jahre alter Laptop?

Für 1B-Modelle ja. Für 3B-7B nur, wenn er mindestens 16 GB RAM hat und einen modernen i5/i7 oder Ryzen-5/7-Prozessor. Mac mit M1 oder neuer ist die einfachste Garantie für funktionierendes Setup.

Warum ist VRAM so wichtig?

Wenn dein Modell vollständig in den GPU-Speicher passt, läuft Inferenz dramatisch schneller. Sobald du auf den System-RAM ausweichen musst, bricht die Geschwindigkeit zusammen. Daher: VRAM-Größe ist der Engpass, nicht GPU-Rechenleistung.

Was kostet ein gutes Setup?

Mac mini M4 mit 24 GB RAM: rund 1.300 Euro. Windows-PC mit RTX 4070 Ti Super und 32 GB RAM: ab 1.700 Euro. Workstation mit RTX 4090 und 64 GB: ab 3.500 Euro.