GPU-Passthrough war jahrelang ein Thema fuer Enthusiasten und grosse Rechenzentren. 2026 hat sich das Bild deutlich verschoben: AI-Inferenz fuer interne Chat-Assistenten, Echtzeit-Transcoding fuer Frigate-NVR-Setups und VDI-Pools mit beschleunigtem Desktop sind im Mittelstand angekommen. Die Frage ist also nicht mehr “ob”, sondern “mit welcher Karte” — und wie weit man ohne dedizierten DGX-Server kommt.
Dieser Artikel zeigt, welche GPUs sich 2026 auf typischen Midrange-Plattformen wie Dell PowerEdge R760, HPE ProLiant DL380 Gen11 oder Supermicro SYS-741GE wirklich lohnen, wie das vfio-Setup unter Proxmox VE 8.4 sauber laeuft und ab welchem Auslastungsgrad sich die Karte gegenueber AWS- oder Hetzner-GPU-Miete amortisiert.
GPU-Klassen 2026: Was passt in einen Tower oder 2U-Rack?
Die spannende Frage fuer KMU ist nicht “welche H200-Konfiguration”, sondern was thermisch und elektrisch in einen vorhandenen Server passt. Single-Slot-Karten mit passiver Kuehlung und unter 75 Watt sind hier die Koenigsklasse, weil sie ohne PCIe-Stromstecker auskommen und die Server-Luefter sie problemlos bedienen.
| Karte | VRAM | TDP | Slot | Strassenpreis 2026 | Primaerer Use-Case |
|---|---|---|---|---|---|
| NVIDIA Tesla T4 (gebraucht) | 16 GB GDDR6 | 70 W | 1-Slot passiv | 400-700 EUR | Transcoding, leichte Inferenz |
| NVIDIA L4 | 24 GB GDDR6 | 72 W | 1-Slot passiv | 2.400-2.900 EUR | LLM-Inferenz bis 13B, Transcoding |
| NVIDIA L40S | 48 GB GDDR6 | 350 W | 2-Slot passiv | 8.500-10.500 EUR | LLM bis 70B, vGPU, Training |
| AMD Instinct MI210 | 64 GB HBM2e | 300 W | 2-Slot passiv | 6.800-8.200 EUR | HPC, ROCm-Inferenz |
| NVIDIA RTX 6000 Ada | 48 GB GDDR6 | 300 W | 2-Slot aktiv | 7.200-8.000 EUR | Workstation-VDI, CAD |
Die T4 ist 2026 weiterhin der Geheimtipp fuer Frigate, Plex und Whisper-Transkription. Sie taucht regelmaessig gebraucht aus aufgeloesten Rechenzentren auf und laeuft mit dem aktuellen NVIDIA-Datacenter-Treiber 565.x ohne Tricks. Die L4 ist der direkte Nachfolger und sinnvoll, wenn Sie LLMs wie Llama 3.1 8B oder Mistral Small 3 quantisiert betreiben moechten.
IOMMU-Grundlagen und BIOS-Vorbereitung
Bevor eine Karte durchgereicht werden kann, muss das System die Voraussetzungen erfuellen. Das bedeutet: VT-d bzw. AMD-Vi im BIOS aktiv, “Above 4G Decoding” sowie “Resizable BAR” eingeschaltet und SR-IOV erlaubt, falls Sie spaeter vGPU planen.
Auf dem Proxmox-Host pruefen Sie zunaechst, ob IOMMU sauber initialisiert wird:
dmesg | grep -e DMAR -e IOMMU
# erwartete Ausgabe: DMAR: IOMMU enabled
# Gruppen auflisten
for d in /sys/kernel/iommu_groups/*/devices/*; do
n=${d#*/iommu_groups/*}; n=${n%%/*}
printf 'IOMMU Group %s: ' "$n"
lspci -nns "${d##*/}"
done | sort -k3 -n
Wichtig ist, dass Ihre Ziel-GPU in einer eigenen Gruppe liegt — oder dass Sie alle Geraete der Gruppe gemeinsam durchreichen koennen. Wir haben in einem aktuellen Projekt eine L4 auf einem Dell R660 gesehen, bei der Audio-Funktion und GPU sauber separiert waren. Auf Consumer-Boards ist das oft nicht der Fall und erfordert den ACS-Override-Patch, von dem wir im Produktivbetrieb abraten.
vfio-pci Binding sauber konfigurieren
Damit der Host die Karte nicht selbst beansprucht, binden Sie sie an vfio-pci. In /etc/modprobe.d/vfio.conf:
options vfio-pci ids=10de:27b8,10de:22bd disable_vga=1
softdep nvidia pre: vfio-pci
softdep nouveau pre: vfio-pci
Die IDs ermitteln Sie via lspci -nn | grep -i nvidia. Anschliessend update-initramfs -u -k all und neu starten. Nach dem Reboot pruefen Sie mit lspci -nnk -d 10de:27b8, ob unter “Kernel driver in use” tatsaechlich vfio-pci steht.
Fuegen Sie der VM die GPU dann ueber die Proxmox-Web-Oberflaeche als PCI-Device mit aktivierten Optionen “PCI-Express” und “Primary GPU” hinzu. Fuer NVIDIA-Karten ab Turing ist args: -cpu host,kvm=off im VM-Config-File nicht mehr noetig — der Treiber 565.x akzeptiert die KVM-Umgebung problemlos.
Use-Case 1: AI-Inferenz mit Ollama und vLLM
Eine NVIDIA L4 mit 24 GB VRAM bewaeltigt 2026 erstaunlich viel. Wir haben auf einer Kundenumgebung folgende Werte gemessen:
- Llama 3.1 8B (Q4_K_M) ueber Ollama: 78 Tokens/s, 9 GB VRAM
- Mistral Small 3 24B (Q4): 22 Tokens/s, 17 GB VRAM
- Qwen2.5 14B (FP8) ueber vLLM: 46 Tokens/s, 21 GB VRAM bei Batch=4
Fuer einen internen Coding-Assistenten oder eine RAG-Loesung mit 5-15 gleichzeitigen Nutzern reicht das in der Praxis. Wer 70B-Modelle in akzeptabler Geschwindigkeit oder Bild-Generierung mit Flux braucht, landet bei der L40S oder MI210.
Die AMD Instinct MI210 ist preislich attraktiv und mit ROCm 6.3 inzwischen erwachsen, hat aber weiterhin den Nachteil, dass viele AI-Tools NVIDIA-zentrisch bleiben. Wir empfehlen sie nur bei klarem HPC-Profil oder wenn die Kundschaft sehr auf Open-Source-Stack setzt.
Use-Case 2: Video-Transcoding und VDI
Frigate, Plex, Jellyfin und Immich profitieren massiv von NVENC. Eine einzelne T4 schafft etwa 20 parallele 1080p-Streams mit H.264 oder rund 12 mit H.265. Das ist fuer mittelstaendische Ueberwachungs-Setups mit 16-32 Kameras meist mehr als ausreichend.
Fuer VDI mit beschleunigtem Desktop ist die L4 mit NVIDIA vGPU 17.x die saubere Loesung. Eine Karte laesst sich in bis zu acht vGPU-Profile teilen (z.B. 8 x 3 GB fuer Office-Nutzer oder 2 x 12 GB fuer CAD-Anwender). Beachten Sie hier die Lizenzkosten — NVIDIA vWS schlaegt mit rund 350 EUR pro Nutzer und Jahr zu Buche.
Kosten: Eigene GPU vs. Cloud-Miete
Eine NVIDIA L4 kostet 2026 vollausgestattet im Server etwa 3.000 EUR. Eine vergleichbare g6.xlarge-Instanz bei AWS liegt bei rund 0,90 USD/Stunde, Hetzner bietet GPU-Server mit RTX 4000 SFF ab etwa 200 EUR/Monat.
Die Break-even-Rechnung ist ueberraschend klar: Wer eine GPU mehr als 12 Stunden am Tag produktiv nutzt, hat die Hardware nach etwa 14 Monaten amortisiert — inklusive Strom (70 W * 24 h * 365 d * 0,28 EUR/kWh = rund 172 EUR/Jahr). Fuer reine Test-Workloads oder unregelmaessige Last bleibt Cloud-Miete attraktiv. Fuer 24/7-Inferenz, Transcoding oder ein internes RAG-System gewinnt die Eigeninvestition deutlich.
Hinzu kommt der Datenschutz-Aspekt: Eine lokale L4 in der Virtualisierungs-Infrastruktur verarbeitet Kundendaten, ohne dass diese den Standort verlassen — ein nicht zu unterschaetzendes Argument bei DSGVO-sensitiven Branchen.
Fazit: Welche Karte fuer welchen Bedarf?
Fuer den klassischen Mittelstand ergibt sich 2026 ein recht klares Bild: Wer Transcoding und leichte AI-Aufgaben kombinieren moechte, kauft eine gebrauchte T4 oder eine neue L4 und ist mit 3.000 EUR dabei. Wer ernsthafte LLM-Inferenz fuer mehrere Mitarbeiter oder ein VDI-Pool plant, geht zur L40S. Die MI210 bleibt eine Nischenempfehlung fuer Linux-affine HPC-Umgebungen.
Wichtig ist immer der Gesamt-Stack: Eine GPU ist nur so gut wie die Storage-Anbindung darunter. Fuer AI-Workloads empfehlen wir konsequent NVMe-basierte TrueNAS-Pools oder lokale ZFS-Mirrors auf dem Proxmox-Node.
DATAZONE unterstuetzt Sie bei der Auswahl, Beschaffung und Integration der passenden GPU-Hardware — von der IOMMU-Analyse Ihres bestehenden Servers ueber die vfio-Konfiguration bis zum produktiven AI- oder VDI-Setup. Sprechen Sie uns an unter Kontakt, wenn Sie GPU-Beschleunigung in Ihre Proxmox-Umgebung holen moechten — ob als Pilot mit einer T4 oder als Vollausbau mit L40S und vGPU-Lizenzen.
Mehr zu diesen Themen:
Weitere Artikel
Hyper-V → Proxmox: Migration ohne Datenverlust
Konkrete Schritte für die Migration von Hyper-V-VMs nach Proxmox VE: VHDX-Konvertierung, VirtIO-Treiber, Boot-Modi, Lizenz-Aktivierung und Test-Strategie für einen reibungslosen Wechsel.
KI im Mittelstand: Wann lohnt sich eigene GPU-Hardware?
On-Prem-GPUs für KI sind kein Selbstzweck. Wann sich eine eigene Workstation oder ein GPU-Server tatsächlich lohnt, welche Hardware 2026 in Frage kommt und wie der Software-Stack aussehen sollte.
TrueNAS Snapshot-Strategien für VM-Storage
Spezifisch für VM-Storage: VM-konsistente vs. Crash-consistent Snapshots, TrueNAS- vs. Hypervisor-Snapshots, Dataset-Layout pro VM oder pro Pool, VM-aware Backup, Restore-Pfade, Retention-Trade-offs.