GPU-Passthrough war jahrelang ein Thema fuer Enthusiasten und grosse Rechenzentren. 2026 hat sich das Bild deutlich verschoben: AI-Inferenz fuer interne Chat-Assistenten, Echtzeit-Transcoding fuer Frigate-NVR-Setups und VDI-Pools mit beschleunigtem Desktop sind im Mittelstand angekommen. Die Frage ist also nicht mehr “ob”, sondern “mit welcher Karte” — und wie weit man ohne dedizierten DGX-Server kommt.

Dieser Artikel zeigt, welche GPUs sich 2026 auf typischen Midrange-Plattformen wie Dell PowerEdge R760, HPE ProLiant DL380 Gen11 oder Supermicro SYS-741GE wirklich lohnen, wie das vfio-Setup unter Proxmox VE 8.4 sauber laeuft und ab welchem Auslastungsgrad sich die Karte gegenueber AWS- oder Hetzner-GPU-Miete amortisiert.

GPU-Klassen 2026: Was passt in einen Tower oder 2U-Rack?

Die spannende Frage fuer KMU ist nicht “welche H200-Konfiguration”, sondern was thermisch und elektrisch in einen vorhandenen Server passt. Single-Slot-Karten mit passiver Kuehlung und unter 75 Watt sind hier die Koenigsklasse, weil sie ohne PCIe-Stromstecker auskommen und die Server-Luefter sie problemlos bedienen.

Karte	VRAM	TDP	Slot	Strassenpreis 2026	Primaerer Use-Case
NVIDIA Tesla T4 (gebraucht)	16 GB GDDR6	70 W	1-Slot passiv	400-700 EUR	Transcoding, leichte Inferenz
NVIDIA L4	24 GB GDDR6	72 W	1-Slot passiv	2.400-2.900 EUR	LLM-Inferenz bis 13B, Transcoding
NVIDIA L40S	48 GB GDDR6	350 W	2-Slot passiv	8.500-10.500 EUR	LLM bis 70B, vGPU, Training
AMD Instinct MI210	64 GB HBM2e	300 W	2-Slot passiv	6.800-8.200 EUR	HPC, ROCm-Inferenz
NVIDIA RTX 6000 Ada	48 GB GDDR6	300 W	2-Slot aktiv	7.200-8.000 EUR	Workstation-VDI, CAD

Die T4 ist 2026 weiterhin der Geheimtipp fuer Frigate, Plex und Whisper-Transkription. Sie taucht regelmaessig gebraucht aus aufgeloesten Rechenzentren auf und laeuft mit dem aktuellen NVIDIA-Datacenter-Treiber 565.x ohne Tricks. Die L4 ist der direkte Nachfolger und sinnvoll, wenn Sie LLMs wie Llama 3.1 8B oder Mistral Small 3 quantisiert betreiben moechten.

IOMMU-Grundlagen und BIOS-Vorbereitung

Bevor eine Karte durchgereicht werden kann, muss das System die Voraussetzungen erfuellen. Das bedeutet: VT-d bzw. AMD-Vi im BIOS aktiv, “Above 4G Decoding” sowie “Resizable BAR” eingeschaltet und SR-IOV erlaubt, falls Sie spaeter vGPU planen.

Auf dem Proxmox-Host pruefen Sie zunaechst, ob IOMMU sauber initialisiert wird:

dmesg | grep -e DMAR -e IOMMU
# erwartete Ausgabe: DMAR: IOMMU enabled

# Gruppen auflisten
for d in /sys/kernel/iommu_groups/*/devices/*; do
  n=${d#*/iommu_groups/*}; n=${n%%/*}
  printf 'IOMMU Group %s: ' "$n"
  lspci -nns "${d##*/}"
done | sort -k3 -n

Wichtig ist, dass Ihre Ziel-GPU in einer eigenen Gruppe liegt — oder dass Sie alle Geraete der Gruppe gemeinsam durchreichen koennen. Wir haben in einem aktuellen Projekt eine L4 auf einem Dell R660 gesehen, bei der Audio-Funktion und GPU sauber separiert waren. Auf Consumer-Boards ist das oft nicht der Fall und erfordert den ACS-Override-Patch, von dem wir im Produktivbetrieb abraten.

vfio-pci Binding sauber konfigurieren

Damit der Host die Karte nicht selbst beansprucht, binden Sie sie an vfio-pci. In /etc/modprobe.d/vfio.conf:

options vfio-pci ids=10de:27b8,10de:22bd disable_vga=1
softdep nvidia pre: vfio-pci
softdep nouveau pre: vfio-pci

Die IDs ermitteln Sie via lspci -nn | grep -i nvidia. Anschliessend update-initramfs -u -k all und neu starten. Nach dem Reboot pruefen Sie mit lspci -nnk -d 10de:27b8, ob unter “Kernel driver in use” tatsaechlich vfio-pci steht.

Fuegen Sie der VM die GPU dann ueber die Proxmox-Web-Oberflaeche als PCI-Device mit aktivierten Optionen “PCI-Express” und “Primary GPU” hinzu. Fuer NVIDIA-Karten ab Turing ist args: -cpu host,kvm=off im VM-Config-File nicht mehr noetig — der Treiber 565.x akzeptiert die KVM-Umgebung problemlos.

Use-Case 1: AI-Inferenz mit Ollama und vLLM

Eine NVIDIA L4 mit 24 GB VRAM bewaeltigt 2026 erstaunlich viel. Wir haben auf einer Kundenumgebung folgende Werte gemessen:

Llama 3.1 8B (Q4_K_M) ueber Ollama: 78 Tokens/s, 9 GB VRAM
Mistral Small 3 24B (Q4): 22 Tokens/s, 17 GB VRAM
Qwen2.5 14B (FP8) ueber vLLM: 46 Tokens/s, 21 GB VRAM bei Batch=4

Fuer einen internen Coding-Assistenten oder eine RAG-Loesung mit 5-15 gleichzeitigen Nutzern reicht das in der Praxis. Wer 70B-Modelle in akzeptabler Geschwindigkeit oder Bild-Generierung mit Flux braucht, landet bei der L40S oder MI210.

Die AMD Instinct MI210 ist preislich attraktiv und mit ROCm 6.3 inzwischen erwachsen, hat aber weiterhin den Nachteil, dass viele AI-Tools NVIDIA-zentrisch bleiben. Wir empfehlen sie nur bei klarem HPC-Profil oder wenn die Kundschaft sehr auf Open-Source-Stack setzt.

Use-Case 2: Video-Transcoding und VDI

Frigate, Plex, Jellyfin und Immich profitieren massiv von NVENC. Eine einzelne T4 schafft etwa 20 parallele 1080p-Streams mit H.264 oder rund 12 mit H.265. Das ist fuer mittelstaendische Ueberwachungs-Setups mit 16-32 Kameras meist mehr als ausreichend.

Fuer VDI mit beschleunigtem Desktop ist die L4 mit NVIDIA vGPU 17.x die saubere Loesung. Eine Karte laesst sich in bis zu acht vGPU-Profile teilen (z.B. 8 x 3 GB fuer Office-Nutzer oder 2 x 12 GB fuer CAD-Anwender). Beachten Sie hier die Lizenzkosten — NVIDIA vWS schlaegt mit rund 350 EUR pro Nutzer und Jahr zu Buche.

Kosten: Eigene GPU vs. Cloud-Miete

Eine NVIDIA L4 kostet 2026 vollausgestattet im Server etwa 3.000 EUR. Eine vergleichbare g6.xlarge-Instanz bei AWS liegt bei rund 0,90 USD/Stunde, Hetzner bietet GPU-Server mit RTX 4000 SFF ab etwa 200 EUR/Monat.

Die Break-even-Rechnung ist ueberraschend klar: Wer eine GPU mehr als 12 Stunden am Tag produktiv nutzt, hat die Hardware nach etwa 14 Monaten amortisiert — inklusive Strom (70 W * 24 h * 365 d * 0,28 EUR/kWh = rund 172 EUR/Jahr). Fuer reine Test-Workloads oder unregelmaessige Last bleibt Cloud-Miete attraktiv. Fuer 24/7-Inferenz, Transcoding oder ein internes RAG-System gewinnt die Eigeninvestition deutlich.

Hinzu kommt der Datenschutz-Aspekt: Eine lokale L4 in der Virtualisierungs-Infrastruktur verarbeitet Kundendaten, ohne dass diese den Standort verlassen — ein nicht zu unterschaetzendes Argument bei DSGVO-sensitiven Branchen.

Fazit: Welche Karte fuer welchen Bedarf?

Fuer den klassischen Mittelstand ergibt sich 2026 ein recht klares Bild: Wer Transcoding und leichte AI-Aufgaben kombinieren moechte, kauft eine gebrauchte T4 oder eine neue L4 und ist mit 3.000 EUR dabei. Wer ernsthafte LLM-Inferenz fuer mehrere Mitarbeiter oder ein VDI-Pool plant, geht zur L40S. Die MI210 bleibt eine Nischenempfehlung fuer Linux-affine HPC-Umgebungen.

Wichtig ist immer der Gesamt-Stack: Eine GPU ist nur so gut wie die Storage-Anbindung darunter. Fuer AI-Workloads empfehlen wir konsequent NVMe-basierte TrueNAS-Pools oder lokale ZFS-Mirrors auf dem Proxmox-Node.

DATAZONE unterstuetzt Sie bei der Auswahl, Beschaffung und Integration der passenden GPU-Hardware — von der IOMMU-Analyse Ihres bestehenden Servers ueber die vfio-Konfiguration bis zum produktiven AI- oder VDI-Setup. Sprechen Sie uns an unter Kontakt, wenn Sie GPU-Beschleunigung in Ihre Proxmox-Umgebung holen moechten — ob als Pilot mit einer T4 oder als Vollausbau mit L40S und vGPU-Lizenzen.

Proxmox GPU-Passthrough auf Midrange-Servern: Welche Karten lohnen sich?

GPU-Klassen 2026: Was passt in einen Tower oder 2U-Rack?

IOMMU-Grundlagen und BIOS-Vorbereitung

vfio-pci Binding sauber konfigurieren

Use-Case 1: AI-Inferenz mit Ollama und vLLM

Use-Case 2: Video-Transcoding und VDI

Kosten: Eigene GPU vs. Cloud-Miete

Fazit: Welche Karte fuer welchen Bedarf?

Weitere Artikel

Hyper-V → Proxmox: Migration ohne Datenverlust

KI im Mittelstand: Wann lohnt sich eigene GPU-Hardware?

TrueNAS Snapshot-Strategien für VM-Storage

IT-Beratung gewünscht?