Ein IT-Ausfall kostet kleine und mittlere Unternehmen durchschnittlich 5.600 Euro pro Minute. Serverausfall, Ransomware, Hardwaredefekt oder Naturkatastrophe — die Frage ist nicht ob, sondern wann ein Ernstfall eintritt. Disaster Recovery (DR) definiert, wie schnell Systeme wiederhergestellt werden und wie viele Daten maximal verloren gehen dürfen. Ein durchdachter DR-Plan macht den Unterschied zwischen einem beherrschbaren Zwischenfall und einer existenzbedrohenden Krise.
Zwei Kennzahlen, die alles bestimmen
RPO — Recovery Point Objective
Der RPO definiert den maximal tolerierbaren Datenverlust. Ein RPO von 1 Stunde bedeutet: Bei einem Ausfall dürfen maximal die Daten der letzten Stunde verloren gehen.
- RPO = 0: Kein Datenverlust toleriert → Synchrone Replikation, Cluster
- RPO = 1 Stunde: Stündliche Backups oder Snapshots
- RPO = 24 Stunden: Tägliches Backup reicht
- RPO = 1 Woche: Wöchentliches Backup (für Archivdaten)
RTO — Recovery Time Objective
Der RTO definiert die maximal tolerierbare Ausfallzeit. Ein RTO von 4 Stunden bedeutet: Die Systeme müssen spätestens 4 Stunden nach dem Ausfall wieder laufen.
- RTO = 0: Kein Ausfall toleriert → High Availability Cluster
- RTO = 1 Stunde: Hot-Standby-Systeme
- RTO = 4 Stunden: Restore aus lokalem Backup
- RTO = 24 Stunden: Restore aus Offsite-Backup
- RTO = 48+ Stunden: Hardware-Beschaffung nötig
RPO und RTO bestimmen gemeinsam die Kosten der DR-Strategie. Je kürzer beide Werte, desto teurer die Infrastruktur.
Risiken und ihre Auswirkungen
| Risiko | Wahrscheinlichkeit | Typische Ausfallzeit | Datenverlust |
|---|---|---|---|
| Hardwaredefekt (Festplatte, PSU) | Hoch | 2–8 Stunden | Gering (bei RAID) |
| Ransomware | Mittel-Hoch | 1–7 Tage | Hoch (ohne Offsite-Backup) |
| Software-Fehler/Update | Mittel | 1–4 Stunden | Gering |
| Stromausfall | Mittel | 0–2 Stunden | Minimal (bei USV) |
| Menschlicher Fehler | Mittel | 1–24 Stunden | Variabel |
| Brand/Wasserschaden | Niedrig | 1–4 Wochen | Total (ohne Offsite) |
| Provider-Ausfall | Niedrig | 2–24 Stunden | Keiner |
Disaster Recovery Maßnahmen nach Stufe
Stufe 1: Grundschutz (RPO 24h, RTO 24h)
Die absolute Basis, die jedes Unternehmen umsetzen sollte:
Tägliches Backup mit Offsite-Kopie:
- Proxmox Backup Server sichert alle VMs und Container täglich inkrementell
- TrueNAS-Replikation überträgt ZFS-Snapshots an einen zweiten Standort
- Restore-Test mindestens quartalsweise
USV (Unterbrechungsfreie Stromversorgung):
- Server und Netzwerk-Equipment an USV
- Mindestens 15 Minuten Überbrückungszeit für sauberes Herunterfahren
- Automatischer Shutdown bei längerem Ausfall
RAID-Redundanz:
- Keine Single-Disk-Systeme im Produktiveinsatz
- RAID-Z2 oder Mirror für alle Datenträger
- Ersatzplatten (Hot-Spare oder auf Lager) vorhalten
Kosten: Minimal — Proxmox Backup Server und TrueNAS sind Open Source, Hardware für ein Backup-System ab ca. 2.000 €.
Stufe 2: Erweitert (RPO 1h, RTO 4h)
Für Unternehmen, deren Geschäftsprozesse an der IT hängen:
Stündliche Snapshots:
- ZFS-Snapshots auf dem Produktivsystem (minutenschnell, platzsparend)
- Snapshot-Retention: stündlich für 24h, täglich für 30 Tage, wöchentlich für 12 Monate
Vorbereiteter Ersatz-Server:
- Ein zweiter Server mit Proxmox-Installation am Standort
- PBS-Backups können direkt auf dem Ersatz-Server restored werden
- Alternativ: Proxmox Cluster mit 2 Nodes
Dokumentation:
- Runbook mit Schritt-für-Schritt-Anleitung für jeden Wiederherstellungs-Fall
- Netzwerk-Topologie dokumentiert
- Zugangsdaten in verschlüsseltem Password-Manager (Offline-Kopie)
Kosten: Moderat — zweiter Server (~3.000–8.000 €), kein zusätzliches Software-Budget nötig.
Stufe 3: Hochverfügbar (RPO ~0, RTO <1h)
Für unternehmenskritische Systeme ohne tolerierbare Ausfallzeit:
Proxmox HA Cluster:
- 3-Node-Cluster mit Quorum
- Automatische VM-Migration bei Node-Ausfall
- Shared Storage (Ceph, TrueNAS iSCSI) oder repliziertes lokales Storage
Synchrone Replikation:
- ZFS Send/Receive im Minutentakt zwischen Nodes
- Proxmox Storage-Replikation zwischen Cluster-Nodes
- TrueNAS-Replikation mit minimaler Latenz
Georedundanz:
- Zweiter Standort mit eigenem Cluster
- Asynchrone Replikation über WAN (RPO: Minuten)
- DNS-Failover oder Load Balancing zwischen Standorten
Kosten: Signifikant — mindestens 3 Server, redundante Netzwerk-Infrastruktur, ggf. zweiter Standort.
Disaster Recovery mit Proxmox und TrueNAS
Proxmox Backup Server als Rückgrat
PBS bietet alles, was für DR nötig ist:
- Inkrementelle Backups: Nur geänderte Blöcke werden übertragen — stündliche Backups sind praktikabel
- Deduplizierung: Identische Datenblöcke werden nur einmal gespeichert — massiv Platzersparnis
- Encryption: Backups können client-seitig verschlüsselt werden — sicher auch auf entferntem Storage
- Verify: Automatische Integritätsprüfung aller Backups
- Fast Restore: Einzelne VMs oder Container in Minuten wiederherstellen
TrueNAS als Offsite-Ziel
TrueNAS mit ZFS eignet sich hervorragend als Offsite-Backup-Ziel:
- ZFS Replikation: Effiziente Block-Level-Replikation über SSH
- Immutable Snapshots: ZFS-Snapshots können als schreibgeschützt markiert werden — Ransomware-sicher
- Komprimierung: LZ4/ZSTD spart Bandbreite und Speicherplatz
- Alerting: TrueNAS warnt bei Replikationsfehlern
Beispiel-Setup für ein KMU
Standort A (Produktiv):
├── Proxmox VE Cluster (2-3 Nodes)
│ ├── Produktive VMs und Container
│ └── Lokaler PBS → Stündliche Backups
└── TrueNAS → ZFS-Snapshots alle 15 Minuten
Standort B (Offsite):
├── TrueNAS → Empfängt Replikation von Standort A
│ └── Immutable Snapshots (14 Tage Retention)
└── PBS Offsite → Empfängt verschlüsselte Backup-Sync
RPO: 15 Minuten (ZFS-Replikation) bis 1 Stunde (PBS) RTO: 1–4 Stunden (Restore auf Proxmox am Standort A oder B)
Der DR-Plan: Was hinein muss
Ein schriftlicher DR-Plan sollte folgende Punkte abdecken:
- Kontaktliste: Wer ist im Notfall erreichbar? (IT-Dienstleister, Geschäftsführung, Provider)
- Eskalationsstufen: Ab wann wird der DR-Plan aktiviert?
- Priorisierung: Welche Systeme werden zuerst wiederhergestellt? (ERP vor Wiki, E-Mail vor Archiv)
- Restore-Anleitung: Schritt-für-Schritt für jeden Server/Dienst
- Backup-Verifikation: Wo liegen die Backups? Wie wird zugegriffen?
- Hardware-Beschaffung: Wo wird im Notfall Ersatz-Hardware bestellt?
- Kommunikation: Wer informiert Kunden und Mitarbeiter?
- Test-Intervall: Wann wird der DR-Plan getestet?
Häufig gestellte Fragen
Was kostet ein Disaster-Recovery-Plan?
Die Planung selbst ist eine Investition von 1–3 Tagen Beratung. Die Infrastruktur (zweiter Server, Offsite-Storage) kostet typischerweise 5.000–15.000 € einmalig. Im Vergleich zu den durchschnittlichen Kosten eines mehrtägigen Ausfalls (50.000–500.000 €) eine lohnende Investition.
Wie oft sollte der DR-Plan getestet werden?
Mindestens jährlich ein vollständiger Restore-Test. Quartalsweise ein Teil-Test (einzelne VM wiederherstellen). Nach jeder größeren Infrastruktur-Änderung den Plan aktualisieren und testen.
Reicht ein Cloud-Backup als DR-Strategie?
Ein Cloud-Backup erfüllt das Offsite-Kriterium der 3-2-1-Regel. Aber: Der Restore aus der Cloud dauert je nach Datenmenge Stunden bis Tage (Bandbreiten-Limit). Für kurze RTOs ist ein lokaler Restore aus PBS deutlich schneller.
Was ist der Unterschied zwischen Backup und Disaster Recovery?
Backup sichert Daten. Disaster Recovery umfasst den gesamten Wiederherstellungsprozess: Server, Netzwerk, Dienste, Zugänge, Kommunikation. Ein Backup ohne DR-Plan ist wie eine Versicherung ohne zu wissen, wo die Police liegt.
Sie möchten einen Disaster-Recovery-Plan für Ihr Unternehmen erstellen? Kontaktieren Sie uns — wir analysieren Ihre Infrastruktur und implementieren eine Backup-Strategie passend zu Ihren RPO/RTO-Anforderungen.
Mehr zu diesen Themen:
Weitere Artikel
Backup-Strategie für KMU: Proxmox PBS + TrueNAS als zuverlässiges Backup-Konzept
Backup-Strategie für KMU mit Proxmox PBS und TrueNAS: 3-2-1-Regel umsetzen, PBS als primäres Backup-Target, TrueNAS-Replikation als Offsite-Kopie, Retention Policies und automatisierte Restore-Tests.
Proxmox Notification-System: Matcher, Targets, SMTP, Gotify und Webhooks
Proxmox Notification-System ab PVE 8.1 konfigurieren: Matcher und Targets, SMTP-Setup, Gotify-Integration, Webhook-Targets, Notification-Filter und sendmail vs. neue API.
TrueNAS mit MCP: KI-gestützte NAS-Verwaltung per natürlicher Sprache
TrueNAS mit MCP (Model Context Protocol) verbinden: KI-Assistenten für NAS-Verwaltung, Status-Abfragen, Snapshot-Erstellung per Chat, Sicherheitsaspekte und Zukunftsausblick.