Festplatten sterben nicht ploetzlich — sie kuendigen ihren Ausfall an. Das Problem: Ohne aktives Monitoring bemerken Sie die Warnsignale erst, wenn es zu spaet ist. ZFS Scrub und SMART-Monitoring sind die beiden Werkzeuge, die stille Datenverluste und drohende Hardwareausfaelle sichtbar machen, bevor Produktionsdaten betroffen sind.
Dieser Artikel zeigt, wie Sie beide Mechanismen auf TrueNAS korrekt einrichten, interpretieren und zu einer proaktiven Disk-Replacement-Strategie kombinieren.
Was ist Bit Rot und warum ist es gefaehrlich?
Bit Rot bezeichnet die schleichende Veraenderung gespeicherter Daten auf Festplatten oder SSDs — ohne Fehlermeldung, ohne Warnung. Ursachen sind magnetische Degradation, kosmische Strahlung oder Firmware-Fehler. Das Ergebnis: Ein einzelnes gekipptes Bit macht eine Datei unbrauchbar, ein Datenbank-Backup unlesbar oder ein VM-Image korrupt.
Herkoemmliche Dateisysteme wie ext4 oder NTFS erkennen Bit Rot nicht. Die Daten liegen auf der Platte, das Dateisystem meldet “alles in Ordnung” — und beim naechsten Restore stellen Sie fest, dass das Backup seit Monaten defekt war.
ZFS Checksumming: Jeder Block wird verifiziert
ZFS loest dieses Problem grundlegend. Jeder Datenblock erhaelt eine SHA-256-Pruefsumme, die im Metadaten-Baum gespeichert wird — getrennt von den eigentlichen Daten. Beim Lesen eines Blocks vergleicht ZFS die gespeicherte Pruefsumme mit der berechneten. Stimmen sie nicht ueberein, liegt ein Fehler vor.
In einem redundanten Pool (Mirror oder RAIDZ) kann ZFS den defekten Block automatisch aus einer intakten Kopie reparieren — voellig transparent fuer den Anwender. Das ist Self-Healing, eingebaut auf Dateisystem-Ebene.
Was ZFS Scrub macht
Ein Scrub ist die systematische Pruefung aller Datenbloecke im Pool. ZFS liest jeden Block, vergleicht die Pruefsumme und repariert Fehler automatisch aus Redundanzkopien.
Der entscheidende Unterschied zum normalen Betrieb: Im Alltag prueft ZFS nur Bloecke, die tatsaechlich gelesen werden. Bloecke, die monatelang nicht angeruehrt werden, bleiben ungeprueoft. Ein Scrub stellt sicher, dass auch diese Bloecke intakt sind.
Scrub in TrueNAS einrichten
TrueNAS erstellt standardmaessig einen monatlichen Scrub-Task. Fuer Produktionsumgebungen empfehlen wir ein kuerzeres Intervall:
Data Protection > Scrub Tasks > Add
Pool: tank
Threshold: 14 (Tage)
Schedule: Jeden Sonntag, 02:00 Uhr
Alternativ per Cron auf der TrueNAS-Shell:
# Scrub alle 2 Wochen, Sonntag 02:00 Uhr
echo "0 2 * * 0 root zpool scrub tank" >> /etc/cron.d/zfs-scrub
Scrub-Ergebnisse interpretieren
Nach dem Scrub pruefen Sie den Status mit zpool status:
zpool status tank
Ein gesunder Pool zeigt:
scan: scrub repaired 0B in 04:32:15 with 0 errors on Sun Mar 22 06:32:15 2026
config:
NAME STATE READ WRITE CKSUM
tank ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
da0 ONLINE 0 0 0
da1 ONLINE 0 0 0
Kritisch sind die Spalten READ, WRITE und CKSUM. Jeder Wert groesser als 0 erfordert Aufmerksamkeit:
| Spalte | Bedeutung | Aktion |
|---|---|---|
| READ | Lesefehler auf dem Device | Disk-SMART pruefen, bei Wiederholung ersetzen |
| WRITE | Schreibfehler auf dem Device | Sofort untersuchen — moeglicher Controller- oder Kabeldefekt |
| CKSUM | Pruefsummenfehler (Bit Rot) | ZFS hat repariert, aber die Quelle muss gefunden werden |
SMART-Monitoring: Die Hardware im Blick
Waehrend ZFS die Datenintegritaet auf logischer Ebene sichert, ueberwacht SMART (Self-Monitoring, Analysis and Reporting Technology) den physischen Zustand der Festplatten. SMART-Werte zeigen mechanischen Verschleiss, defekte Sektoren und Temperaturprobleme — oft Wochen bevor eine Platte endgueltig ausfaellt.
Kritische SMART-Attribute
| Attribut | ID | Bedeutung | Schwellenwert |
|---|---|---|---|
| Reallocated_Sector_Ct | 5 | Ersetzte defekte Sektoren | > 0 beobachten, > 10 kritisch |
| Current_Pending_Sector | 197 | Instabile Sektoren, warten auf Reallocation | > 0 sofort pruefen |
| Offline_Uncorrectable | 198 | Nicht korrigierbare Sektoren | > 0 Disk ersetzen planen |
| UDMA_CRC_Error_Count | 199 | Uebertragungsfehler (Kabel/Controller) | > 0 Kabel pruefen |
| Temperature_Celsius | 194 | Betriebstemperatur | > 45 C kuehlen, > 55 C kritisch |
| Power_On_Hours | 9 | Betriebsstunden | Kontext fuer Verschleissbewertung |
SMART-Tests in TrueNAS einrichten
TrueNAS bietet zwei Testarten:
Data Protection > S.M.A.R.T. Tests > Add
Type: SHORT (15-30 Minuten, woechentlich)
Disks: All Disks
Schedule: Jeden Montag, 03:00 Uhr
Data Protection > S.M.A.R.T. Tests > Add
Type: LONG (2-8 Stunden, monatlich)
Disks: All Disks
Schedule: Erster Samstag im Monat, 01:00 Uhr
Short-Tests pruefen die grundlegende Funktionsfaehigkeit und lesen das Error-Log. Long-Tests scannen die gesamte Plattenoberflaeche und finden Fehler, die Short-Tests uebersehen.
smartctl auf der Kommandozeile
Detaillierte SMART-Informationen erhalten Sie direkt per CLI:
# SMART-Gesamtstatus abrufen
smartctl -a /dev/da0
# Nur die kritischen Attribute anzeigen
smartctl -A /dev/da0 | grep -E "Reallocated|Pending|Uncorrectable|CRC|Temperature"
# Long-Test manuell starten
smartctl -t long /dev/da0
# Testergebnis abrufen
smartctl -l selftest /dev/da0
Alerting bei SMART-Fehlern
TrueNAS sendet standardmaessig E-Mail-Alerts bei SMART-Warnungen. Stellen Sie sicher, dass die Alert-Konfiguration aktiv ist:
System > Alert Settings > Email
Empfaenger: admin@example.com
SMART: Warning + Critical
Scrub + SMART kombinieren: Proaktiver Disk-Tausch
Die wirkliche Staerke liegt in der Kombination beider Mechanismen. ZFS Scrub erkennt logische Fehler (Bit Rot, Pruefsummenfehler), SMART erkennt physische Degradation (defekte Sektoren, mechanischer Verschleiss). Zusammen ergeben sie ein Fruehwarnsystem.
Wann muss eine Disk getauscht werden?
| Situation | Dringlichkeit | Aktion |
|---|---|---|
| CKSUM-Fehler im Scrub, SMART OK | Mittel | Naechsten Scrub abwarten, bei Wiederholung tauschen |
| Reallocated_Sector_Ct steigt | Hoch | Ersatzdisk beschaffen, Tausch innerhalb 1-2 Wochen |
| Current_Pending_Sector > 0 | Hoch | Disk unter Beobachtung, Resilver-Kapazitaet sicherstellen |
| CKSUM-Fehler + steigende SMART-Werte | Kritisch | Sofort tauschen — Platte faellt in Kuerze aus |
| Offline_Uncorrectable > 0 | Kritisch | Sofort tauschen — Datenverlust bei weiterer Degradation |
| SMART Self-Test failed | Kritisch | Sofort tauschen |
Faustregel: Ein einzelner Pruefsummenfehler im Scrub ist beobachtenswert. Steigende SMART-Werte in Kombination mit Scrub-Fehlern sind ein klares Signal fuer zeitnahen Disk-Tausch.
Monitoring mit DATAZONE Control
In einer produktiven TrueNAS-Umgebung reichen manuelle Checks nicht aus. Mit DATAZONE Control ueberwachen wir Scrub- und SMART-Status automatisiert und rund um die Uhr:
- Scrub-Ueberwachung: Letzter Scrub-Zeitpunkt, Dauer, Fehleranzahl, ueberfaellige Scrubs
- SMART-Trends: Zeitliche Entwicklung kritischer Attribute ueber Wochen und Monate
- Schwellenwert-Alarme: Automatische Benachrichtigung bei steigenden Reallocated Sectors oder Pruefsummenfehlern
- Disk-Lifecycle-Tracking: Betriebsstunden und Verschleisstrends fuer vorausschauende Ersatzplanung
- Pool-Gesundheit: Gesamtstatus aller ZFS-Pools auf einen Blick
Durch die Trendanalyse erkennen wir Degradation nicht erst beim Ausfall, sondern Wochen im Voraus — und tauschen Disks proaktiv, bevor ein Rebuild unter Last noetig wird.
Fazit
Datenintegritaet passiert nicht von allein. ZFS Scrubs finden stille Datenfehler, die kein anderes Dateisystem erkennen wuerde. SMART-Monitoring zeigt den physischen Verschleiss, bevor er zum Ausfall fuehrt. Beide Mechanismen zusammen bilden die Grundlage fuer eine proaktive Storage-Strategie, die Datenverlust verhindert statt darauf zu reagieren.
Der Aufwand fuer die Einrichtung ist minimal — der Schutz, den Sie dadurch erhalten, ist erheblich.
Sie moechten Ihre TrueNAS-Umgebung mit professionellem Scrub- und SMART-Monitoring absichern? Kontaktieren Sie uns — wir richten proaktives Disk-Health-Monitoring ein und sorgen dafuer, dass Sie Festplattenausfaelle nie wieder ueberraschen.
Mehr zu diesen Themen:
Weitere Artikel
Backup-Strategie für KMU: Proxmox PBS + TrueNAS als zuverlässiges Backup-Konzept
Backup-Strategie für KMU mit Proxmox PBS und TrueNAS: 3-2-1-Regel umsetzen, PBS als primäres Backup-Target, TrueNAS-Replikation als Offsite-Kopie, Retention Policies und automatisierte Restore-Tests.
Proxmox Notification-System: Matcher, Targets, SMTP, Gotify und Webhooks
Proxmox Notification-System ab PVE 8.1 konfigurieren: Matcher und Targets, SMTP-Setup, Gotify-Integration, Webhook-Targets, Notification-Filter und sendmail vs. neue API.
TrueNAS mit MCP: KI-gestützte NAS-Verwaltung per natürlicher Sprache
TrueNAS mit MCP (Model Context Protocol) verbinden: KI-Assistenten für NAS-Verwaltung, Status-Abfragen, Snapshot-Erstellung per Chat, Sicherheitsaspekte und Zukunftsausblick.