Festplatten sterben nicht ploetzlich — sie kuendigen ihren Ausfall an. Das Problem: Ohne aktives Monitoring bemerken Sie die Warnsignale erst, wenn es zu spaet ist. ZFS Scrub und SMART-Monitoring sind die beiden Werkzeuge, die stille Datenverluste und drohende Hardwareausfaelle sichtbar machen, bevor Produktionsdaten betroffen sind.

Dieser Artikel zeigt, wie Sie beide Mechanismen auf TrueNAS korrekt einrichten, interpretieren und zu einer proaktiven Disk-Replacement-Strategie kombinieren.

Was ist Bit Rot und warum ist es gefaehrlich?

Bit Rot bezeichnet die schleichende Veraenderung gespeicherter Daten auf Festplatten oder SSDs — ohne Fehlermeldung, ohne Warnung. Ursachen sind magnetische Degradation, kosmische Strahlung oder Firmware-Fehler. Das Ergebnis: Ein einzelnes gekipptes Bit macht eine Datei unbrauchbar, ein Datenbank-Backup unlesbar oder ein VM-Image korrupt.

Herkoemmliche Dateisysteme wie ext4 oder NTFS erkennen Bit Rot nicht. Die Daten liegen auf der Platte, das Dateisystem meldet “alles in Ordnung” — und beim naechsten Restore stellen Sie fest, dass das Backup seit Monaten defekt war.

ZFS Checksumming: Jeder Block wird verifiziert

ZFS loest dieses Problem grundlegend. Jeder Datenblock erhaelt eine SHA-256-Pruefsumme, die im Metadaten-Baum gespeichert wird — getrennt von den eigentlichen Daten. Beim Lesen eines Blocks vergleicht ZFS die gespeicherte Pruefsumme mit der berechneten. Stimmen sie nicht ueberein, liegt ein Fehler vor.

In einem redundanten Pool (Mirror oder RAIDZ) kann ZFS den defekten Block automatisch aus einer intakten Kopie reparieren — voellig transparent fuer den Anwender. Das ist Self-Healing, eingebaut auf Dateisystem-Ebene.

Was ZFS Scrub macht

Ein Scrub ist die systematische Pruefung aller Datenbloecke im Pool. ZFS liest jeden Block, vergleicht die Pruefsumme und repariert Fehler automatisch aus Redundanzkopien.

Der entscheidende Unterschied zum normalen Betrieb: Im Alltag prueft ZFS nur Bloecke, die tatsaechlich gelesen werden. Bloecke, die monatelang nicht angeruehrt werden, bleiben ungeprueoft. Ein Scrub stellt sicher, dass auch diese Bloecke intakt sind.

Scrub in TrueNAS einrichten

TrueNAS erstellt standardmaessig einen monatlichen Scrub-Task. Fuer Produktionsumgebungen empfehlen wir ein kuerzeres Intervall:

Data Protection > Scrub Tasks > Add
  Pool:        tank
  Threshold:   14 (Tage)
  Schedule:    Jeden Sonntag, 02:00 Uhr

Alternativ per Cron auf der TrueNAS-Shell:

# Scrub alle 2 Wochen, Sonntag 02:00 Uhr
echo "0 2 * * 0 root zpool scrub tank" >> /etc/cron.d/zfs-scrub

Scrub-Ergebnisse interpretieren

Nach dem Scrub pruefen Sie den Status mit zpool status:

zpool status tank

Ein gesunder Pool zeigt:

  scan: scrub repaired 0B in 04:32:15 with 0 errors on Sun Mar 22 06:32:15 2026
config:

        NAME                                  STATE     READ WRITE CKSUM
        tank                                  ONLINE       0     0     0
          mirror-0                            ONLINE       0     0     0
            da0                               ONLINE       0     0     0
            da1                               ONLINE       0     0     0

Kritisch sind die Spalten READ, WRITE und CKSUM. Jeder Wert groesser als 0 erfordert Aufmerksamkeit:

Spalte	Bedeutung	Aktion
READ	Lesefehler auf dem Device	Disk-SMART pruefen, bei Wiederholung ersetzen
WRITE	Schreibfehler auf dem Device	Sofort untersuchen — moeglicher Controller- oder Kabeldefekt
CKSUM	Pruefsummenfehler (Bit Rot)	ZFS hat repariert, aber die Quelle muss gefunden werden

SMART-Monitoring: Die Hardware im Blick

Waehrend ZFS die Datenintegritaet auf logischer Ebene sichert, ueberwacht SMART (Self-Monitoring, Analysis and Reporting Technology) den physischen Zustand der Festplatten. SMART-Werte zeigen mechanischen Verschleiss, defekte Sektoren und Temperaturprobleme — oft Wochen bevor eine Platte endgueltig ausfaellt.

Kritische SMART-Attribute

Attribut	ID	Bedeutung	Schwellenwert
Reallocated_Sector_Ct	5	Ersetzte defekte Sektoren	> 0 beobachten, > 10 kritisch
Current_Pending_Sector	197	Instabile Sektoren, warten auf Reallocation	> 0 sofort pruefen
Offline_Uncorrectable	198	Nicht korrigierbare Sektoren	> 0 Disk ersetzen planen
UDMA_CRC_Error_Count	199	Uebertragungsfehler (Kabel/Controller)	> 0 Kabel pruefen
Temperature_Celsius	194	Betriebstemperatur	> 45 C kuehlen, > 55 C kritisch
Power_On_Hours	9	Betriebsstunden	Kontext fuer Verschleissbewertung

SMART-Tests in TrueNAS einrichten

TrueNAS bietet zwei Testarten:

Data Protection > S.M.A.R.T. Tests > Add
  Type:     SHORT (15-30 Minuten, woechentlich)
  Disks:    All Disks
  Schedule: Jeden Montag, 03:00 Uhr

Data Protection > S.M.A.R.T. Tests > Add
  Type:     LONG (2-8 Stunden, monatlich)
  Disks:    All Disks
  Schedule: Erster Samstag im Monat, 01:00 Uhr

Short-Tests pruefen die grundlegende Funktionsfaehigkeit und lesen das Error-Log. Long-Tests scannen die gesamte Plattenoberflaeche und finden Fehler, die Short-Tests uebersehen.

smartctl auf der Kommandozeile

Detaillierte SMART-Informationen erhalten Sie direkt per CLI:

# SMART-Gesamtstatus abrufen
smartctl -a /dev/da0

# Nur die kritischen Attribute anzeigen
smartctl -A /dev/da0 | grep -E "Reallocated|Pending|Uncorrectable|CRC|Temperature"

# Long-Test manuell starten
smartctl -t long /dev/da0

# Testergebnis abrufen
smartctl -l selftest /dev/da0

Alerting bei SMART-Fehlern

TrueNAS sendet standardmaessig E-Mail-Alerts bei SMART-Warnungen. Stellen Sie sicher, dass die Alert-Konfiguration aktiv ist:

System > Alert Settings > Email
  Empfaenger:  admin@example.com
  SMART:       Warning + Critical

Scrub + SMART kombinieren: Proaktiver Disk-Tausch

Die wirkliche Staerke liegt in der Kombination beider Mechanismen. ZFS Scrub erkennt logische Fehler (Bit Rot, Pruefsummenfehler), SMART erkennt physische Degradation (defekte Sektoren, mechanischer Verschleiss). Zusammen ergeben sie ein Fruehwarnsystem.

Wann muss eine Disk getauscht werden?

Situation	Dringlichkeit	Aktion
CKSUM-Fehler im Scrub, SMART OK	Mittel	Naechsten Scrub abwarten, bei Wiederholung tauschen
Reallocated_Sector_Ct steigt	Hoch	Ersatzdisk beschaffen, Tausch innerhalb 1-2 Wochen
Current_Pending_Sector > 0	Hoch	Disk unter Beobachtung, Resilver-Kapazitaet sicherstellen
CKSUM-Fehler + steigende SMART-Werte	Kritisch	Sofort tauschen — Platte faellt in Kuerze aus
Offline_Uncorrectable > 0	Kritisch	Sofort tauschen — Datenverlust bei weiterer Degradation
SMART Self-Test failed	Kritisch	Sofort tauschen

Faustregel: Ein einzelner Pruefsummenfehler im Scrub ist beobachtenswert. Steigende SMART-Werte in Kombination mit Scrub-Fehlern sind ein klares Signal fuer zeitnahen Disk-Tausch.

Monitoring mit DATAZONE Control

In einer produktiven TrueNAS-Umgebung reichen manuelle Checks nicht aus. Mit DATAZONE Control ueberwachen wir Scrub- und SMART-Status automatisiert und rund um die Uhr:

Scrub-Ueberwachung: Letzter Scrub-Zeitpunkt, Dauer, Fehleranzahl, ueberfaellige Scrubs
SMART-Trends: Zeitliche Entwicklung kritischer Attribute ueber Wochen und Monate
Schwellenwert-Alarme: Automatische Benachrichtigung bei steigenden Reallocated Sectors oder Pruefsummenfehlern
Disk-Lifecycle-Tracking: Betriebsstunden und Verschleisstrends fuer vorausschauende Ersatzplanung
Pool-Gesundheit: Gesamtstatus aller ZFS-Pools auf einen Blick

Durch die Trendanalyse erkennen wir Degradation nicht erst beim Ausfall, sondern Wochen im Voraus — und tauschen Disks proaktiv, bevor ein Rebuild unter Last noetig wird.

Fazit

Datenintegritaet passiert nicht von allein. ZFS Scrubs finden stille Datenfehler, die kein anderes Dateisystem erkennen wuerde. SMART-Monitoring zeigt den physischen Verschleiss, bevor er zum Ausfall fuehrt. Beide Mechanismen zusammen bilden die Grundlage fuer eine proaktive Storage-Strategie, die Datenverlust verhindert statt darauf zu reagieren.

Der Aufwand fuer die Einrichtung ist minimal — der Schutz, den Sie dadurch erhalten, ist erheblich.

Sie moechten Ihre TrueNAS-Umgebung mit professionellem Scrub- und SMART-Monitoring absichern? Kontaktieren Sie uns — wir richten proaktives Disk-Health-Monitoring ein und sorgen dafuer, dass Sie Festplattenausfaelle nie wieder ueberraschen.

ZFS Scrub und SMART: Datenintegritaet proaktiv sichern