Festplattenausfall bei Software Raid

Geschrieben von andy • Dienstag, 17. März 2009 • Kategorie: combjuta

Gestern abend viel eine Platte in einem unserer bei Hetzner gehosteten Servern aus. Die md devices landeten alle nach und nach im Fehlerzustand. Grund genug ein Support Ticket bei Hetzner aufzumachen und um einen Plattentausch zu bitten.
Heute morgen wurde dann gleich ein Termin ausgemacht und die Platte wurde pünktlich und schnell wie immer von einem Hetzner Support Mitarbeiter getauscht.
Aber was dann?
Das Software Raid ist ja trotzdem noch degraded und benötigt erstmal Starthilfe:

Zunächst müssen die gültigen Partitionen von der noch funktionierenden Festplatte (in diesem Fall /dev/sda) auf die neue Festplatte kopiert werden. Ein simples dd der Partitionstabelle (# dd if=/dev/sda of=/dev/sdb count=1 bs=512) kopiert leider nur alle Partitionen bis zum Beginn der extended Partition. sfdisk wiederum kopierte zuverlässig alle Devices in der richtigen Größe (Was natürlich auch nicht unwichtig ist ;-) )

sfdisk -d /dev/sda | sfdisk /dev/sdb

Danach muss die Partitionstabelle neu eingelesen werden.
sfdisk -R /dev/sdb

Das funktioniert allerdings nur zuverässig wenn das Device nicht aktiv ist. Sind beispielsweise nur einige und nicht alle Partitionen auf der Festplatte defekt, so sollte man diese manuell in den Fehlerzustand versetzen und aus dem md raid removen:
device manuel failen: mdadm --manage /dev/md0 --fail /dev/sdb1

device removen: mdadm /dev/md0 -r /dev/sdb1


In meinem Fall wurde zu diesem Zeitpunkt die Platte von einem Servicetechniker in 15 Minuten getauscht und der Server war wieder online.
Nach kopieren der Partitionstabelle müssen nur noch die Partitionen dem md device hinzugefügt werden:
mdadm /dev/md0 -a /dev/sdb1

Danach sollte sofort der resync starten, prüfen kann man dies mit
cat /proc/mdstat

oder im Detail
mdadm --examine /dev/sdab1


Nähere Infos gibts im Hetzner-wiki oder bei howtoforge


Tags für diesen Artikel: , , , ,
| Top Exits (272)
650 Klicks
Twitter Bookmark Festplattenausfall bei Software Raid  at del.icio.us Facebook Google Bookmarks FriendFeed Digg Festplattenausfall bei Software Raid Technorati Festplattenausfall bei Software Raid wong it!

1 Trackbacks

  1. Vor kurzem schrieb ich über einen Festplatten Ausfall in einem Software Raid. Dieser Ausfall wurde einem Nagios Überwachungssystem gemeldet, mit welchem wir unsere Server überwachen. Als RAID Systeme kommen "normale" Linux Software Raids mit md devices

0 Kommentare

Ansicht der Kommentare: (Linear | Verschachtelt)
  1. Noch keine Kommentare

Kommentar schreiben


Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden.
CAPTCHA

Sie können [geshi lang=LANG][/lang] Tags verwenden um Quellcode abhängig von der gewählten Programmiersprache einzubinden
Markdown-Formatierung erlaubt



tweetbackcheck