RAID Monitoring mit Nagios

Geschrieben von andy • Mittwoch, 25. März 2009 • Kategorie: combjuta

Vor kurzem schrieb ich über einen Festplatten Ausfall in einem Software Raid.
Dieser Ausfall wurde einem Nagios Überwachungssystem gemeldet, mit welchem wir unsere Server überwachen. Als RAID Systeme kommen "normale" Linux Software Raids mit md devices und ein Server mit einem 3ware Hardware Raid (3ware Inc 8000-series) zum Einsatz.

Für das 3Ware Raid verwenden wir das check3wareraid von nagiosexchange.org. Dafür muss wie im Artikel beschrieben noch sudoers um "nagios ALL=(ALL) NOPASSWD: /path/to/check3wareraid" erweitert werden. Der Check selbst wird dann beispielsweise im nrpe Client über ein Wrapper Skript ausgeführt, welches ein "sudo /path/to/check3wareraid" ausführt.
Zur Ausführung benötigt man noch das 3ware Command Line Interface (CLI). Für Debian bekommt man das einfach über debian-unoffical mirror, der noch zu den apt-Sourcen hinzugefügt werden muss:

# For getting 3dm2-package for 3ware
deb http://ftp.debian-unofficial.org/debian sid main contrib non-free restricted

Nach einem
apt-get update && apt-get install 3ware-3dm2-binary 3ware-cli-binary

befinden sich die benötigten Binaries auf eurem Server und die Funktion lässt sich mit dem Aufruf von
twcli /c0 show

Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC
------------------------------------------------------------------------------
u0 RAID-1 OK - - 698.637 ON - -

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 698.63 GB 1465149168 5QD2DXQ8
p1 OK u0 698.63 GB 1465149168 5QD0XX6A

testen.

Software Raids werden mit dem einfachen check
md_raid überwacht. Dazu wird der Check einfach als command oder im nrpe Client hinzugefügt und ausgeführt. Allerdings schreit er schon mit Critical, wenn nur ein Device Critical ist, und dies kann man auch nicht konfigurieren oder auf bestimmte md devices eingrenzen.

Tags für diesen Artikel: , , ,
| Top Exits (555)
845 Klicks
Twitter Bookmark RAID Monitoring mit Nagios  at del.icio.us Facebook Google Bookmarks FriendFeed Digg RAID Monitoring mit Nagios Technorati RAID Monitoring mit Nagios wong it!

Festplattenausfall bei Software Raid

Geschrieben von andy • Dienstag, 17. März 2009 • Kategorie: combjuta

Gestern abend viel eine Platte in einem unserer bei Hetzner gehosteten Servern aus. Die md devices landeten alle nach und nach im Fehlerzustand. Grund genug ein Support Ticket bei Hetzner aufzumachen und um einen Plattentausch zu bitten.
Heute morgen wurde dann gleich ein Termin ausgemacht und die Platte wurde pünktlich und schnell wie immer von einem Hetzner Support Mitarbeiter getauscht.
Aber was dann?
Das Software Raid ist ja trotzdem noch degraded und benötigt erstmal Starthilfe:

Zunächst müssen die gültigen Partitionen von der noch funktionierenden Festplatte (in diesem Fall /dev/sda) auf die neue Festplatte kopiert werden. Ein simples dd der Partitionstabelle (# dd if=/dev/sda of=/dev/sdb count=1 bs=512) kopiert leider nur alle Partitionen bis zum Beginn der extended Partition. sfdisk wiederum kopierte zuverlässig alle Devices in der richtigen Größe (Was natürlich auch nicht unwichtig ist ;-) )

sfdisk -d /dev/sda | sfdisk /dev/sdb

Danach muss die Partitionstabelle neu eingelesen werden.
sfdisk -R /dev/sdb

Das funktioniert allerdings nur zuverässig wenn das Device nicht aktiv ist. Sind beispielsweise nur einige und nicht alle Partitionen auf der Festplatte defekt, so sollte man diese manuell in den Fehlerzustand versetzen und aus dem md raid removen:
device manuel failen: mdadm --manage /dev/md0 --fail /dev/sdb1

device removen: mdadm /dev/md0 -r /dev/sdb1


In meinem Fall wurde zu diesem Zeitpunkt die Platte von einem Servicetechniker in 15 Minuten getauscht und der Server war wieder online.
Nach kopieren der Partitionstabelle müssen nur noch die Partitionen dem md device hinzugefügt werden:
mdadm /dev/md0 -a /dev/sdb1

Danach sollte sofort der resync starten, prüfen kann man dies mit
cat /proc/mdstat

oder im Detail
mdadm --examine /dev/sdab1


Nähere Infos gibts im Hetzner-wiki oder bei howtoforge

Tags für diesen Artikel: , , , ,
| Top Exits (252)
595 Klicks
Twitter Bookmark Festplattenausfall bei Software Raid  at del.icio.us Facebook Google Bookmarks FriendFeed Digg Festplattenausfall bei Software Raid Technorati Festplattenausfall bei Software Raid wong it!

tweetbackcheck