Heute schon Restart gemacht ..?
Wenn ein Server hängt, bleibt manchmal nur der Resetbutton. Steht der Server entfernt im Rechenzentrum, freut der Admin sich über eine komfortable Bedienoberfläche die mit einer solchen Resetfunktion ausgestattet ist. Aber eben nur manchmal.
Heute Nachmittag bekam ich eine nette SMS mit dem Inhalt “Nagios: Server xxxxxxx nicht erreichbar! … ”
Und tatsächlich, der Ping geht ins leere, SSH ist auch tot. Der betreffende Server steht im Rechenzentrum von 1&1.
Also kurz einloggen, und den Reset auslösen. Im Fenster nebenan läuft noch der Pingtest … ca. 10 Minuten später ein Lebenszeichen. Die Bedienoberfläche meint aber weiterhin, dass der Reset noch nicht durchgeführt wurde.
Nach dem wiedereinloggen per SSH und dem Routinemäßigen durchforsten der Logfiles musste ich feststellen, das der Server offensichtlich die ganze Zeit ordnungsgemäß lief. Ein Blick auf den Top offenbarte auch eine Uptime von 367 Tagen.
Also, der Reset wurde nicht durchgeführt. Daraufhin habe ich die 1&1 Hotline angerufen, um mich nach dem Grund zu erkundigen. Die erste Reaktion, keine Probleme im RZ. Nach meiner Schilderung, und der Nachfrage ob eventuell etwas am Switch nicht stimme, wurde dann aber schnell der Swich als Schuldiger ausgemacht.
Ok, kann ja vorkommen. Das Problem, der angestoßene Reset kann durch die Kollegen bei 1&1 nicht wieder entfernt werden. Nicht gerade die Antwort die ich hören wollte. Und so lief der Server dann noch geschlagene 4 Stunden, bis der Hotbutton zuschlug um den Server unsanft zu beenden.
Nicht gerade das beste für einen Datenbankserver, der eigentlich ganz tadellos läuft.
























apflux sagt
am 26. März 2008 @ 23:00
Wie lässt du dir die SMS von Nagios zuschicken?
Gibt es da ein kostenloses/preiswertes Gateway?
Nico sagt
am 10. Juni 2008 @ 14:45
Hm, das kommt mir bekannt vor! Hatte ich neulich auch, ein per Webiterface ausgelöster Reset ging ins Leere, als mich der Serverprovider dann über einen KVM-Switch aufgeschaltet hatte war meine Uptime immer noch dort wo sie sein sollte, der Reset ist einfach verpufft, aber zum glück gab es keinen Zeitverzögerten wie bei Dir.