Sehr geehrte Kunden,

Wir möchten uns an dieser Stelle für den Totalausfall vom 12.7. entschuldigen. Grund dafür war ein Zusammentreffen unglücklicher Umstände. Wir haben einen zweistelligen Tausender Betrag in neue Hardware investiert. Genau um so einen Fall vorzubeugen. Aber genau diese Hardware ist nun trotzdem ausgefallen. Betroffen war unser Storage System – also im Grunde genommen die Festplatten auf denen unsere Server laufen. Passiert ist es dadurch, dass mehrere Probleme gleichzeitig aufgetreten sind, und daher das System obwohl es fehlertolerant ist, das nicht mehr ausgleichen konnte …

Diese Situation ist sozusagen der Super GAU. Wir standen am 12.7. in der Früh da und nichts funktionierte mehr.

Wir haben das Problem am 12.7. am Morgen bemerkt (der Ausfall war nach Mitternacht passiert) und sofort an der Wiederherstellung begonnen zu arbeiten. Die ersten Versuche richteten sich darauf den Storage wieder zum Laufen zu bekommen. Als klar war, dass das nicht mehr gelingt haben wir begonnen die Teile die am Storage noch verwendbar waren, umzukopieren und die fehlenden Teile wieder rückzusichern. Kurz nach Mittag war der Mailenable Server wieder verfügbar, am späteren Nachmittag die Webserver.

Bei Mailenable sollten keine Mails verloren gegangen sein. Die Mails die während des Ausfalls versendet wurden, wurden zugestellt als Mailenable wieder verfügbar war.  Das gleiche gilt für den Microsoft SQL Server. Auch hier gingen keine Daten verloren.

Beim Webserver sowie MySQL Datenbankserver sowie Microsoft Exchange mussten auf die Sicherungen von der Nacht davor (11.7.) zurückgestellt werden. Daten die zwischen 11.7. und 12.7. verändert wurden, gingen daher verloren.

Wir bedauern diesen Datenverlust sowie die relativ lange Ausfallzeit. Sind aber froh, dass wir dank der Sicherungen den Stand von 11.7. wieder herstellen konnten, und dass am gleichen Tag wieder so gut wie alles lief.

Wir sind derzeit am analysieren warum der Ausfall passiert ist (das wissen wir mittlerweile) – und vor allem wie man einen derartig katastrophalen Ausfall in Zukunft verhindern kann. Dass es dazu trotz unserer großen Investition in die Ausfallsicherheit unserer Systeme kommen konnte zeigt, dass Murphy tatsächlich ein Optimist war (Das 1. Murphysche Grundgesetz besagt, dass alles was schief gehen kann schief gehen wird).

Wir haben bereits einige Ideen wie wir unsere Infrastruktur noch weiter verbessern müssen. Beispielsweise hat die Software des Hardwareherstellers nicht erkannt, dass der Ausfall einer Harddisk vorlag (die Harddisk ist ausgefallen, der Controller und die Management Software des Servers melden sie aber noch immer als funktionsfähig).

Derzeit laufen unsere Server mit dramatisch verminderter Leistungsfähigkeit und daher höheren Antwortzeiten weil wir wieder auf alter Hardware laufen. Wir versuchen so rasch wie möglich wieder einen normalen Betrieb und Performance herzustellen sowie die weiteren Maßnahmen zur Erhöhung der Ausfallsicherheit umzusetzen.

Wir bedauern den Ausfall und ärgern uns selbst darüber, dass die Investitionen nicht den gewünschten Erfolg gebracht haben – sondern im Gegenteil eigentlich zu dem Ausfall beigetragen haben. Wir werden aber aus dem Problem lernen und versuchen derartige Fehler in Zukunft zu verhindern.

Herzlichen Dank für Ihr Vertrauen und Ihre Geduld
mit freundlichen Grüßen
Ihr CC Communications Team

ccc

CC Communications war einer der ersten Österreichsichen Internet Provider uns ist aus der Mailbox His Master's Voice hervorgegangen die bereits 1987 Online Dienste in Österreich angeboten hat. Wir Betreiben die Internet Dienste für ClubComputer

Letzte Artikel von ccc (Alle anzeigen)

Zur Werkzeugleiste springen