Shit happens

Die Umbauarbeiten im Block East-1 waren im vollen Gange, als das System um 3:47 Uhr Lokalzeit dramatisch aus dem Ruder lief. Innerhalb weniger Sekunden ereignete sich eine Kettenreaktion aus Versagen und Verzögern, die schließlich das gesamte System und seiner Überwachungseinrichtungen lahm legte. Der größte anzunehmende Unfall nahm seinen Lauf. Wo? Nicht in Harrisburg, Tschernobyl oder Fukushima, sondern in Amazons Cloud-Rechenzentrum „East-1“ irgendwo im Norden Virginias. Karfreitag 2011 sollte zum Schwarzen Freitag für den Cloud-Spezialisten werden.

Natürlich ist es auf den zweiten Blick nicht ganz politisch korrekt, die Gefahren einer Kernschmelze im Atomreaktor mit den Gefährdungen eines Daten-Crashs im Cloud-Rechenzentrum gleichzusetzen – schließlich rangiert der Verlust von Daten auf der Schreckensskala weit, weit unterhalb der radioaktiven Verseuchung ganzer Landstriche. Aber die Fehleranalyse, die Amazon eine gute Woche nach dem österlichen Totalausfall in einem ihrer Rechenzentren liefert (http://aws.amazon.com/message/65648/) , erinnert in ihrem Deutungsversuch auf fatale Weise an die derzeit aktuellen Katastrophen: ein äußerst unwahrscheinliches Ereignis wurde durch die Verkettung widriger Umstände eingeleitet, begünstigt durch menschliches Versagen.

Insofern passt das „Easter-Outage in East-1“ in die aktuelle Aufbereitungsdiskussion um Wahrscheinlichkeiten und Scheinheiligkeiten von Katastrophenvorhersagen und Katastrophen­vorsorge. Am Ende triumphiert Murphys Gesetz oder wie es mit studentischen Schulterzucken der 1980er Jahre lautete: Shit happens. Auch die jetzt vorgeschlagenen Automatisierungsinvestitionen, mit denen Amazon diesen Fehler künftig unmöglich machen will, führen lediglich zu der Erkenntnis, dass „genau dieser Fehler“ damit unterbunden wird. Aber der nächste Daten-GAU wird nicht „genau so“, sondern allenfalls „ähnlich“ gelagert sein. Ja, schlimmer noch: die Automatisierungs­mechanismen selbst bergen womöglich den Keim für den nächsten Fehler in sich.

Das ist kein Fatalismus, das ist Realismus. Amazon musste seinen Business-Kunden nach elf Stunden Totalausfall und drei Tagen andauernder, weitgehend fehlgeschlagener Wiederherstellungsversuche die teure Wahrheit mitteilen, dass einige der Daten nicht rekapituliert werden konnten. Der Grund: Das Speichersystem in dem völlig überlasteten Netzwerk, auf das beim System-Upgrade versehentlich geroutet worden war, hatte nicht nur die aktuellen Daten, sondern auch ihre gespiegelten Kopien überschrieben. Natürlich erstaunt es, dass ein Eingriff, der mehr oder weniger als Routine angesehen werden darf, bei Amazon von Menschenhand erledigt wird. Aber zunehmende Automatisierung von Routinetätigkeiten ist ein naheliegender Reflex, nicht jedoch die Gewähr für absolute Sicherheit.

Das zeigt das Beispiel jener Unternehmen, die bei Amazon für ein Aufgeld sichergestellt haben, dass im Falle von Systemauffälligkeiten sofort auf ein zweites Rechenzentrum im Westen der Vereinigten Staaten umgeschaltet wird. Diese Kunden kamen mit einem kleinen Daten-Hicks davon. Aber, so warnen Systemexperten, hätte der Fehlerteufel in der Anwendungssoftware gesteckt, wäre es wahrscheinlich gewesen, dass nach East-1 auch das Data Center im Westen in Mitleidenschaft gezogen worden wäre. Auch das wäre übrigens in voller Übereinstimmung mit Murphys Law.

Also gar nicht schützen? Das wäre mit Sicherheit ebenso falsch geschlossen wie die jetzt populistisch vorgebrachte Generalabrechnung mit dem Cloud Computing an sich. 99,999 Prozent Ausfallsicherheit fordern die CIO der globalen Unternehmen für ihre eigenen Rechenzentren. Die Cloud ist wohl erst bei 99,9 Prozent – und das entspricht ziemlich genau elf Stunden pro Jahr.