02.05.2011, 09:25 Uhr

Das führte zu Amazons Super-Gau

Amazon hat die Forensik zum EC2-Crash abgeschlossen und eine ausführliche Erklärung mit pflichtgemässer Entschuldigung gegenüber der Cloud-Kundschaft publiziert.
Bild: Fotolia
Interessierte können die ausfhrliche Beschreibungauf der AWS-Webseite (Amazon Web Services) nachlesen. Die Kurzfassung: Der Ausfall war die Folge eines falsch ausgeführten Upgrades der Netzkapazität für den Dienst Elastic Block Store (EBS). Als ein Router dafür kurzzeitig vom Netz genommen wurde, leitete Amazon den Traffic versehentlich auf ein deutlich schwächeres Ersatznetz um. Die Folge war eine Kettenreaktion von Störungen, die schliesslich sogar die EBS-Control-Plane, weitere Availability Zones und den Relational Database Service (RDS) in Mitleidenschaft zog. Die Reparatur war überdies komplizierter und langwieriger als gedacht - unter anderem weil in den am stärksten betroffenen EBS-Cluster eine grosse Menge zusätzlicher Massenspeicher für Repliken integriert werden musste. Aufgrund der «Verkettung widriger Umstände» konnten letztlich 0,07 Prozent der EBS-Volumes in der betroffenen Availability Zone und draus resultierend 0,4 Prozent der Single-AZ-RDS-Datenbanken nicht vollständig wiederhergestellt werden. Zumindest für die RDS-Datenbanken gab es aber bei automatischem Backup (Default-Einstellung) die Option eines Point-in-Time-Restore. Amazon will nun verschiedene Schritte unternehmen, um zu verhindern, dass ein ähnlicher Ausfall nochmals vorkommt. Dazu gehören neben einem Audit der Change-Prozesse vor allem technische Massnahmen, um Software und Services fehlertoleranter zu machen. AWS-Kunden sollen künftig ausserdem einfacher mehrere Availability Zones verwenden können. Ferner verspricht das Unternehmen eine schnellere Recovery und last, but not least eine schnellere und ausführlichere Kommunikation bei Problemen. Allen Kunden, die in der hauptsächlich betroffenenen Availability Zone in der US East Region ein EBS-Volume attached oder eine RDS-Datenbank laufen hatten, schreibt Amazon automatisch zehn Tage EBS-Volume-Nutzung unter Volllast gut. «Zu guter Letzt wollen wir uns entschuldigen», schreibt das AWS-Team abschliessend. «Wir wissen, wie wichtig unsere Services für die Geschäfte unserer Kunden sind, und wir werden alles tun was wir können, um aus diesem Vorfall zu lernen und unsere Dienste zu verbessern. Wie bei jedem grösseren Betriebsproblem werden wir in den kommenden Tagen und Wochen viele Stunden damit verbringen, die Details der verschiedenen Teile dieser Panne noch besser zu verstehen und festzulegen, was wir verändern müssen, um unsere Services und Prozesse zu verbesern.»



Das könnte Sie auch interessieren