Server-Ausfall Amazon S3: Warum die Cloud stillstand | Kommentar

Am 28. Februar kam es beim Amazon S3-Cloud-Storage-Dienst innerhalb der USA zu einer Störung der Infrastruktur, die zur Folge hatte, dass entsprechende Webseiten kurzfristig nicht mehr verfügbar waren. 

Grund dafür war laut Amazon der Tippfehler eines Mitarbeiters, der statt eines einzelnen Servers gleich mehrere vom Netz nahm, was zu einer Kettenreaktion führte. Catchpoint hat die Situation analysiert und eruiert, wie derartige Ausfälle in Zukunft verhindert werden können.

Anzeige

„Unsere Versuche, eine Verbindung herzustellen, wurden jeweils nach 21 Sekunden abgebrochen“, sagt Robert Castley, Senior Performance Engineer bei Catchpoint. „Diese 21 Sekunden markieren den Standard-Timeout der Windows TCP Socket Connection. Unsere Tests zeigen, dass die DNS-Resolution zwar erfolgreich war, von S3 jedoch keine Antwort kam. Der Ausfall der TCP Socket Connection hatte den entscheidenden Einfluss auf alle Dienste, die über S3 laufen, an der Ostküste der USA.“

Dieser Vorfall zeigt, dass Unternehmen grundsätzlich mit Server-Ausfällen rechnen müssen und sich entsprechend strategisch darauf einstellen müssen. Medhi Daoudi, CEO bei Catchpoint, empfiehlt für die Zukunft deshalb folgende Vorsichtsmaßnahmen: „Wichtig ist, dass Unternehmen sowohl ihre eigenen Services als auch die von Drittparteien ständig im Blick haben. Dadurch erkennen sie Probleme ihrer Performance zeitnah und können sich frühzeitig darum kümmern. Sie benötigen einen Plan, wie sie ihren Kunden trotz möglicher Server-Ausfälle ihre Services wie gewohnt zur Verfügung stellen können – möglichst so, dass diese davon nicht beeinträchtigt werden. Die Einbeziehung mehrerer Cloud-Anbieter anstelle einer einzigen Cloud wäre hier eine Möglichkeit.“

www.cathpoint.com

 

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.