W poniedziałek rano użytkownicy w wielu krajach zgłaszali problemy z dostępem do popularnych aplikacji i stron – od mediów społecznościowych, przez usługi finansowe, po platformy gier.
Awaria po raz kolejny obnażyła skalę uzależnienia internetu od jednego dostawcy infrastruktury. Jak stwierdziła Clare Duffy z CNN, AWS to prawdziwy "kręgosłup tak dużej części internetu", co pokazuje "jak bardzo kruchy może być internet, gdy pojawia się jedna awaria".
Globalna awaria internetu. Co wiemy
W poniedziałek nad ranem AWS odnotował awarię w regionie US-EAST-1 (północna Wirginia), jednym z głównych centrów danych firmy. Około 3:11 czasu wschodnioamerykańskiego (9:11 w Polsce) pojawiły się zwiększone błędy i opóźnienia, które wkrótce wpłynęły na działanie usług na całym świecie – w Ameryce Północnej, Europie i Azji.
Amazon poinformował, że jego inżynierowie natychmiast rozpoczęli naprawę awarii, jednak problem okazał się rozległy. Około godz. 6:00 (południe w Polsce) pojawiły się pierwsze oznaki przywracania usług, lecz nadal występowały błędy.
Celem ustabilizowania systemu, tymczasowo ograniczono liczbę żądań kierowanych do infrastruktury. Mimo to firma wciąż notowała podwyższony poziom błędów jeszcze przed południem czasu lokalnego.
Awarię udało się całkowicie opanować dopiero po południu. Około godz. 18:00 (północ w Polsce) systemy zaczęły wracać do normy. Amazon poinformował, że "wszystkie usługi AWS powróciły do normalnego działania.
Niektóre usługi, takie jak AWS Config, Redshift i Connect, nadal mają zaległości wiadomości, które zostaną przetworzone w ciągu najbliższych kilku godzin". Użytkownicy nadal doświadczali drobnych problemów, co – jak tłumaczyli eksperci – jest typowe przy tak dużej awarii.
Bezpośrednia przyczyna awarii
Amazon ustalił, że przyczyną awarii była usterka wewnętrzna w infrastrukturze firmy, a konkretnie błędy w systemie DNS obsługującym bazę danych DynamoDB – kluczowy element usług AWS.
Według komunikatu problemy z rozwiązywaniem nazw domen dla interfejsu API DynamoDB doprowadziły do kaskadowej awarii innych usług w regionie US-EAST-1. W efekcie aplikacje nie mogły odnaleźć właściwych zasobów ani danych.
Analiza wykazała, że przyczyną problemów był błąd w podsystemie monitorowania sieciowych równoważników obciążenia, które odpowiadają za zarządzanie ruchem między serwerami. W efekcie zapytania do bazy DynamoDB trafiały pod niewłaściwe adresy, co zakłóciło działanie wielu usług. Eksperci potwierdzili, że incydent miał charakter techniczny.
Jak podkreślił Steven Murdoch z University College London, "wygląda na to, że incydent został spowodowany przypadkowym błędem w obrębie AWS, a nie działaniem o złośliwych intencjach". AWS również zaznaczył, że była to typowa usterka technologiczna, bez oznak cyberataku.
Warto zaznaczyć, że region US-EAST-1 już wcześniej był źródłem poważnych awarii – podobne, choć mniejsze incydenty miały miejsce w 2020 i 2021 roku. Ponieważ północna Wirginia jest domyślnym węzłem dla wielu usług AWS, problemy w tym regionie mają wyjątkowo szeroki zasięg i wpływ na globalne działanie platformy.
Skala zakłóceń i dotknięte usługi
Poniedziałkowa awaria AWS poważnie zakłóciła działanie globalnego internetu. Pokazała też, jak wiele usług opiera się na infrastrukturze Amazonu.
Serwis Downdetector odnotował ponad 8 milionów zgłoszeń problemów, z czego 2 miliony w USA i 1 milion w Wielkiej Brytanii, a według danych Ookla awaria dotknęła ponad tysiąc usług i stron internetowych.
Nie działały lub działały niestabilnie popularne aplikacje - m.in. Snapchat, Reddit, Roblox, Fortnite, Coinbase, Robinhood, Signal, WhatsApp, Facebook, Epic Games i Supercell.
Problemy wystąpiły też w branży transportowej, finansowej i publicznej – miały je linie lotnicze (Delta Airlines), operatorzy telekomunikacyjni (AT&T, Vodafone), sieci fast-food (McDonald’s) oraz banki w Wielkiej Brytanii (Lloyds, Halifax, Bank of Scotland). Nawet Amazon.com, Ring i Alexa były chwilowo niedostępne, podobnie jak aplikacje płatnicze (Venmo) i narzędzia pracy zdalnej (Zoom).
Awaria uderzyła również w edukację – platforma Canvas, używana przez połowę uczelni w Ameryce Północnej, przestała działać, pozbawiając tysiące studentów i nauczycieli dostępu do materiałów.
Jak relacjonował prof. Damien P. Williams z Uniwersytetu Północnej Karoliny: - Obecnie nie mogę ocenić żadnych prac online, a moi studenci nie mają dostępu do swoich materiałów.
Podobne problemy zgłaszały szkoły i uczelnie w całych Stanach Zjednoczonych.
Reakcja Amazonu i przywracanie usług
Podczas awarii AWS regularnie publikował komunikaty w panelu Health, informując klientów o postępach prac w regionie US-EAST-1 i zapewniając, że zespoły techniczne "aktywnie pracują" nad rozwiązaniem problemu.
W trakcie napraw wprowadzono ograniczenia liczby żądań, by ustabilizować najbardziej obciążone elementy infrastruktury, co chwilowo powodowało wolniejsze działanie aplikacji.
Kluczowe komunikaty pojawiły się po południu, gdy sytuacja została opanowana. Około godz. 18:00 (północ w Polsce) AWS ogłosił pełne przywrócenie wszystkich systemów, zastrzegając, że niektóre usługi – m.in. AWS Config i Amazon Connect – potrzebują czasu na nadrobienie zaległości.
Firma zalecała czyszczenie pamięci podręcznej, aby odświeżyć połączenia, a większość użytkowników mogła korzystać z internetu normalnie następnego ranka.
AWS podkreślił, że incydent nie naruszył bezpieczeństwa danych klientów, a jedynie ograniczył dostępność usług. Rzecznik firmy przeprosił i zapewnił, że Amazon "dokłada starań, by ograniczyć skutki takich zdarzeń i usprawnić architekturę swoich systemów".
Komentatorzy zauważyli jednak, że firma nie wyjaśniła, dlaczego awaria ponownie dotknęła centrum danych w Wirginii.
Autorka/Autor: Jan Sowa
Źródło: CNN, Reuters, Guardian, AP, ThousandEyes
Źródło zdjęcia głównego: Shutterstock