AktualnościInternet wrócił do normy. To koniec problemów z AWS

Internet wrócił do normy. To koniec problemów z AWS

Wczorajsza awaria usług sieciowych Amazona doprowadziła do paraliżu znaczną część Internetu, a problem utrzymywał się przez większą część dnia. Teraz, na szczęście, sytuacja się uspokoiła, a wszystkie usługi powinny funkcjonować normalnie.

AWS
AWS
Źródło zdjęć: © Licencjodawca

Praktycznie każdy, kto miał wczoraj okazję przynajmniej na chwilę zawitać do sieci, odczuł na własnej skórze efekty awarii Amazon Web Services. Problemy dotyczyły regionu sklasyfikowanego jako US-EAST-1, a w ich wyniku utrudniony lub wręcz niemożliwy był dostęp do usług i serwisów pokroju Canvy, Reddita czy Snapchata. Co więcej, ucierpiały również gry sieciowe, w znacznej mierze te opierające się na serwerach Epic Games. Do ich grona można zaliczyć m.in popularnego Fortnite'a, a jego fani zostali zmuszeni do zrobienia sobie krótkiej przerwy od zabawy.

AWS znów działa

Amazon przekazał dobrą wiadomość, z której wynika, iż sytuacja została już opanowana, niemniej niesmak pozostał. Z informacji zamieszczonych na stronie statusu AWS wynika, że z bolączką udało się definitywnie uporać wczoraj w okolicach godz. 15:53 czasu PDT (czyli chwilę przed godziną 1 w nocy w Europie Centralnej). Jak możemy przeczytać:

O godz. 15:01 wszystkie usługi AWS powróciły do normalnego działania. Niektóre usługi, takie jak AWS Config, Redshift i Connect, nadal mają zaległości w przetwarzaniu wiadomości, które zostaną nadrobione w ciągu najbliższych kilku godzin.

AWS

Głównym winowajcą wydarzenia okazał się problem z rozpoznawanie nazw DNS dla regionalnych punktów końcowych usługi DynamoDB. Po jego wyeliminowaniu i rozpoczęciu procesu przywracania wystąpił inny, nieoczekiwany kłopot w postaci uszkodzenia wewnętrznego systemu EC2, który to odpowiada za "uruchamianie instancji EC2" i który to jest silnie zależny od DynamoDB.

Kiedy technicy Amazona zajęli się pracami naprawczymi EC2, pogorszeniu uległ stan modułu Network Load Balancer. To z kolei doprowadziło to do wystąpienia problemów z łącznością sieciową w licznych usługach, spośród których wyróżniono Lambdę, DynamoDB oraz CloudWatch. Koniec końców udało się odnaleźć skuteczne rozwiązanie, niemniej wymagało to zaangażowania wielu tęgich umysłów, które poświęciły kolektywnie tysiące godzin nad uporanie się z niespodziewanym zjawiskiem.

Szeroki zasięg awarii

Jak już wspomniano, wczorajsza awaria utrudniła korzystanie z wielu serwisów sieciowych. Prócz tych wymienionych w pierwszym akapicie wypada wspomnieć także o komunikatorze Signal, a nawet niektórych usługach Google.

Według informacji przetoczonych przez redakcje Reuters, zdarzenie z 20 października było największą awarią sieci od czasów ubiegłorocznego incydentu z udziałem CrowdStrike i przepchnięcia felernej aktualizacji, która wpędziła multum komputerów w nieskończoną pętlę uruchamiania się. Jest to też przy tym co najmniej trzeci raz, kiedy klaster AWS w północnej Wirginii, czyli wspomniany US-EAST-1, przysporzył ogromnych problemów i doprowadził do paraliżu Internetu. Ciekawostką jest, że to największe, a zarazem najstarsze, centrum danych obsługuje większość usług AWS – stąd też ogromna skala kłopotów.

Wielu analityków, korzystając z okazji, postanowiło podkreślić, że opisywanej sytuacji udałoby się uniknąć, gdyby tylko ogrom przedsiębiorstw i instytucji nie polegał na jednej, ewidentnie kruchej, usłudze.

Jakub Dmuchowski, redaktor pcformat.pl

Źródło artykułu:PC Format

Wybrane dla Ciebie