Сбой Amazon в США едва не вывел из строя мировой интернет — разбор проблемы / NV

Автор: Артем Прокопенко

Ночная неисправность заставила «лечь» Snapchat, Canva, Duolingo и многие другие сервисы. Но почему проблема в одном звене тормозит интернет на целых континентах?

Как работает мировой интернет

Для полного понимания проблемы сначала стоит разобраться, чем на самом деле является интернет. А это — сложная, многослойная физическая архитектура, где сети и службы тесно переплетены и критически зависят друг от друга.

Когда вы открываете веб-страницу или стримите видео, ваше устройство сначала соединяется с локальной сетью — будь то домашний Wi-Fi, мобильный оператор или офисный LAN. Эта сеть подключена к вашему интернет-провайдеру (ISP).

А уже провайдер выводит вас на магистраль (или хребет) интернета — высокоскоростные глобальные сети, которые соединяют страны и континенты через оптоволоконные кабели, спутниковые или другие каналы. Ими, как правило, владеют или управляют крупные провайдеры с глобальным охватом, которые имеют прямые соглашения о взаимосвязи (пиринг или транзит) с другими гигантскими сетями.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

Проследим путь сообщения, скажем, из Киева до сервера где-то в Вирджинии. Пакет данных «прыгает» из вашей локальной сети к вашему интернет-провайдеру, оттуда — к региональному транзитному узлу.

Затем он попадает на одну или несколько тех же магистральных сетей, проходит через точку обмена трафиком и только тогда начинает обратный путь к серверу назначения. На каждом шаге данные обрабатывают разные компании, но чтобы вы не почувствовали никакой задержки, вся эта цепочка должна работать безупречно.

Почти 99% межконтинентального интернет-трафика передают подводные оптоволоконные кабели. К примеру, Internet Society сообщает о «около 559 систем подводных кабелей общей длиной 1,5 миллиона километров, соединяющих мельчайшие острова Тихого океана с крупнейшими экономиками Африки, Азии и Америки».

Эти кабели проложены по морскому дну, выходят на сушу на специальных «станциях приземления», подключаются к наземным сетям и далее маршрутизируют данные по всему миру. Почему именно оптоволокно, а не спутники? Все просто: волокно предлагает гораздо большую пропускную способность, значительно более низкую задержку и высокую надежность для плотного глобального трафика.

Впрочем, именно тотальная взаимозависимость инфраструктуры, которая дает глобальный доступ к сети, и является ее слабым местом. Система крайне уязвима в своих ключевых узлах.

Как сбои влияют на интернет

В марте 2024 года в Западной и Центральной Африке многочисленные повреждения подводных кабелей вызвали значительное замедление работы Интернета и перебои в его работе в таких странах, как Гана, Нигерия и Кот-д'Ивуар. Это также повлияло на мобильную связь.

Похожая ситуация произошла в регионе Красного моря в феврале 2024 года, когда были повреждены три подводных кабеля, что существенно повлияло на связь между Азией, Европой и Ближним Востоком. Центр стратегических и международных исследований (CSIS) написал, что этот инцидент «обнажил уязвимое подбрюшье мировой экономики».

Оптоволокно, лежащее на глубине нескольких километров, невозможно починить мгновенно. Его ремонт — это сложная логистическая операция, требующая специализированных кораблей и времени.

Но физические кабели — это еще полбеды в случае глобальной неисправности. Настоящий «эффект домино» включается на уровне сервисов, и именно он усиливает последствия любого сбоя. Современный интернет фактически стоит на плечах горстки гигантских облачных платформ и инфраструктурных служб. И когда «ложится» одна из них, последствия затрагивают тысячи, казалось бы, совершенно не связанных между собой сервисов.

Яркий пример — сегодняшний сбой в Amazon Web Services (AWS). Из-за него мгновенно остановились Duolingo, Facebook, Roblox, Signal, PlayStation, Zoom, Canva, Google, Fortnite, Viber, Snapchat и десятки других онлайн-сервисов. Не выдержал даже основной розничный сайт Amazon.

Как выяснилось, проблема возникла в системе доменных имен (DNS) в критически важном регионе AWS US-EAST-1 в Вирджинии, который отвечает за многие глобальные процессы. Так как инфраструктура множества компаний прямо или косвенно зависит от этого региона, локальный сбой в Вирджинии вызвал волну нестабильности по всему миру.

По данным Downdetector, сайта, который отслеживает перебои в интернете, пострадало более 1000 компаний по всему миру. Как пишет The Guardian, поступило 6,5 миллиона сообщений о проблемах от пользователей, в том числе более 1 миллиона в США и 400 тысяч в Великобритании. Провайдеры услуг — игровые приложения, финансовые платформы, коммунальные сервисы, онлайн-ритейл — начали массово сообщать об ошибках, тайм-аутах или полной деградации работы.

В конце концов в AWS указали на вероятного виновника: один из своих ключевых внутренних сервисов, управляемую базу данных NoSQL Amazon DynamoDB. Там «наблюдался значительный уровень ошибок для запросов» в том же регионе US-EAST-1. Другими словами, сами данные, вероятно, были в безопасности, но многочисленные клиенты просто не могли к ним получить доступ или запустить зависящие от них сервисы.

Около 6:35 утра по восточному времени Amazon объявил, что «основная проблема с DNS была полностью смягчена, и большинство операций сервисов AWS теперь работают нормально».

Впрочем, Amazon до сих пор не раскрыл первопричину неисправности. Публично известен лишь эпицентр сбоя, но точная цепочка событий — будь то программная ошибка, человеческий фактор или внешнее вмешательство — остается непонятной. И хотя сам сбой был относительно коротким, при нынешнем уровне тотальной зависимости от этих сервисов даже несколько часов простоя имеют критическое значение.

Почему интернет такой уязвимый

Но как локальная проблема так быстро заставляет напрячься полмира? Во-первых, современные цифровые сервисы, от мобильного банкинга до стриминга и игр, требуют мгновенного отклика с минимальной задержкой. Когда «ложится» ключевой узел, задержки стремительно растут, пакеты данных начинают теряться, и сервисы сначала «зависают», а потом и вовсе отключаются.

Из-за этой тотальной взаимозависимости трафик не может просто «перетечь» на резервный канал без последствий. Альтернативные маршруты мгновенно перегружаются, что лишь усугубляет ситуацию и может спровоцировать новые сбои.

К тому же общество банально привыкло к постоянной доступности сервисов. Когда уведомления не поступают, платежи не проходят, а приложения не загружаются, это вызывает мгновенный социальный и экономический шок. Из-за того же инцидента с повреждением кабелей в Африке банки должны были экстренно переходить на резервные каналы.

«Этот серьезный перерыв в работе интернета подчеркивает суровую реальность: бизнес-операции, связанные с одним критически важным поставщиком в регионе, могут привести к глобальной нестабильности», — объясняет Римеш Патель, киберспециалист и член Института техники и технологий.

Сегодняшний инцидент продемонстрировал, насколько опасно централизованным стал наш цифровой мир. Аварии могут возникнуть на на видимом пользователям уровне, а в самом ядре инфраструктуры: системе DNS, протоколах распознавания конечных точек или на слоях доступа к базам данных. Это значительно усложняет их обнаружение и устранение.

Вполне возможно, что в ближайшее время ведущие компании мира кардинально пересмотрят собственные стратегии устойчивости. Ведь большинство их сервисов до сих пор полагаются на архитектуру «одного региона» или «одного провайдера».

«То, что началось как перерыв в предоставлении услуг и распространилось наружу, потенциально ставя под угрозу ключевые системы в самом начале рабочей недели — это иллюстрация того, как каждая организация должна ставить на первое место устойчивость цепей поставок и инфраструктуры», — добавляет Римеш Патель.

Иначе в следующий раз, когда «ляжет» тот же US-EAST-1, миллионы людей снова проснутся без доступа к привычным интернет-услугам.

Когда завис Amazon. Как сегодняшний сбой едва не вывел из строя мировой интернет и почему

Как работает мировой интернет

Подпишитесь на NV Премиум и читайте без ограничений

Как сбои влияют на интернет

Почему интернет такой уязвимый