Компания уточнила, что авария произошла из-за изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между центрами обработки данных Facebook. Их перенастройка вызвала проблемы, которые прервали связь. Нарушение сетевого трафика также оказало каскадное влияние на способы связи с центрами обработки данных, в результате чего внешние и внутренние сетевые услуги были остановлены.🤔
Facebook не пояснила, кто был инициатором изменений конфигурации маршрутизаторов и почему они были сделаны.🤷🏼♀️ Компания рассказала, что из-за сбоя перестали работать многие внутренние инструменты и системы, которые инженеры Facebook используют в повседневной работе, что серьезно усложнило попытки быстро диагностировать и решить проблему.
Специалисты компании занимались устранением сбоя, но не могли его решить оперативно. Оказалось, что для этого нужно физическое присутствие сетевых инженеров для устранения проблемы на маршрутизаторах в дата-центрах Facebook. Компания срочно направила группу специалистов в дата-центр в Санта-Кларе, чтобы попробовать вручную перезапустить сервера и разобраться с конфигурацией маршрутизаторов.
В это же время стало известно, что внутренняя сеть компании также стала недоступна, включая корпоративные сегменты, сервера DNS, сервисы и инструменты. Из-за этого специалисты не могли проникнуть внутрь периметра дата-центров — у них не срабатывали пропуски.😅
☝🏻Вся эта ситуация в очередной раз доказывает несостоятельность централизованной системы. Подобного никогда бы не произошло в децентрализованных свободных социальных сетях по типу Diaspora, Mastadon, GNUsocial.О многих из них я уже рассказывал в своих видео.
Их пользователи свободны от власти одной компании, каждый способен поднять собственный сервер, как и выбрать предпочитаемый, отключение которого, не заденет остальные, а вся инфраструктура имеет открытый исходный код.