Сбой DNS-резолвера 1.1.1.1: как объясняет произошедшее компания Cloudflare

27 июня 2024 года пользователи по всему миру могли заметить недоступность или ухудшение работы DNS-резолвера 1.1.1.1 от Cloudflare, впервые запущенного в 2018 году. Причиной сталакомбинация захвата маршрутов через протокол BGP и утечка маршрутов.

Cloudflare активно использует инфраструктуру RPKI для валидации происхождения маршрутов. Эта система позволяет владельцам IP-префиксов безопасно хранить и обмениваться информацией о владении, а другим операторам – проверять объявления маршрутов по данным из ROA.

При правильном применении ROV и подписанных префиксах, как 1.1.1.0/24, влияние захвата маршрутов минимизируется. Однако, несмотря на внедрение RPKI, 1.1.1.1/32 был сгенерирован ELETRONET S.A. и принят несколькими сетями, включая одного из провайдеров Tier 1, что привело к недоступности DNS-резолвера из более чем 300 сетей в 70 странах.

Ситуацию усугубила утечка маршрутов 1.1.1.0/24 от Nova Rede de Telecomunicações, которая была широко распространена через Peer-1 Global Internet Exchange. Это также повлияло на пользователей.

Cloudflare принёс извинения за неудобства и заверил, что работает над улучшением методов обнаружения и быстрого реагирования на подобные инциденты. Компания также активно продвигает использование механизмов RPKI для предотвращения захватов и утечек маршрутов.

С момента запуска публичного DNS-резолвера 1.1.1.1, этот IP-адрес стал одним из самых популярных, но также далеко не раз становился источником различных проблем. Одной из таких проблем и являются захваты маршрутов через BGP.

Захват маршрутов происходит, когда сеть неверно объявляет префиксы, например, если сеть FooBar Networks присваивает 1.1.1.1/32 одному из своих маршрутизаторов и распространяет этот префикс за пределы своей сети. Это может привести к тому, что трафик к 1.1.1.1 попадёт не в Cloudflare, а в другую сеть, что приведёт к недоступности DNS-резолвера.

Утечки маршрутов происходят, когда сеть неправомерно объявляет маршруты, которые она не должна объявлять. Это может привести к перегрузке сети и увеличению задержек.

Инцидент начался 27 июня 2024 года, когда ELETRONET начал объявлять 1.1.1.1/32 своим клиентам и партнёрам. В это же время Nova Rede de Telecomunicações распространил 1.1.1.0/24, что усилило влияние утечки. Cloudflare оперативно отключил несколько точек подключения с ELETRONET, чтобы уменьшить влияние инцидента.

Cloudflare предпринял шаги для улучшения системы обнаружения утечек маршрутов и продолжает продвигать внедрение RPKI для валидации маршрутов. В долгосрочной перспективе компания намерена поддерживать внедрение как валидации происхождения маршрутов, так и валидации путей AS.

Инцидент с недоступностью DNS-резолвера 1.1.1.1 стал результатом захвата маршрутов и утечки маршрутов. Несмотря на внешнюю природу проблемы, Cloudflare активно работает над улучшением методов обнаружения и предотвращения таких ситуаций в будущем, а также поддерживает внедрение технологий RPKI для повышения безопасности интернета.

Public Release.