Катастрофа в один клик: как блокировка фишингового URL “поломала” Cloudflare R2

Неудачная попытка заблокировать фишинговый URL привела к крупному сбою в платформе облачного хранения Cloudflare R2, из-за чего десятки сервисов оказались недоступны почти на час.

Cloudflare R2 – это объектное хранилище, аналогичное Amazon S3, предназначенное для масштабируемого, отказоустойчивого и экономичного хранения данных. Сервис позволяет загружать и извлекать файлы без дополнительных затрат, обеспечивает совместимость с S3, дублирует данные в нескольких локациях и интегрируется с экосистемой Cloudflare.

Сбой произошёл, когда сотрудник компании откликнулся на жалобу о размещении фишингового URL в Cloudflare R2. Однако вместо блокировки конкретного ресурса была ошибочно отключена вся служба R2 Gateway, что привело к массовым перебоям.

“Во время стандартного процесса обработки жалоб была предпринята мера, которая случайно отключила службу R2 Gateway вместо отдельного конечного узла, указанного в жалобе”, – пояснили в Cloudflare.

Инцидент длился 59 минут – с 08:10 до 09:09 UTC. В это время были полностью недоступны: – Cloudflare Stream (100% сбой загрузки и воспроизведения видео), – Cloudflare Images (100% сбой загрузки и скачивания изображений), – Cache Reserve (100% сбой операций, что увеличило нагрузку на исходные серверы), – Vectorize (75% ошибок в запросах, 100% сбой операций вставки и удаления), – Log Delivery (потеря до 13,6% логов R2 и до 4,5% логов других сервисов), – Key Transparency Auditor (100% сбой публикации подписей и чтения данных).

Косвенно пострадали и другие сервисы: Durable Objects столкнулся с ростом ошибок на 0,09% из-за повторных подключений, Cache Purge зафиксировал 1,8% ошибок HTTP 5xx и десятикратный скачок задержек, а Workers & Pages испытали 0,002% сбоев при развёртывании проектов с привязкой к R2.

Cloudflare признала, что основной причиной сбоя стала не только человеческая ошибка, но и отсутствие защитных механизмов, предотвращающих критически важные действия. Компания уже внесла исправления: удалена возможность отключать системы через интерфейс обработки жалоб, а в API администратора добавлены ограничения, препятствующие отключению сервисов внутри корпоративных учётных записей.

В будущем Cloudflare намерена усилить контроль за учётными записями, внедрить более строгую систему доступа и ввести двухфакторное одобрение для выполнения потенциально рискованных действий.

Случай напомнил другой масштабный сбой в Cloudflare, произошедший в ноябре 2024 года, когда из-за ошибки конфигурации система автоматически активировала цепную реакцию отказов, приведшую к потере 55% логов за 3,5 часа.

Public Release.