Cloudflare 在其 R2 对象存储平台中试图封堵一个网络钓鱼 URL 时出现失误,引发了一场大规模故障,导致多个服务在近一个小时内瘫痪。

Cloudflare R2 是一种类似于亚马逊 S3 的对象存储服务,旨在提供可扩展、耐用且低成本的数据存储。它提供免费的数据检索、S3 兼容性、跨多个地点的数据复制以及 Cloudflare 服务集成。

故障发生在昨天,当时一名员工响应了一起关于 Cloudflare R2 平台中网络钓鱼 URL 的滥用报告。然而,该员工并未封堵特定端点,而是错误地关闭了整个 R2 网关服务。

Cloudflare 在事后分析中解释道:“在一次常规的滥用补救过程中,由于处理投诉时的失误,意外禁用了 R2 网关服务,而非与报告相关的特定端点/存储桶。” “这是多个系统级控制(首先是)和操作员培训的失败。”

该事件持续了 59 分钟,从世界协调时 08:10 到 09:09,除了 R2 对象存储本身外,还影响了以下服务:

  • Stream – 视频上传和流媒体传输 100% 失败。

  • Images – 图像上传/下载 100% 失败。

  • Cache Reserve – 操作 100% 失败,导致源请求增加。

  • Vectorize – 查询失败 75%,插入、更新和删除操作 100% 失败。

  • Log Delivery – 延迟和数据丢失:与 R2 相关的日志数据丢失高达 13.6%,非 R2 交付作业的数据丢失高达 4.5%。

  • Key Transparency Auditor – 签名发布和读取操作 100% 失败。

还有一些间接影响的服务出现了部分故障,例如 Durable Objects,由于恢复后的重新连接,其错误率增加了 0.09%;Cache Purge 错误增加了 1.8%(HTTP 5xx),延迟飙升了 10 倍;Workers & Pages 的部署失败率为 0.002%,仅影响具有 R2 绑定的项目。

Cloudflare 指出,人为错误以及缺乏诸如高影响操作的验证检查等防护措施是此次事件的关键原因。

这家互联网巨头现已实施了即时修复措施,例如在滥用审查界面中移除关闭系统的能力,以及在管理 API 中对内部账户的服务禁用进行限制。

未来还将实施的额外措施包括改进账户配置、更严格的访问控制,以及对高风险操作的双人审批流程。

2024 年 11 月,Cloudflare 曾经历另一次长达 3.5 小时的显著故障,导致服务中 55% 的日志不可逆丢失。

那次事件是由 Cloudflare 日志处理管道中的一个关键组件被错误配置引发的级联故障。

本文转载自https://hackernews.cc/archives/57167