当前位置：首页 > 网络安全

Cloudflare R2 服务中断事件：密码轮换错误引发全球故障

Cloudflare近日宣布，服发全其R2对象存储及相关服务发生了一次持续1小时7分钟的中误引中断事件，导致全球范围内出现100%的断事写入失败和35%的读取失败。Cloudflare R2是码轮一项可扩展的、与S3兼容的换错对象存储服务，提供免费数据检索、球故多区域复制以及与Cloudflare的服发全深度集成。

此次事件发生在UTC时间21:38至22:45之间，云计算中误引据称是断事由于凭证轮换错误导致R2 Gateway（API前端）失去了对后端存储的认证访问权限。具体而言，码轮新凭证被错误地部署到了开发环境而非生产环境，换错而当旧凭证被删除后，球故生产服务便失去了有效的服发全凭证。

故障原因与处理过程

问题的中误引根源在于遗漏了一个命令行标志--env production，该标志的断事作用是将新凭证部署到生产环境的R2 Gateway Worker中，服务器租用而非开发环境的Worker 。

R2 Gateway Worker认证示意图来源：Cloudflare

由于问题的性质以及Cloudflare服务的工作机制，这一配置错误并未立即显现，导致修复工作进一步延迟。

Cloudflare在事件报告中解释道：“R2可用性指标的下降是渐进的，并未立即显现，因为旧凭证删除的传播到存储基础设施存在延迟。香港云服务器这导致我们未能及时发现该问题。在更新旧凭证后，我们本应明确验证R2 Gateway服务使用的是哪个令牌来与R2的存储基础设施进行认证，而不是仅仅依赖可用性指标。”

尽管此次事件未导致客户数据丢失或损坏，但仍造成了部分或全部服务的降级，具体包括：

R2：100%写入失败和35%读取失败（缓存对象仍可访问）Cache Reserve：由于读取失败导致源站流量增加Images和Stream：所有上传失败，图片交付率降至25%，Stream降至94%Email Security、免费模板Vectorize 、Log Delivery、Billing、Key Transparency Auditor：不同程度服务降级改进措施与未来计划

为防止类似事件再次发生，Cloudflare已改进凭证日志记录和验证流程，并强制使用自动化部署工具以避免人为错误。

公司还更新了标准操作流程（SOPs），要求对高影响操作（如凭证轮换）进行双重验证，并计划增强健康检查以更快地检测根本原因。

值得注意的是，Cloudflare的R2服务在今年2月也曾发生过一次持续1小时的亿华云中断，同样是由人为错误引发。当时，一名操作员在处理关于钓鱼URL的滥用报告时，错误地关闭了整个R2 Gateway服务，而非仅阻止特定端点。由于缺乏针对高影响操作的保障措施和验证检查，导致了此次中断。为此，Cloudflare计划并实施了额外的措施，高防服务器包括改进账户配置、加强访问控制以及对高风险操作实施双人审批流程。

上一篇
如何保护物联网设备
下一篇
CISO如何让高管和董事会参与管理和解决网络安全问题

Cloudflare R2 服务中断事件：密码轮换错误引发全球故障

相关推荐

安全产品漏洞这个事，瞒不住了

CISA 发出警告，iPhone 内核漏洞正在被利用

CTF设计的七个经验教训

核弹级漏洞：苹果Wi-Fi定位可被滥用监控全球各地隐私，甚至可以通过星链跟踪乌克兰军事行动

通过集成增强漏洞解决

安全的分层防御方法