Cloudflare 近日发布详细事故报告,服发级披露2025年9月12日导致其控制面板和API服务中断超过一小时的断事洞引重大故障。经调查
,漏联故此次事件源于控制面板软件漏洞与服务更新的服发级叠加效应,最终引发关键内部系统的断事洞引级联故障。 事件始于Cloudflare控制面板新版本的源码下载漏联故发布。公司报告显示
,服发级该更新中的断事洞引React代码存在缺陷,导致对内部租户服务API(Tenant Service API)发起重复且过度的漏联故调用。该服务是服发级处理API请求授权的云计算核心组件。 具体而言
,断事洞引漏洞存在于useEffect钩子中——错误配置使其在每次状态变更时都会触发API调用
,漏联故导致单次面板渲染期间形成请求循环
。服发级恰逢此时租户服务API自身也正在进行更新部署
。断事洞引 存在缺陷的漏联故控制面板产生"惊群效应"(thundering herd),使新部署的高防服务器服务不堪重负
,最终引发异常故障与恢复失败。由于租户服务承担API请求授权职能,其瘫痪导致UTC时间17:57起Cloudflare控制面板及大量API服务大面积中断。 Cloudflare工程团队首先监测到租户服务负载激增,随即采取减压扩容措施
: 这些措施虽部分恢复了API可用性 ,但控制面板仍处于宕机状态
。UTC时间18:58尝试修补服务错误代码路径的免费模板操作适得其反,导致API可用性二次短暂受影响
。该变更被迅速回滚 ,最终于19:12全面恢复服务
。 值得注意的是,此次中断仅限于处理配置管理的建站模板控制平面(control plane)。得益于严格隔离机制,处理客户流量的数据平面(data plane)未受影响
,终端用户服务始终保持在线 。 Cloudflare已制定多项防范措施 :