Cloudflare与AWS us-east-1网络拥堵事件:单一客户流量激增暴露平台稳定性隐患
2025年8月21日,Cloudflare与AWS us-east-1区域之间出现大规模网络拥堵,导致区域内大量用户连接出现高延迟、丢包及服务失败。事件起因于单个客户激增的流量,超出了Cloudflare与AWS us-east-1之间部分网络链路的容量上限。AWS为缓解拥堵而调整BGP路由策略,进一步加剧了问题,尤其是在一条已降容运行的直连链路和一条待升级的数据中心互连(DCI)链路之上。此次事件影响了所有通过Cloudflare访问AWS us-east-1资源的用户,但全球其他Cloudflare服务未受波及。拥堵高峰持续至19:38 UTC,后续偶发性延迟直至20:18 UTC完全恢复。
此次事件暴露了在共享网络资源场景下,单一客户异常流量对整体服务稳定性的潜在威胁。Cloudflare已与AWS紧密合作,通过流量工程和客户流量限速等措施,成功缓解了拥堵并恢复了服务。为防止类似事件重演,Cloudflare正推行多项改进措施:短期内,将开发机制对影响网络的客户流量进行降级处理,并加速DCI升级以增加网络容量;中期将与AWS协同优化BGP流量工程策略;长期则计划构建新的、基于客户维度的流量管理系统,为每个客户分配网络资源预算,超额时自动限制流量,实现服务隔离与平台稳定性保障。
Cloudflare incident on August 21, 2025
On August 21, 2025, an influx of traffic directed toward clients hosted in AWS us-east-1 caused severe congestion on links between Cloudflare and us-east-1. In this post, we explain what the failure was, why it occurred, and what we’re doing to make sure this doesn’t happen again.

网友讨论