天齐网?>?视野 ?>? 正文

Cloudflare大规模网络故障

2019-09-09 22:33:12 月光博客

  Cloudflare全球大规模502错误事件说明:由于软件部署不当导致服务中断

  北京时间7月2号21点52分左右开始持续约30分钟,全球访问CloudFlare站点的用户收到了502错误,这些错误是由于Cloudflare网络上的CPU使用率急剧上升造成的。此CPU峰值是由于上线了错误配置引起的。在回滚配置完成重启后,服务恢复正常运行,所有使用CloudFlare的域名恢复正常流量水平。

  这不是一次攻击事件(不是一些人推测的那样),我们对这起事件的发生感到非常抱歉。内部团队正在开会,CTO(John Graham-Cumming)写了宕机分析这是如何发生的,以及后续如何防止这种情况再次发生。

  此次全局中断的具体原因:发生在常规部署更新新的CloudFlare WAF管理的规则期间,在CloudFlare Web应用程序防火墙(WAF)中部署了配置错误的规则,其中一个规则包含有一个正则表达式,导致节点100%CPU占用。

  因为WAF规则是由自动化测试套件在模拟模式下进行,它顺利通过了测试,并被一次性同步推送全球CDN节点上应用部署,因此导致全球集群机器上的CPU峰值达到100%。这100%的CPU峰值最终导致了大量用户访问时看到的502错误。在最糟糕的时候,覆盖了总体流量的82%。

  这样的事件对客户造成了巨大的伤害,已有的自动化测试过程的不完善,我们持续审查和改进已有测试-部署过程,以避免将来发生这样的事件。

声明:本站部分资源来源于网络,版权归原作者或者来源机构所有,如作者或来源机构不同意本站转载采用,请通知我们,我们将第一时间删除内容。本站刊载文章出于传递更多信息之目的,所刊文章观点仅代表作者本人观点,并不意味着本站赞同作者观点或证实其描述,其原创性及对文章内容的真实性、完整性、及时性本站亦不作任何保证或承诺,请读者仅作参考。
编辑:陈可

Copyright ? 2019 www.qmgyc.com, All Rights Reserved