龙空技术网

阿里云屡次发生P0级宕机,到底为什么?

彭得鱼 30296

前言:

如今你们对“阿里云自动重启”可能比较注意,同学们都需要分析一些“阿里云自动重启”的相关知识。那么小编同时在网络上搜集了一些对于“阿里云自动重启””的相关内容,希望大家能喜欢,兄弟们快快来学习一下吧!

慢慢来,比较快

双十一的硝烟还没散,阿里云又崩了,而且影响范围极大。仅阿里系,钉钉、淘宝、闲鱼等重磅应用全线崩溃,至于使用了阿里云OSS服务的外部公司产品,估计就更多了。

值得注意的是,距离上一次阿里云发生此类严重事故还不到一年。2022年12月,阿里云香港地域发生严重故障,服务中断超过12小时,在内部被定性为p0级(最高级别)事故。如今,一年时间不到,阿里云再发p0级事故,阿里云这到底是怎么了,为什么一崩再崩?

据说这次运维背锅负全责!!产品经理和开发估计逃过一劫,这么多的region同时受影响,什么组建能引起这么大规模的同时故障?真的令人匪夷所思。

而且影响这么多区域这么多服务,我感觉是 RAM(IAM) 挂了,因为按道理来说,北美、东亚、西欧肯定是多个云,怎么可能多个regions同时受影响?所以说IAM几率大一些,阿里云内部要好好反思了,再复杂的故障也不能用重启大法管所有。

说句实在话,如果对信息安全要求高的话,还是用私有云吧,公有云要面对的应用场景太多,提供的服务太多,架构太复杂,私有云面对特定的应用场景架构简单,相对而言可靠性高一些,虽然都不能保证百分百可用,但至少要比公有云靠谱一些。

我觉得吧,阿里云同学首先要有复盘意识,牢牢把握复盘复这个抓手,深挖故障原因,总结高稳定的行业做法,早日打出一套组合拳,为云业务再次赋能!

标签: #阿里云自动重启