【故障】欧洲最大云服务商遭遇火灾,阿里云、腾讯云、华为云有哪些宕机故事?

百家 作者:OFweek 2021-03-16 20:40:34


近日,欧洲最大的云服务商——OVH位于法国斯特拉斯堡的数据中心遭遇了严重的火灾。

 

据悉,OVH在该区域共有4个数据中心,发生起火的SBG2数据中心被完全烧毁,SBG1的建筑物部分受损,SBG3因受到消防保护暂未受影响,SBG4则确认没有受到波及。但出于安全起见,OVH将其位于斯特拉斯堡的全部数据中心都暂时关闭了服务。

 

公开信息显示,OVH在全球共有27个数据中心,15个位于欧洲。此次的火灾据称已导致超过350万个网站下线,影响波及政府机构、门户网站、银行、商店、新闻网站等。值得注意的是,在这之前两天,OVH刚启动了IPO计划……

 

截图自Twitter

 

OVH创始人兼董事长Oktave Klaba建议客户启动容灾恢复计划,OVH将在接下来的1-2周对服务器作紧急修复,完全恢复时间待定。

 

对于此次火灾的影响,卡巴斯基实验室(Kaspersky Lab)全球研究与分析团队主任Costin Raiu表示,他们追踪了140台OVH服务器,这些服务器在火灾后下降了36%(应该是指正常使用数量)。

 

一款游戏的「惨态」可能有一定的代表性。Rust旗下的游戏工作室Facepunch Studios证实,他们的数据已在这场大火中完全灭失,他们正在寻求替代受影响的服务器,但即使替换完成,数据也无法恢复。

 

截图自Twitter

 

OVH及其客户的遭遇并不特殊,云服务行业数据丢失的案例不少,以中国云服务商的几大代表——阿里云、腾讯云、华为云——身上就可见一斑:

 


阿里云


2018年6月27日,阿里云官方控制台和部分阿里云产品出现了故障,受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。问题当天得到了解决。

 

阿里云在官方声明中表示,故障原因是一项运维操作导致的,「……工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通……」。

 

2019年3月3日,阿里云出现大规模宕机故障,影响了众多华北地区的互联网公司。阿里云官方表示,「华北2地域可用区C部分ECS服务器等实例出现IO HANG」,经紧急排查处理后逐步恢复,将根据协议尽快赔偿。

 

仅2周多之后的3月20日,阿里系多款产品又一次出现短时无法正常运作的情况,致使阿里系多款产品瘫痪,涵盖App包括淘宝、天猫、淘宝直播、闲鱼等。

 

一天后的3月21日,阿里云再一次发生故障,涉及的是部署在阿里云上的铁路12306部分服务,当用户搜索车票时系统显示「很抱歉,查询失败,您可以稍后点击下面按钮重试」。

 

……

 


腾讯云


2018年7月24日,多名网友反映腾讯云服务出现异常宕机事故。腾讯云客服表示,控制台登录异常,故障是因腾讯云广州一区的主备两条运营商网络链路同时中断所导致,腾讯表示今后腾讯将重新梳理网络架构,引入更多维度的容灾机制,力争将故障隐患降到最低。

 

2018年8月5日,北京一家使用了腾讯云服务器的企业,云服务器上包括备份的数据全部丢失,导致其几年内的平台数据全部丢失,声称造成「近千万元损失」。隔日,腾讯云向该公司表达歉意,同时表示安排专人积极沟通,制定「赔偿+补偿」方案,以期将用户损失降最低。

 

对于故障原因,腾讯云称是因受所在物理硬盘固件版本bug导致的静默错误使得文件系统元数据损坏。腾讯云声明,后续针对云盘产品会额外实行定期强灾备措施,进一步保障用户数据的可靠性。

 

……

 


华为云

 

2020年4月10日,一直对外宣称「不宕机的云才是好云」的华为云服务历史上首次大面积故障。不少使用云服务的后台都出现了「服务器暂时过载或处于维护中,请稍后重试」、「建立数据库连接时出错」等提示。

 

华为云官微回应称,检测到部分主机异常,故障基本修复,部分客户的业务正在配合恢复中。但截止该条微博发布之时,仍有不少业内人士反映尚无法访问华为云的服务器。

 

……


当然,国内的阿里云、腾讯云、华为云之外,全球排行前列的亚马逊AWS、谷歌云、微软Azure等,也都无一幸免,出现过相关故障……


The end



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接