AWS法兰克福节点遭遇重大事件:空气处理系统故障导致设备关闭、网络中断、EC2实例宕机

AWS法兰克福节点遭遇重大事件:空气处理系统故障导致设备关闭、网络中断、EC2实例宕机
2021年06月11日 23:03 云头条

云巨头AWS称,空气处理系统故障导致设备关闭、网络中断和EC2实例宕机。

AWS的EU-CENTRAL-1区域的单单一个可用区(AZ)近日遭遇了重大事件。

该公司的状态页面显示,该事件始于6月10日太平洋夏令时下午1点24分,最初导致“一些EC2实例出现了连接问题”。

半小时后,AWS报告“EC2 API出现了API错误率和延迟同同增加、实例出现了连接问题……是由那个受影响的可用区的一部分内环境温度升高引起的。”

到下午2点36分,AWS表示温度在回落,但网络连接仍处于断开状态。

但是一小时后,云巨头给出了以下令人颇为不安的说法:

虽然温度继续回到正常水平,但工程师仍无法进入可用区受影响的部分。我们认为环境在接下来的30分钟内可以安全地重新进入,但现阶段正在远程恢复。

下午4点12分的更新报告称,出于安全原因,工作人员仍无法进入现场。

下午4点33分,网络服务恢复正常,AWS 表示这应该会促使EC2实例迅速恢复正常。下午5点19分的更新声明“受影响可用区内的环境状况现已恢复到正常水平”,并告知用户“绝大多数受影响的EC2实例现已完全恢复,但我们继续在处理依然出现性能下降的一些EBS卷。”

Kinesis Data Streams、Kinesis Firehose、Amazon Relational Database Service和AWS CloudFormation也受到了波及。

AWS的最新状态更新下结论道:“我们将在后续帖子中提供有关根本原因的更多详细信息,但可以确认数据中心内没有着火。”

这就留下了一个问题:究竟是什么情况让数据中心危险到无法进入的地步?

6月11日02点45分的更新。AWS 更新事件报告,表明该事件是“控制系统故障引起的,导致受影响可用区的多个空气处理系统失灵”。

空气处理系统负责为数据中心冷却,所以一旦它们停止运转,“环境温度就开始上升”到不安全的水平,因此AWS服务器网络设备关闭。

“遗憾的是,由于这个问题影响了几个冗余网络交换机,这单单一个可用区中的大量 EC2实例失去了网络连接,”更新补充道。

“虽然我们的操作人员通常能够在受到影响之前恢复冷却功效,但在受影响可用区的一部分内,灭火系统被激活了。”

“这个系统激活后,数据中心被疏散开来并密封起来,喷洒一种化学物质,以去除空气中的氧气,从而达到灭火效果。”

AWS的工作人员只好等地方消防部门抵达现场并证明数据中心是安全的。AWS表示,一旦出具符合标准的文件,“需要重新为数据中心注入氧气,以便工程师可以安全进入设施,恢复受影响的网络设备和服务器。”

安全工作条件现已恢复,大部分硬件和服务也已恢复。

但一些设备似乎已受到损坏,正如AWS所说“极少数剩余的实例和卷已受到环境温度升高和断电带来的不利影响,它们仍未得到解决。”

这家云巨头还告知客户,被激活的灭火系统仍处于禁用状态。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部