微软数据中心制冷故障 只有三名员工导致无力应对
CBISMB
责任编辑:张金祥
ISMB
时间:2023-09-05 12:16
微软
曾经的玩笑,裁员为了降成本把干活的人都裁掉了这种讽刺似乎成为了现实,微软在澳大利亚的Azure公有云数据中心仅因为一次制冷器故障事故,却因为只有三个运维员工无法及时应付突发情况,导致机房过热并最终引发硬件被烧毁的事故,充份证明了裁员虽然看似解决了财务问题,但没人干活可能影响的不仅仅是用户的资产,还包括未来用户对品牌的令人程度。
微软旗下 Azure 澳大利亚数据中心园区上周经历了一次大规模故障,数据中心的电力供应能力下降导致两个数据大厅的冷却设备断电,微软承认现场没有足够的工作人员,而且其应急程序也没有考虑到问题的规模,在事故发生时,数据中心只安排了3名工作人员,他们都相当尽责地 “执行了记录在案的应急操作程序 ,但最终没取得有成功”。包括澳大利亚昆士兰银行和捷星航空在内的大型企业客户服务完全中断。
事故由于电压骤降导致了大厅的五台正在工作的制冷设备发生故障,现场运维团队故障响应用时一个小时,重启冷机用了两个半小时。微软声称,“园区因人员配备不足从而导致了这次事故,在‘更好地了解根本问题并采取适当的缓解措施’之前,工作人员安排数量目前从3人临时增至7人。”,微软还将调整相关应急预案和日常工作流程,降低此类事件再次发生的可能性。
之前国内也有大厂因为制冷问题导致服务大面积瘫痪,这次事故影响了使用 Azure 的七家大型企业客户,其中五家为“标准”级别,两家为“高级”级别,微软表示,装载有企业客户存储内容的硬件“因数据大厅温度过高而损坏”,除了企业客户重大损失外,该数据中心旗下托管的25万多个SQL数据库也发生了故障。
微软表示,一些存储硬件“因数据大厅温度而损坏。 由于存储节点处于脱机状态,诊断无法用于故障排除。微软表示:“因此,我们的现场数据中心团队需要手动删除组件,然后一一重新安装它们,以确定哪些特定组件阻止每个节点启动。需要更换多个组件才能成功恢复数据并恢复受影响的节点。 为了完全恢复数据,需要在各个服务器上临时重新安装一些原始/故障组件。基础设施即代码自动化也失败了,“错误地批准过时的请求,并将一些健康的节点标记为不健康,这减慢了存储恢复工作。
今年以来,微软宣布了一万人的裁员计划,虽然在科技公司中并不算多,并让微软要财报中取得了非常出色的成绩。但好的财报却让冻薪裁员的微软员工非常不满,此次事故之后,微软已将工作人员临时增加至7人,还将调整相关应急预案和日常工作流程,降低此类事件再次发生的可能性。