一声巨响,数据中心应声倒下
罗马尼亚一家银行数据中心业务中断了大约10个小时。原因是数据中心在对消防系统进行测试时,打开了储存有“烟烙尽”的钢瓶,“烟烙尽”通过软管和喷嘴均匀地喷洒在狭小空间、当气体通过喷嘴释放时,压力过大,在释放“烟烙尽”时发出了异常大的巨响,巨响超过了130分贝,引起振动,服务器和数据存储设备都因此受到了影响,破坏了设备内部部件,导致银行的业务瘫痪。实际上,数据中心设备对噪声也非常敏感,尤其是这种突然的巨响,很容易造成内部电子元器件的失效。(专家点评:有必要在数据中心增加一些消声设施,提供一个相对安静的环境,有利于延长设备的使用寿命。)
一辆SUV汽车引发的惨剧
2007年11月位于美国达拉斯的Rackspace公司数据中心遇到了一场无妄之灾,一位大型四驱车司机,在开车途中由于糖尿病病发而出现短暂昏迷,汽车一路向前直冲,并从丁字路口处撞向路边外侧的护堤。护堤被撞击后,冲向空中,并落在了Rackspace公司的数据中心建筑物上,恰好砸在了供电装置上,一阵火光带闪电之后,数据中心电力供应中断,使其业务在数小时内陷入了瘫痪。Rackspace公司为此次事故向客户支付了350万美元赔偿金,同时还增加了客户流失的风险。(专家点评:数据中心需具备一定的抗震、抗撞、防火能力,避免遇到这样的意外故障。)
飓风吹停了数据中心发电机
2012年10月位于美国纽约曼哈顿地区的一处数据中心整套供电系统失效,原因是肆虐一时的飓风桑迪袭击了曼哈顿。在数据中心的十八层摆放了多台备用发电机,用于持续提供电力且不至于受到洪水影响。但风暴来袭时直接灌满了该数据中心建筑的地下室,并且摧毁了应急发电机的燃油泵送系统,遭到海水浸泡的整套电路立刻失去了作用,备用发电系统失效,而十八层电力采用的是市电,当飓风来袭造成整个曼哈顿市电系统故障,数据中心主备供电均故障,造成数据中心断电,所有应用系统无法运行。
太阳耀斑事件
1989年,太阳耀斑定向瞄准了加拿大魁北克水电电网,导致电网电压振荡,造成跳闸保护设备启用,某个核电站的发电机升压变压器***损坏,无法提供服务。太阳耀斑是一种最剧烈的太阳活动,周期约为11年,通过高速度产生强磁场的过程中发出的带电粒子,对于数据中心和电网是一个毁灭性的灾难。这属于小概率事件,但一旦发生,对数据中心就是致命一击。
天灾之下,数据中心人员是束手无策,还是能够有所作为?故障突然发生的一刻,运维人员是否真的能在最短时间内有效地完成故障处理?系统是否真的能如预案中快速恢复?这些都是对数据中心故障处理能力的实际考量。良好的培训和完善的应急预案及演练将有助于意外事件的应对。
灾难恢复演练
以农业银行***全行参与的数据中心信息系统业务级灾难恢复演练为例,包括事件响应、预警准备、系统恢复、业务验证和总结回退等5个阶段,10分钟内完成了总分行灾难恢复人员集结;在75分钟内恢复了公共应用、内部核算、单折、银行卡、客户信息、联行、现金管理、库房现金及表外等9大类核心业务,并通过了全国36家分行营业网点的业务验证,业务验证成功率为99.94%。
未雨绸缪,多手准备
桑迪飓风之后,发现许多企业并没对燃料供应链有足够的关注。数据中心灾难计划把备用发电机作为重中之重:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般地耗尽了……。
即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。这些问题可能会在其他情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。
人员培训
当发生天灾时,人员的冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是一旦发生百年难遇的特大灾难时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训将帮助数据中心解决很大的难题。
转载请注明:IT运维空间 » 运维技术 » 面对这些可能出现的意外,你的运维团队准备好了吗?
发表评论