数据中心网络故障维护策略分析
作者:互联网
数据中心是由大量电子设备搭建起来的复杂信息系统,这些电子设备出现各种各样的故障是不可避免的,尤其是网络设备,就算是谷歌、脸谱、亚马逊等这些互联网巨头的数据中心也难免会发生不少故障。一旦网络设备出现故障,往往大面积的业务就会受到影响。一方面我们要增加网络设计的健壮性,关键节点部署冗余备份;另一方面要优化处理网络故障的手段,当出现网络故障时,如何快速恢复、并定位问题,消除隐患都需要诸多专业技术知识和丰富的网络经验,同时制定完善的故障处理流程,这样能大大缩短故障恢复的时间,同时还能有效找到故障原因,避免类似问题下次出现。数据中心网络出了故障并不可怕,可怕的是故障后长时间无法恢复,可怕的是故障恢复后,依然不知道产生故障的原因,这样数据中心网络在不采取任何防护措施的情况下,继续运行可能出现二次故障,所以制定详细的网络故障维护策略非常重要。一旦发生网络故障,迅速找到故障原因,快速恢复业务。
俗话说“养兵千日,用兵一时”,平时不做足功课,出了故障必然处理起来毛手毛脚。在数据中心网络日常管理中,要熟悉网络运行情况,并定期、准确、迅速、简单概括评估其运行状况,建立完善的检修报告制度。维护人员要多学习,多总结,对网络运行的细节了如指掌。维护人员要对网络设备的端口互连、组网配置、业务特点牢记,当出现故障时,脑海里即刻就能浮现出网络拓扑,故障的位置,这可为抢修故障争取宝贵时间。如果遇到故障时,还在确认网络设备端口互连关系,说明对网络认识还不够深刻,这必然加长故障恢复的时间。同时,维护人员要对网络设备进行周期性巡检,并做详细记录,发现隐患及时修复,避免故障影响面扩大。维护人员需强化保养与监测,降低故障发生风险,确保网络能够正常运行。
也许数据中心日常网络管理和维护工作开展都是非常规范的,但依然难免可能会发生网络故障。出了故障,不要慌乱,要冷静思考。仔细观察故障现象,详细了解故障相关情况,明确出错信息细节,确定故障症状。明确故障发生前是否有人操作了网络(70%的网络故障与人为操作有关)。如果没有,再进一步明确网络故障的位置,确认故障的设备或链路,这时可以采用PING、TRACERT命令或相关工具快速确认网络故障位置。同时,迅速收集故障设备信息。
维护人员根据故障发生的位置、故障基本信息,对故障产生原因进行分析。若短时间内看不出原因,要启动隔离故障预案。要再次确认故障信息是否收集完整,避免有遗漏,否则日后可能分析不出故障原因。启动隔离故障预案,将故障隔离后,观察业务是否逐渐恢复,直到业务彻底恢复后,再进行后续的问题分析。一旦预案失效,业务仍不见恢复,需要启动紧急应急措施,比如将业务转移到另外数据中心上,或者灾备数据中心上,再次确认业务是否完全恢复。这些故障预案在平时的网络维护中应该做一些故障演练、故障模拟测试,以免这些预案机制在真正故障来临时失效。
对于故障原因未能及时明确的,事后根据故障时收集的信息进行分析。数据中心技术人员的能力有限,可以召集行业内专家、设备厂商人员对故障信息进行分析,直到找到故障原因为止。有些时候,为了快速恢复业务,收集的信息不完善,或者设备记录信息不完整,往往很难找到故障原因,不可能在找到原因之前将业务割回。可以在现有的网络中做一些模拟测试,找一找故障原因,还不行就得对可能故障的节点进行优化或者更换,然后召集各类专家保障,再择机将业务割回,进行观察。割回后一旦故障复现或者运行一段时间后再次出现,各路专家及时出手,排查故障原因。这个过程也许要经历过数次,最终才会找到故障原因,数据中心不允许将隐患留在网络中,不带隐患运行。
网络故障处理完后,要进行细致总结。看现有网络中哪些地方需要优化,维护人员哪些方面的技术要加强,避免相同的故障再次在网络中出现。对网络故障进行深刻总结,全方位进行巡检,类似的隐患一律消除。这些工作做完后,要将故障排除过程文档化,对所做的工作进行文字记录。文档是排错宝贵经验的总结,是“经验判断和理论分析”这一过程中最重要的参考资料,比如要包括:故障现象描述及收集相关信息、故障发生原因解释、本次排错的心得体会、后续网络优化工作、故障处理流程上是否存在瑕疵等,都要形成正式文档后日后查阅。维护人员必须养成及时进行故障排除的文档记录和经验总结习惯,一方面是网络维护工作的基本要求,另一方面也是自身提高排错技术的需要。同时,还要对故障处理过程中,暴露出工作上的疏漏及时补救,优化整个故障处理分析的过程。
在数据中心里,网络故障不可避免,通过以上的故障维护策略步骤,可以大大减少重复网络故障的发生。但是网络故障产生是受到很多因素影响的,而且故障类型较多,要彻底消除是非常困难的,这是那些网络技术实力非常雄厚的互联网巨头数据中心依然故障不断的原因。随着数据中心网络规模越来越大,新的网络技术越来越复杂,给网络故障排查制造了极大的障碍,这样更需要对网络故障的维护策略进行不断地优化和调整,以便适应新的数据中心网络环境。
标签:网络故障,数据中心,网络,故障,维护,原因 来源: https://blog.51cto.com/u_15127691/2820549