其他分享
首页 > 其他分享> > 稳定性之故障应急处理流程

稳定性之故障应急处理流程

作者:互联网

原文链接

一  概述
尽管我们可以通过稳定性体系建设,来避免出现生产系统故障。但是仍然无法彻底避免一点风险都不会产生,当稳定性风险产生后,怎么快速协调组织,缩短故障时长,科学的流程就非常重要了。
好在我们现在就开始思考的话,我们还有充足的时间去设计各个环节,并让参与的同学充分的锻炼,从而做到训练有素,为故障恢复争取宝贵的时间。
二  结构化问题解决
对于问题解决有很多结构化解决方法,尤其是各种专业的咨询公司,这些流程值得我们借鉴。结合软件系统的生产环境故障来描述的话,一个典型的结构化问题解决步骤如下:

 

 

 

 

 

 

 

 

 


生产环境中,出现突发异常时候,我们第一优先的是考虑怎么快速恢复服务,因此本文中重点介绍上面流程中前面2个步骤。
另外,问题解决里,沟通是贯穿在整个流程里的。需要在各个环节都做好充分的沟通。
三  关键角色
突发异常的情况都各有不同,很难有一个完全统一而且颗粒度很细的标准流程,但是可以提前约定好几个关键角色,定义角色的作用和关键动作,来提升协作效率。
主要包括这些角色:

 

 

 


以下是各个角色的详细描述。
1  指挥员
指挥员的选择

 

 


指挥员关键动作

 

 

 


对指挥员的要求

 

 

 


2  通讯员
如果故障不能在第一时间通过预案恢复的话,通讯员将会是仅次于指挥员的角色。高效组织信息收集、整理,会让整个应急小组更快速度找到解方案。
通讯员选择

 


通讯员关键动作

 

 

 


对通讯员关键要求

 

 


3  快恢负责人
我们的期望是所有的风险都能够通过快恢来解决,如果不能的话,也是第一时间探讨其他可行的快恢方案(比如回滚等操作)。
快恢负责人选择

 


快恢负责人关键动作

 


快恢负责人关键要求

 


4  问题诊断负责人
通常我们不希望这个人出现在故障1-5-10的恢复环节,但是当快恢失效并且短时间内缺乏有效手段恢复服务的话,最后只能靠问题诊断负责人来找到根本原因,并制定解决方案。
问题诊断负责人选择

 


问题诊断人关键要求

 


四  最后
故障应急响应是维持系统高可用的最后一个机会,这个环节的不专业表现,对于稳定来说是最后彻底的失守。因此,跟预案演练一样,故障应急也需要重点锻炼。一些可以锻炼的机会包括:

 

 

 

标签:负责人,预案,通报,流程,指挥员,问题,故障,应急
来源: https://www.cnblogs.com/276815076/p/14785581.html