其他分享
首页 > 其他分享> > 系统出问题后我们该做些什么?

系统出问题后我们该做些什么?

作者:互联网

我看到很多公司处理线上故障的方式并不科学,而且存在很多问题,所以,今天这篇文章就来分享一些我的经验。这些经验主要来自亚马逊和国美这两家公司,以及我个人的经验总结。

故障复盘过程

对于故障,复盘是一件非常重要的事情,因为我们的成长基本上就是从故障中总结各种经验教训,从而可以获得最大的提升。在亚马逊和阿里,面对故障的复盘有不一样的流程,虽然在内容上差不多,但细节上有很多不同。

亚马逊内部面对 S1 和 S2 的故障复盘,需要那个团队的经理写一个叫 COE(Correction of Errors)的文档。这个 COE 文档,基本上包括以下几方面的内容。

   然后,这个文档要提交到管理层,向公司的 VP 级的负责人进行汇报,并由他们来审查。其实需要些COE的情况,就证明事故已经非常严重了!

故障整改方法

第一,优化故障获知和故障定位的时间。

第二,优化开发过程中的问题。

第三, 优化故障的处理方式

其实我是不认同惩罚和划分故障责任人的,因为你做的越多,错的可能越多,如果不出错,那就最好什么都别做,会让大家的开发变得畏手畏脚,team之间的人员可能会相互推诿,十分不利于大家今后的开发,给整个team中营造了一种恐怖的氛围.

我支持“不从物质上惩罚工程师”。 可以让他针对重大事故进行总结,复盘给大家进行一次分享.大家学的呢?

目录

故障复盘过程

故障整改方法


标签:系统,亚马逊,问题,故障,COE,做些,优化,复盘
来源: https://blog.csdn.net/Alex_Cxl/article/details/110115129