西安健康码系统崩事件溃
作者:互联网
系统崩溃
线上巡检:每隔XX分钟进行定时的自动扫描,验证服务对应的产品是否可用,如不可用的情况下,触发把平静(短信,钉钉,企业微信)
混沌:在一定的可稳定性的秩序下,存在不确定性,所以就需要新的秩序来建设可确定性的东西
分布式的架构集群:去中心化,多服务的实例化
弹性计算(容器化):可伸缩的架构
cpu:大家都进行扫描二维码,以及查看自己的健康码
内存:大量的健康码数据在进行大量的查询和写入
OOM(Java Lang Out Of Memory):内存泄漏
排查思路:
1、首先搞清楚这个服务是在那个阿里云机器上部署的
2、登录到阿里云的服务器上
3、到二维码服务的logs目录下
4、查看上午7:35至7:45的日志
1)日志文件疯狂的写
2)还是继续写,但不是疯狂的写,查找关键字Out Of Memory,7:40
最直接的方式:服务重新启动,内存释放
健康码的数据,必须进行持久化的处理
1、持久化的技术方案:redis内存中数据回进行备份的
2、数据存储的数据库,那么数据库里面的数据也会进行冷热备份
网址:TAPD
测试流程,测试先描写BUG步骤,流转开发,处理完成,验证通过后可以进行关闭
标签:服务,内存,事件,西安,Memory,健康,Out,数据,进行 来源: https://www.cnblogs.com/Kaylee/p/15716495.html