B. 智能运维 --- 质量保障 --- 根因分析
作者:互联网
B. 智能运维 --- 质量保障 --- 根因分析
机器学习定位故障责任部门 --- 微软 NetPoirot
特点
轻量级的持续监控:仅需收集TCP的数据,避免收集整个系统海量的日志(SNMP,网络拓扑,性能指标,程序日志等)。
准确的机器学习分类:利用决策树/随机森林来实现自动且准确的根因分类。
简单的系统实现:不需要了解系统方面的信息,包括网络拓扑,程序模块关系等。
解决方案
训练阶段:由于异常的数据远远比正常的时候少,不利于机器学习,NetPoirot还可以模拟注入一些故障,丰富异常数据集,提升模型的准确度
运行阶段
模拟注入故障类型
Server
High CPU load on Server
Slow reading Server
High I/O on Server
High memory load on server
Client
High CPU load on client
High I/O on client
High memory load on client
Network
Bandwidth throttling
Sporadic packetdrops
Packet reordering
Random connections drops
High Latency
微软AIOps工作:时序数据与事件的关联分析
解决核心问题
E和S之间是否存在相关关系?
若存在相关关系,E和S的时间先后顺序是什么?E先发生,还是S先发生?
E和S的单调关系。假设S(或者E)先发生,S的增加还是降低导致的E发生?
具体实现
相关性:???
时间先后顺序
单调关系
美团的日志聚类,实现根因分析
标签:load,运维,根因,Server,High,智能,client,日志 来源: https://blog.csdn.net/micklongen/article/details/89437275