滴滴夜莺nightingale v2版本 collector发生endpoint冲突
作者:互联网
案例描述
说明
- 模版机新克隆机器,或者现有生产服务器重启,agent报警无法恢复
案例分析
事故过程
说明
- 模版机新克隆机器,或者现有生产服务器重启,endpoint报警无法恢复
问题影响
说明
无法监控目标主机,服务端transfer的debug日志会有相同endpoint相同时间刷冲突日志
技术分析
说明
查看最近的collector启动日志
endpoint: 这个字段是否和目标主机相同
没有启动日志的需要重启
最后发现,是模版机克隆出来的虚机,虽然主机名更新了,但是collector的endpoint不是实时更新的,是缓存的
解决方案
说明
手动重启夜莺collector
根本原因
说明
虚机克隆更改主机名无法实时同步到夜莺collector
预防措施
说明
关注报警,排查endpoint标识
标签:endpoint,克隆,模版,说明,v2,nightingale,日志,collector 来源: https://www.cnblogs.com/opsdemo/p/15030372.html