首页 > TAG信息列表 > Nightingale
运维、监控、AIOps的几个重要观点
监控是整个运维乃至整个产品生命周期中最重要的一环,通过配置合理的告警机制,采集准确的监控指标,来提前或者尽早发现问题,解决问题,进而保证产品的稳定,提升用户的体验。『分布式实验室』特约记者艾尔斯兰(下文称艾尔)采访了Nightingale核心开发者秦晓辉,就什么推动监控系统更新,可观测性Nightingale-选择显示业务组-配置办法-正则
昨天在Nightingale工作人员(秦**)的帮助下,成功解决了问题,非常感谢!现把问题和解决办法记录的更详细一些。 一、需求: 进入“监控大盘”:(图1) 然后点击其中一个大盘名称,例如上图中的“基本……”; 然后进入页面,点击“host”右侧的图形“笔”:(图2) 现在想让host的下拉选项,是根据大盘滴滴夜莺nightingale v2版本 collector发生endpoint冲突
案例描述 说明 模版机新克隆机器,或者现有生产服务器重启,agent报警无法恢复 案例分析 事故过程 说明 模版机新克隆机器,或者现有生产服务器重启,endpoint报警无法恢复 问题影响 说明 无法监控目标主机,服务端transfer的debug日志会有相同endpoint相同时间刷冲突日志 技术滴滴夜莺nightingale v2版本磁盘读写监控bug修复方法
批量挂载nfs后,夜莺自动监控/mnt,发生大量反复的读写错误报警,经过测试 nfs可以正常读写 tags: mount=/mnt 当前值: disk.rw.error: 3 报警说明: disk.rw.error(all,180s) != 0 查看collector日志发现,偶有open /mnt/.fs-detect ,not fount file or dictionory remove /mnt/.fs-de「开源发布」 滴滴内部监控系统 Nightingale 开源啦
本文字数:2464 字 精读时间:8 分钟 也可在 4 分钟内完成速读 夜莺(Nightingale)是滴滴基础平台联合滴滴云研发和开源的企业级监控解决方案。旨在满足云原生时代企业级的监控需求。Nightingale 在产品完成度、系统高可用、以及用户体验方面,达到了企业级的要求,可满足不同规模用户的场景,小nightingale部署及使用
官方文档链接: https://n9e.didiyun.com/docs/ 官方视频链接: https://space.bilibili.com/442531657 软件下载地址: https://github.com/didi/nightingale/releases 我这里机器的硬件配置为8核,16G,部署的是v3(版本)的n9e 一.系统介绍 各子系统简介 夜莺拆成了四个子系统,分别是:三分钟构建自动化运维平台-nightingale(夜莺)
最终搭建完成成品监控效果如图所示 夜莺是一套分布式高可用的运维监控系统,最大的特点是混合云支持,既可以支持传统物理机虚拟机的场景,也可以支持K8S容器的场景。同时,夜莺也不只是监控,还有一部分CMDB的能力、自动化运维的能力,很多公司都基于夜莺开发自己公司的运维平台。重点是部署三分钟构建自动化运维平台-nightingale(夜莺)
最终搭建完成成品监控效果如图所示 夜莺是一套分布式高可用的运维监控系统,最大的特点是混合云支持,既可以支持传统物理机虚拟机的场景,也可以支持K8S容器的场景。同时,夜莺也不只是监控,还有一部分CMDB的能力、自动化运维的能力,很多公司都基于夜莺开发自己公司的运维平台。重点是部署