告警OnCall事件中心建设方法白皮书
标。很明显,这两个告警事件是有关联关系的,指代的是一个问题,只是时间戳不同,这样的两个 event,就可以收敛为一个 alert。 从实现上来说,告警策略(也称告警规则)+ 指标标签集的哈希值,可以作为 alert 的唯一标识。比如 刚才的例子,告警策略的 ID 假设为 32,标签集是:[“name=cpu_usage_idle”, “host=host1”], 这两个时间戳产生的告警事件,哈希值都是一样的。 来过滤告警事件,把过滤到的告警事件订阅到“私有云”协作空间。 排除规则 告警事件进入协作空间之后,有些特殊的告警事件想要丢弃掉,即可使用排除规则实现,配置位置就在订 阅规则下面,这里不再赘述。 分派策略 告警事件进入 FlashDuty,会自动收敛,目前采用三级收敛:event -> alert -> incident,具体逻辑可 以参考:【思路方法篇】-【告警收敛逻辑】章节。这样的三级收敛机制,会有非常好的降噪效果,大幅减 知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知, 接收人一直没有响应,就要启动升级策略了,比如 30 分钟后,告警仍然没有恢复而且没有被人工处理, 则升级到下一个通知环节(通知环节可以有多个)。 通知的触发,最为推荐的是值班表(OnCall 排班是践行 SRE 的有效手段),其次是团队(团队可以降低人0 码力 | 23 页 | 1.75 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享• 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试 科学的告警策略略 科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义 可读的 • 时间 • 源头 • 规则 • 影响0 码力 | 34 页 | 650.25 KB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设0 码力 | 40 页 | 3.85 MB | 1 年前3
共 3 条
- 1













