策略 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

标。很明显，这两个告警事件是有关联关系的，指代的是一个问题，只是时间戳不同，这样的两个 event，就可以收敛为一个 alert。从实现上来说，告警策略（也称告警规则）+ 指标标签集的哈希值，可以作为 alert 的唯一标识。比如刚才的例子，告警策略的 ID 假设为 32，标签集是：[“name=cpu_usage_idle”, “host=host1”]，这两个时间戳产生的告警事件，哈希值都是一样的。来过滤告警事件，把过滤到的告警事件订阅到“私有云”协作空间。排除规则告警事件进入协作空间之后，有些特殊的告警事件想要丢弃掉，即可使用排除规则实现，配置位置就在订阅规则下面，这里不再赘述。分派策略告警事件进入 FlashDuty，会自动收敛，目前采用三级收敛：event -> alert -> incident，具体逻辑可以参考：【思路方法篇】-【告警收敛逻辑】章节。这样的三级收敛机制，会有非常好的降噪效果，大幅减知媒介，比如飞书、钉钉、企微、电话、短信、邮箱等。通知了之后，相关的人可能没注意到，可以配置重复通知，比如 10 分钟之后再次通知。如果多次通知，接收人一直没有响应，就要启动升级策略了，比如 30 分钟后，告警仍然没有恢复而且没有被人工处理，则升级到下一个通知环节（通知环节可以有多个）。通知的触发，最为推荐的是值班表（OnCall 排班是践行 SRE 的有效手段），其次是团队（团队可以降低人

0 码力 | 23 页 | 1.75 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

• 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多 • 告警⻛风暴暴监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • 邮件短信 ACK应答屏蔽告警等级  对应处理理⽅方式监控系统其他系统告警中⼼心告警源 meta信息获取业务信息获取关联关系告警统计有意思的尝试科学的告警策略略科学？ machine learning?  deep learning? 不不要盲⽬目的使⽤用机器器学习先让告警有意义可读的 • 时间 • 源头 • 规则 • 影响

0 码力 | 34 页 | 650.25 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

监控数据采集，all in one的agentd Agentd 进程存活端口监控插件脚本日志监控网络设备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享 1.6 利用夜莺扩展能力打造方位全方位

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进 与实践分享

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享