 告警OnCall事件中心建设方法白皮书
电话、短信、即时消息、邮件 影响收入的、影响客户的,必须立刻处理 Warning 短信、即时消息、邮件 无需立刻处理,但是如果不处理,时间久了就会 演化为 Critical 的问题,可以先放入 TODO 列 表,手头上的紧急事务搞定之后就去处理 Info 邮件 每天下班前稍微看一眼,偶尔一两天忘了看也无 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。 告警升级机制 告警升级是指在第一责任人收到 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值班人接收告警。不同的严重程度的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知,0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
电话、短信、即时消息、邮件 影响收入的、影响客户的,必须立刻处理 Warning 短信、即时消息、邮件 无需立刻处理,但是如果不处理,时间久了就会 演化为 Critical 的问题,可以先放入 TODO 列 表,手头上的紧急事务搞定之后就去处理 Info 邮件 每天下班前稍微看一眼,偶尔一两天忘了看也无 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。 告警升级机制 告警升级是指在第一责任人收到 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值班人接收告警。不同的严重程度的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知,0 码力 | 23 页 | 1.75 MB | 1 年前3
 1.6 利用夜莺扩展能力打造全方位监控系统第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+ 600+ 500+0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+ 600+ 500+0 码力 | 40 页 | 3.85 MB | 1 年前3
 B站统⼀监控系统的设计,演进
与实践分享• 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 •0 码力 | 34 页 | 650.25 KB | 1 年前3 B站统⼀监控系统的设计,演进
与实践分享• 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 •0 码力 | 34 页 | 650.25 KB | 1 年前3
 PromQL 从入门到精通ket指标看 看效果,虽然这个指标的桶划分不是很合理,也可以说明问题: binlog_consumer_latency_seconds_bucket 这个指标,有一个非常非常重要的标签叫 le,表 示桶上界,上面的例子就表示,binlog的consume延迟数据分成了6个桶,分别统计了每个桶的 总的consume次数: 延迟小于 0.01 秒的次数: 1 延迟小于 0.1 秒的次数:0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通ket指标看 看效果,虽然这个指标的桶划分不是很合理,也可以说明问题: binlog_consumer_latency_seconds_bucket 这个指标,有一个非常非常重要的标签叫 le,表 示桶上界,上面的例子就表示,binlog的consume延迟数据分成了6个桶,分别统计了每个桶的 总的consume次数: 延迟小于 0.01 秒的次数: 1 延迟小于 0.1 秒的次数:0 码力 | 16 页 | 2.77 MB | 1 年前3
共 4 条
- 1













