告警OnCall事件中心建设方法白皮书
电话、短信、即时消息、邮件 影响收入的、影响客户的,必须立刻处理 Warning 短信、即时消息、邮件 无需立刻处理,但是如果不处理,时间久了就会 演化为 Critical 的问题,可以先放入 TODO 列 表,手头上的紧急事务搞定之后就去处理 Info 邮件 每天下班前稍微看一眼,偶尔一两天忘了看也无 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了,但也难免疏漏,这就需要告警升级机制了。 告警升级机制 告警升级是指在第一责任人收到 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值班人接收告警。不同的严重程度的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知,0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通ket指标看 看效果,虽然这个指标的桶划分不是很合理,也可以说明问题: binlog_consumer_latency_seconds_bucket 这个指标,有一个非常非常重要的标签叫 le,表 示桶上界,上面的例子就表示,binlog的consume延迟数据分成了6个桶,分别统计了每个桶的 总的consume次数: 延迟小于 0.01 秒的次数: 1 延迟小于 0.1 秒的次数:0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













