表 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

电话、短信、即时消息、邮件影响收入的、影响客户的，必须立刻处理 Warning 短信、即时消息、邮件无需立刻处理，但是如果不处理，时间久了就会演化为 Critical 的问题，可以先放入 TODO 列表，手头上的紧急事务搞定之后就去处理 Info 邮件每天下班前稍微看一眼，偶尔一两天忘了看也无伤大雅另外，如果 Critical 的告警规则很多，大概率也有问题，说明系统架构不够鲁棒，出点什么事都要立刻介决，其他不值班的人则可以心无旁骛地做一些长线的事情，不至于总是被告警打断。排班系统通常不开源，通常是作为事件中心的一个功能，PagerDuty 就提供了排班能力，即使没有系统支持，也建议人为制定一个排班表，把这个制度落实下去，对告警闭环处理也会有很大帮助。值班人员在值班期间，虽然已经高度重视了，但也难免疏漏，这就需要告警升级机制了。告警升级机制告警升级是指在第一责任人收到 120 秒，如果在延迟等待期内，告警自动恢复或被人工处理，则不会发送该条告警。 OK，接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队，也可以通知某个值班表，值班表的值班人接收告警。不同的严重程度的告警，还可以有不同的通知媒介，比如飞书、钉钉、企微、电话、短信、邮箱等。通知了之后，相关的人可能没注意到，可以配置重复通知，比如 10 分钟之后再次通知。如果多次通知，

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

ket指标看看效果，虽然这个指标的桶划分不是很合理，也可以说明问题： binlog_consumer_latency_seconds_bucket 这个指标，有一个非常非常重要的标签叫 le，表示桶上界，上面的例子就表示，binlog的consume延迟数据分成了6个桶，分别统计了每个桶的总的consume次数：延迟小于 0.01 秒的次数: 1 延迟小于 0.1 秒的次数:

0 码力 | 16 页 | 2.77 MB | 1 年前
3

共 2 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通