 告警OnCall事件中心建设方法白皮书事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾 工具了,比如告警事件在哪些时间段发送、如何过 滤、如何屏蔽、如何抑制等等,通常,监控系统和统一的 OnCall 中心( PagerDuty FlashDuty 这种产 品)在这些功能上会有一定的重叠,不过监控系统在这方面做得参差不齐,整体能力偏弱,使用统一的 OnCall 中心功能更强大,我们留待工具实践篇再详细阐述。 接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾 工具了,比如告警事件在哪些时间段发送、如何过 滤、如何屏蔽、如何抑制等等,通常,监控系统和统一的 OnCall 中心( PagerDuty FlashDuty 这种产 品)在这些功能上会有一定的重叠,不过监控系统在这方面做得参差不齐,整体能力偏弱,使用统一的 OnCall 中心功能更强大,我们留待工具实践篇再详细阐述。 接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 轮班的人在值班期间是第一责任人,会拿出 120% 的精力来处理问题,责任到人显然更容易推进问题解 决,其他不值班的人则可以心无旁骛地做一些长线的事情,不至于总是被告警打断。 排班系统通常不开源,通常是作为事件中心的一个功能,PagerDuty 就提供了排班能力,即使没有系统 支持,也建议人为制定一个排班表,把这个制度落实下去,对告警闭环处理也会有很大帮助。 值班人员在值班期间,虽然已经高度重视了0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













