告警OnCall事件中心建设方法白皮书事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 除了原则方面,另一个应对过多告警的方法就是靠产品工具了,比如告警事件在哪些时间段发送、如何过 滤、如何屏蔽、如何抑制等等,通常,监控系统和统一的 OnCall 中心( PagerDuty FlashDuty 这种产 品)在这些功能上会有一定的重叠,不过监控系统在这方面做得参差不齐,整体能力偏弱,使用统一的 OnCall 中心功能更强大,我们留待工具实践篇再详细阐述。 接下来我们聊一下“告警疏漏、无法闭环”的问题,核心0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













