告警OnCall事件中心建设方法白皮书
作为一个通知,好像又确实难以 对应一个固定的 Runbook。 针对这两种情况,我的做法是:不紧急的告警,也必须要有动作,虽然这个动作可能不是立马执行处理, 但至少要创建个低优先级的工单之类的,或者提高告警阈值,等问题严重一些再告警。对于只是想通知一 下的告警,其实都不算告警,只能看作是一种另类的报表和巡检手段,这样的“告警”就按照报表和巡检 的逻辑来处理,比如把这类“告警”发到 URL,这样监控系统告警的时候,就会把告警事件推给 FlashDuty 的这个“支付”协作空间了。 在协作空间下面创建的集成,我们称为「专属集成」,还有一类集成称为「全局集成」,在集成中心这个菜 单下。监控系统通过 Webhook 发给「全局集成」的告警事件,怎么进入协作空间的呢?通过在协作空 间里配置订阅规则。 订阅规则 订阅规则是一些过滤条件(通过事件标签、属性等),用于匹配告警事件,匹配到的告警事件,自动进入 况做了专项支持: 告警静默 静默规则通常用于预期内的维护行为。比如计划重启某个机器,那可以提前屏蔽这个机器相关的告警,避 免操作的时候造成打扰。 屏蔽支持某个时间段内单次屏蔽,也支持周期屏蔽,比如固定的周末不发告警。 抑制规则 典型的场景是 Critical 的告警抑制同类的 Warning、Info 的告警。比如产生了两个告警事件,一个是 Info0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













