告警OnCall事件中心建设方法白皮书
监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 思路方法和工具实践两个方面分 别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环 处理等等。看起来需求很多,最核心的痛点有两个: ● 告警太多,打扰太多 ● 告警疏漏,无法闭环 我们先来看第一个痛点,首先分析一下造成告警太 器查看要高效得多。 如上,是从思路方法层面,对事件的处理做了逻辑讲解。要求所有的监控系统实现这些能力不太现实,而 且会造成一个一个的事件孤岛,所以典型的做法是把所有监控系统生成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通显然是sum的部分,所以是group_left而非group_right。 聚合运算 针对单个指标的多个 series,比如100台机器的 mem_available_percent,可能会有一些聚合 需求,比如想查看这100台机器的平均内存可用率,或者排个序,取数值最小的10台。这种需求 使用promql内置的聚合函数来做。 sum (calculate sum over dimensions) 一条曲线,那个 故障的机器,对应的曲线应该是恰好严重偏离其他曲线,正好可以借机知道具体是哪个实例/机 器出了问题。_over_time 这类聚合函数和聚合运算章节提供的sum、avg等聚合运算符非常像,容易混淆,着重做一个说 明,比如avg,参数是instant-vector,是在同一时刻,对多个series的多个值求平均,而 avg_over_time,参数是 0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













