告警OnCall事件中心建设方法白皮书
并成故障(incident),最终通知用户的是一个个故 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 的有效手段),其次是团队(团队可以降低人 员管理的负担),其次是个人(最不推荐,难以维护)。FlashDuty 提供了值班表功能,可以做日常排班以 及节假日临时排班: 在 FlashDuty 里,通知的对象不是原始的告警事件,因为原始的告警事件可能会非常多,如上文所述, FlashDuty 会把事件聚合为告警,告警聚合为故障,最终通知的是故障。那具体如何聚合呢? 告警聚合 事件到告警的聚合比0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通group_left。 另外举一个例子,说明 group_left group_right 的一个常见用法,比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据,其中针对 pod 有个指标是 kube_pod_labels,会把 pod 的一些信息放到这个指标的标签里,指标值是1,相当于一个元信 息,比如: kube_pod_labels{0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













