 告警OnCall事件中心建设方法白皮书
接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事 这个手段听起来并不高大上,但确实非常有 首先,并不是所有的告警都需要升级成故障协同处理。一般来讲,如果告警可以被值班人员直接处理掉, 对别的团队负责的服务没有影响,不需要通知别的团队,通常是不需要升级成故障的,在告警层面来协同 就可以了,自己团队内部消化掉;如果值班人员和他所在的团队没办法独自处理告警,才需要升级成故 障,拉其他团队的人进来一起处理。 多个团队共同处理一个故障,不同团队的人会发现一些不同的线索,需要及时同步给所有相关的人,这个 时候就可 盘,产出一系列跟进项,这个时候就需要这个故障管理模块具备跟进项管理的功能,或者至少能够跟任务 管理系统良好打通。 有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。 告警自动处理0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事 这个手段听起来并不高大上,但确实非常有 首先,并不是所有的告警都需要升级成故障协同处理。一般来讲,如果告警可以被值班人员直接处理掉, 对别的团队负责的服务没有影响,不需要通知别的团队,通常是不需要升级成故障的,在告警层面来协同 就可以了,自己团队内部消化掉;如果值班人员和他所在的团队没办法独自处理告警,才需要升级成故 障,拉其他团队的人进来一起处理。 多个团队共同处理一个故障,不同团队的人会发现一些不同的线索,需要及时同步给所有相关的人,这个 时候就可 盘,产出一系列跟进项,这个时候就需要这个故障管理模块具备跟进项管理的功能,或者至少能够跟任务 管理系统良好打通。 有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。 告警自动处理0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1













