告警OnCall事件中心建设方法白皮书
有动作,虽然这个动作可能不是立马执行处理, 但至少要创建个低优先级的工单之类的,或者提高告警阈值,等问题严重一些再告警。对于只是想通知一 下的告警,其实都不算告警,只能看作是一种另类的报表和巡检手段,这样的“告警”就按照报表和巡检 的逻辑来处理,比如把这类“告警”发到一个单独的邮件组或者单独的聊天群组,平时都不用关注,只要 每天早上上班或晚上下班之前稍微看一眼就行,这样就可以减少打扰。 谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事 这个手段听起来并不高大上,但确实非常有效。值班期间虽然提心吊胆的,生怕背锅,但因为是轮班制, 心里总有个盼头,挺过这个周期就好了。 盘,产出一系列跟进项,这个时候就需要这个故障管理模块具备跟进项管理的功能,或者至少能够跟任务 管理系统良好打通。 有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。0 码力 | 23 页 | 1.75 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流0 码力 | 34 页 | 650.25 KB | 1 年前3
共 2 条
- 1













