 1.6 利用夜莺扩展能力打造全方位监控系统Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节0 码力 | 40 页 | 3.85 MB | 1 年前3
 告警OnCall事件中心建设方法白皮书
警,分成了几类,每一类有多少条之类的。 告警/故障查看 OnCall 中心需要对接各类监控系统,同一时间可能会有很多告警事件发到 OnCall 中心,在中心统一查 看、处理,这需要一个良好的组织形式,否则看起来就会很混乱。上文中我们介绍了两级收敛机制, events -> alerts -> incidents: 与其看到最底层的 events,我们肯定更希望看到 incidents,incidents0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
警,分成了几类,每一类有多少条之类的。 告警/故障查看 OnCall 中心需要对接各类监控系统,同一时间可能会有很多告警事件发到 OnCall 中心,在中心统一查 看、处理,这需要一个良好的组织形式,否则看起来就会很混乱。上文中我们介绍了两级收敛机制, events -> alerts -> incidents: 与其看到最底层的 events,我们肯定更希望看到 incidents,incidents0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













