 B站统⼀监控系统的设计,演进
与实践分享filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_20 码力 | 34 页 | 650.25 KB | 1 年前3 B站统⼀监控系统的设计,演进
与实践分享filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_20 码力 | 34 页 | 650.25 KB | 1 年前3
 1.6 利用夜莺扩展能力打造全方位监控系统夜莺介绍:国产开源监控系统 第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统夜莺介绍:国产开源监控系统 第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+0 码力 | 40 页 | 3.85 MB | 1 年前3
 告警OnCall事件中心建设方法白皮书
效得多。 如上,是从思路方法层面,对事件的处理做了逻辑讲解。要求所有的监控系统实现这些能力不太现实,而 且会造成一个一个的事件孤岛,所以典型的做法是把所有监控系统生成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
效得多。 如上,是从思路方法层面,对事件的处理做了逻辑讲解。要求所有的监控系统实现这些能力不太现实,而 且会造成一个一个的事件孤岛,所以典型的做法是把所有监控系统生成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1













