B站统⼀监控系统的设计,演进
与实践分享降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通要配置100条告 警规则,每个规则里的promql都要把机器标识信息写上。 ? 对于拉模式的监控系统,比如 Prometheus,很容易判断机器失联,因为 pull 不到数据 了,就知道 target 挂了,通过 up 指标就可以告警;对于推模式的监控系统,比如 Open- Falcon、Datadog、Nightingale,就不好搞了。所以夜莺的告警规则里专门做了一个机器 告警类型,用于机器失联告警。0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













