 B站统⼀监控系统的设计,演进
与实践分享产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试 科学的告警策略略 科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义 可读的 • 时间 • 源头 • 规则 • 影响0 码力 | 34 页 | 650.25 KB | 1 年前3 B站统⼀监控系统的设计,演进
与实践分享产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试 科学的告警策略略 科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义 可读的 • 时间 • 源头 • 规则 • 影响0 码力 | 34 页 | 650.25 KB | 1 年前3
 PromQL 从入门到精通_time、count_eq_over_time 道理相同。 小结 上面的知识点是 PromQL 的常规知识,尽量融入了一些生产实践的场景,当然,PromQL 还有 更多函数没有介绍,大家可以阅读其文档学习。 我是来自快猫星云(https://flashcat.cloud/)的秦晓辉,在监控/可观测性道路上,伴你前行 :-)0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通_time、count_eq_over_time 道理相同。 小结 上面的知识点是 PromQL 的常规知识,尽量融入了一些生产实践的场景,当然,PromQL 还有 更多函数没有介绍,大家可以阅读其文档学习。 我是来自快猫星云(https://flashcat.cloud/)的秦晓辉,在监控/可观测性道路上,伴你前行 :-)0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













