告警OnCall事件中心建设方法白皮书
OnCall 中心功能更强大,我们留待工具实践篇再详细阐述。 接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事0 码力 | 23 页 | 1.75 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享• cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets0 码力 | 34 页 | 650.25 KB | 1 年前3
共 2 条
- 1













