B站统⼀监控系统的设计,演进
与实践分享科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义 可读的 • 时间 • 源头 • 规则 • 影响 • 状态 正确的 有价值的 • 发现问题 • 正确反映现实 案例例1 告警规则: 业务A 慢请求量量 > 10k/s 固定阈值 告警阈值需要随着流量量变化⽽而调整 wrong 建议: 告警规则:0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通只是为了上报监控数据的 Client 侧的便利,可 以看做是组合使用了 Gauge 和 Counter。所以我们重点就来讲解 Gauge 和 Counter 类型。 Gauge 类型 Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













