B站统⼀监控系统的设计,演进
与实践分享• 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量 客户端质量量 • ⽤用户端⽹网络质量量 • 劫持情况 • 崩溃&卡顿 • 返回码 • 响应时间 • 错误率 服务端监控 ⽤用户端监控 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景 •0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通90分位、99 分位的值,但是这个值不是通过promql在服务端计算的,而是在应用的内存里,在SDK层面计 算的,即客户端把这个分位值算好,再上报给服务端,服务端就无需通过histogram_quantile 这么重的函数做计算了,而是直接查看就好。 但是,既然是在客户端SDK层面计算,就会产生局限,这些分位值只能是实例级别(或者说进程 级别,因为SDK是在应用进程里运行的)的分位值,这个是否个问题?0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













