B站统⼀监控系统的设计,演进
与实践分享http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通histogram_quantile 有个估计算法,它假设落在各个 bucket 的数据是均匀分布的,即10~20这个区间的150个请求,延迟最小的那个请求是10s,延迟最大 的那个请求是20秒,总的第900个请求,就是这个区间的第50个请求,其延迟数据大概是: (20-10)*(50/150)+10=13s 这是假设数据是均匀分布在各个桶的,假设10~20那个桶的150个请求,最大延迟的那个请求, 其延迟0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
电话、短信、即时消息、邮件 影响收入的、影响客户的,必须立刻处理 Warning 短信、即时消息、邮件 无需立刻处理,但是如果不处理,时间久了就会 演化为 Critical 的问题,可以先放入 TODO 列 表,手头上的紧急事务搞定之后就去处理 Info 邮件 每天下班前稍微看一眼,偶尔一两天忘了看也无 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1













