B站统⼀监控系统的设计,演进
与实践分享B站统⼀一监控系统的设计,演进 与实践分享 梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通metric的标签可能并非完全一致,不过好在二者都有个instance标签,且相同instance标签的数 据从语义上来看就表示一个实例的多个指标数据,那就可以用on关键字,指定只使用instance 标签做匹配,忽略其他标签。 与on相反的是ignoring关键字,顾名思义,ignoring是忽略掉某些标签,用剩下的标签来做匹 配。我们拿 Prometheus 文档中的例子来说明: ## example series m ouse"}) 1 2 3 4 1 2 另外,我们有时会有分组统计的需求,比如我想分别统计clickhouse和canal的机器的内存可用 率,可以使用by关键字指定分组统计的维度(与by相反的是without): avg(mem_available_percent{app=~"clickhouse|canal"}) by (app) 函数 Prometheus 函数非常多 大概是: (20-10)*(50/150)+10=13s 这是假设数据是均匀分布在各个桶的,假设10~20那个桶的150个请求,最大延迟的那个请求, 其延迟数据是11秒,而这里算出13秒,显然与现实不符,不符也没办法,这本来就是个预估 值,知道大概数量级就可以了,还是那句话,监控数据是采样数据,这么计算虽然不是那么准 确,但是成本低。 实际上,我们基于某个指标的历史所有数据计算分位值,意义不大,通常我们是基于最近一段时0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













