PromQL 从入门到精通// 6 / 120 group_left 和 group_right 这两个关键词用于 one-to-many 和 many-to-one 的匹配场景,left、right 指向高基数的那一 侧的 vector。还是拿上面的 method_code:http_errors:rate5m 和 method:http_requests:rate5m 这俩指标来做例子,使用 group_left code="404"} 0.175 // 21 / 120 比如针对 method="get" 的条目,右侧的vector中只有一个记录,但是左侧的vector中有两个 记录,所以高基数的一侧是左侧,故而使用 group_left。 另外举一个例子,说明 group_left group_right 的一个常见用法,比如我们使用 kube-state- metrics 来采集 不一致,所以通过 on(pod) 的语法指定只是按照pod标签来做对应关系。 最后,利用 group_left(label_version) 把 label_version 附加到了结果向量中,高基数的部分 显然是sum的部分,所以是group_left而非group_right。 聚合运算 针对单个指标的多个 series,比如100台机器的 mem_available_percent,可能会有一些聚合0 码力 | 16 页 | 2.77 MB | 1 年前3
 B站统⼀监控系统的设计,演进
与实践分享devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点 现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard0 码力 | 34 页 | 650.25 KB | 1 年前3
 告警OnCall事件中心建设方法白皮书
有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。 告警自动处理 很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1
 













