高并发 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

// 6 / 120 group_left 和 group_right 这两个关键词用于 one-to-many 和 many-to-one 的匹配场景，left、right 指向高基数的那一侧的 vector。还是拿上面的 method_code:http_errors:rate5m 和 method:http_requests:rate5m 这俩指标来做例子，使用 group_left code="404"} 0.175 // 21 / 120 比如针对 method="get" 的条目，右侧的vector中只有一个记录，但是左侧的vector中有两个记录，所以高基数的一侧是左侧，故而使用 group_left。另外举一个例子，说明 group_left group_right 的一个常见用法，比如我们使用 kube-state- metrics 来采集不一致，所以通过 on(pod) 的语法指定只是按照pod标签来做对应关系。最后，利用 group_left(label_version) 把 label_version 附加到了结果向量中，高基数的部分显然是sum的部分，所以是group_left而非group_right。聚合运算针对单个指标的多个 series，比如100台机器的 mem_available_percent，可能会有一些聚合

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

devops • 热爱新技术,热爱开源 • ⼩小宅男故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多 • 告警⻛风暴暴监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心完整的监控体系⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard

0 码力 | 34 页 | 650.25 KB | 1 年前
3
告警OnCall事件中心建设方法白皮书

有了这样一个故障协同的机制之后，故障被处理掉的概率就大幅提升了，后续再配合一些运营统计手段，统计各个团队的平均故障止损时间，建立红黑榜，大家就会有更高的热情来处理故障。当然，人的热情再高，也不如机器来得快，如果有些告警能够直接关联自动化处理逻辑，无疑可以大大增加事件闭环率。告警自动处理很多监控系统都可以配置 Webhook，当告警触发之后自动回调某个 HTTP 接口，来串联一些自动化的

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 3 条前往

页

PromQL Prometheus 监控系统设计演进实践分享告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

告警OnCall事件中心建设方法白皮书

分类

语言

格式

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享