发布说明 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

alerting rule 的 for 关键字，或者夜莺中的持续时长的配置，表示在一个时间范围内多次执行，每次都触发了才告警。像上例触发了3个告警事件，如果后面继续周期性使用promql查询查不到数据了，就说明最新的mem_available_percent数据不再小于60，即告警恢复。逻辑/集合运算符相关运算符有三个：and、or、unless 用于 instant-vector 之间的运算。首先来解释一下各个 stance 标签做匹配，忽略其他标签。与on相反的是ignoring关键字，顾名思义，ignoring是忽略掉某些标签，用剩下的标签来做匹配。我们拿 Prometheus 文档中的例子来说明： ## example series method_code:http_errors:rate5m{method="get", code="500"} 24 method_code:htt 120 比如针对 method="get" 的条目，右侧的vector中只有一个记录，但是左侧的vector中有两个记录，所以高基数的一侧是左侧，故而使用 group_left。另外举一个例子，说明 group_left group_right 的一个常见用法，比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据，其中针对 pod 有个指标是

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

通知范围不同，或者介入处理的人的范围不同，处理时效不同，如果某两个级别对应完全一样的处理逻辑，就可以合并成一个级别。我的做法是把告警分成 3 个级别。级别通知渠道说明 Critical 电话、短信、即时消息、邮件影响收入的、影响客户的，必须立刻处理 Warning 短信、即时消息、邮件无需立刻处理，但是如果不处理，时间久了就会演化为 Critical TODO 列表，手头上的紧急事务搞定之后就去处理 Info 邮件每天下班前稍微看一眼，偶尔一两天忘了看也无伤大雅另外，如果 Critical 的告警规则很多，大概率也有问题，说明系统架构不够鲁棒，出点什么事都要立刻介入，系统没有自愈能力。这样的系统，需要配备更多运维人员，而且还很难跟老板讲清楚价值。怎么办？这就需要制定运维准入规则，哪个系统要交给运维人员来运维，首先要提供一些信息。、哪些 JVM 参数、常见问题还有处理办法等等。然后进行准入评审及准入测试，如果系统架构有明显问题，就没办法通过准入要求，不接受运维，如果老板要求必须接，那就只能加人了，或者明确说明在架构调整好之前，不负责 SLA，反推业务改造。上面介绍的两个告警规则优化原则，是最重要的两个原则。照做的话，可以搞定大部分无效告警。除了原则方面，另一个应对过多告警的方法就

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 2 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书