集下 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

(multiplication)  / (division)  % (modulo)  ^ (power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用，比如之前的例子，对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的，如果采集器没有计算，而是上报了原始指标 mem_available 逻辑/集合运算符相关运算符有三个：and、or、unless 用于 instant-vector 之间的运算。首先来解释一下各个运算符的行为。 and vector1 and vector2，其结果是一个由vector1的元素组成的向量，对于这些元素，vector2中存在着完全匹配的标签集，其他元素被删除。metric的名称和值从左边的向量转移过来。用于什么场景？先经过 vector1 做过滤率70%还有非常大的余量，所以这里我们使用and附加一个条件，限制一下disk_total，即磁盘总大小，磁盘总大小小于500GB，才适用磁盘利用率大于70%这个规则。 or vector1 or vector2，其结果是一个向量，包含vector1的所有原始元素（标签集+值）以及 vector2中所有在vector1中没有匹配标签集的元素。举一个例子，比如系统负载，有最近1分钟、最近5分钟、最近15分钟的负载，需求是：最近1分

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

Prometheus（Kubernetes 可能有多套，以至于 Prometheus 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。监控系统的重心，通常是采集、存储、可视化、生成告警事件，但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。看起来需求很多，最核心的痛点有两个： ● 告警太多，打扰太多 ● 告警疏漏，无法闭环我们先来看第一个痛点，首先分析一下造成告警太多、打扰太多的原因是什么，然后针对原因提出对应的方案。告警太多的常见原因最常见的原因，是告警规则设置得不合理。比如很多规则触发了告警之后，实际没有后续动作，只是起到第四个原因是预期内的维护动作导致的。比如程序升级变更，如果进程重启时间过长，可能会导致关联的服务告警，或者某个机器重启，忘记提前屏蔽了，也会产生一堆关联告警。了解了常见原因，下面我们来看一下有哪些常见解法。优化告警规则类似 PagerDuty FlashDuty 这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 2 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书