PromQL 从入门到精通selector,查询选择器,用于从一大堆监控数据中,过滤出真正关心 的数据,在 Prometheus 生态里,时序数据的标识,就是一堆标签集合,所以这里的过滤,就 是针对标签做过滤,支持四类操作符: =:完全匹配,比如 app="clickhouse" !=:完全不匹配,比如 app!="clickhouse" =~:正则匹配,比如 app=~"n9e-.*" !~:正则不匹配,比如 sum(http_requests_total{method="GET"} offset 1d) 运算符 PromQL 支持基本的算术运算符和比较运算符,可以对不同的即时向量做运算,这为监控系统 带来了巨大的进步,算术运算符让很多计算不需要在采集端做了,可以轻易挪到服务端,而比较 运算符则为告警逻辑提供了支撑。 算术运算符 + (addition) - (subtraction) * (multiplication) / (division) % (modulo) ^ (power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用,比如之前的例子,对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的,如果采集器没有计算,而是上报了 原始指标 mem_available 和 mem_total,我们仍然可以使用0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的 逻辑,让告警事件无人值守自动处理。比如某个机房的某个服务挂掉了,Webhook 的逻辑是自动调用切 流的接口,把服务流量切走,这样来达到止损的目的。 告警自动处理的这段逻辑,未必一定能够做到告警自愈,有的时候只是使用这个机制来抓现场,也是非常 有价值的。比如某个进程挂掉了,在挂掉0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













