PromQL 从入门到精通load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 之后,就持续递增的,对于这种类型的值,我们通常关注的不是当前值是多少,而是关注增量和 变化率。我们在机器上执行 ifconfig 命令: eth0: flags=4163操作符: =:完全匹配,比如 app="clickhouse" !=:完全不匹配,比如 app!="clickhouse" =~:正则匹配,比如 app=~"n9e-.*" !~:正则不匹配,比如 存在着完全匹配的标签集,其他元素被删除。metric的名称和值从左边的向量转移过来。 用于什么场景?先经过 vector1 做过滤得到一批监控数据,可能里边有一些是不想要的,可以 用 and 操作符,再加一个条件,用另一个 metric 的值做一些二次过滤。举例: disk_used_percent{app="clickhouse"} > 70 and disk_total{app=" 0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
复的情况,称为告警抖动,FlashDuty 针对这种情 况做了专项支持: 告警静默 静默规则通常用于预期内的维护行为。比如计划重启某个机器,那可以提前屏蔽这个机器相关的告警,避 免操作的时候造成打扰。 屏蔽支持某个时间段内单次屏蔽,也支持周期屏蔽,比如固定的周末不发告警。 抑制规则 典型的场景是 Critical 的告警抑制同类的 Warning、Info ,极大提升 故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下: 对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













