告警OnCall事件中心建设方法白皮书
刚才的例子,告警策略的 ID 假设为 32,标签集是:[“name=cpu_usage_idle”, “host=host1”], 这两个时间戳产生的告警事件,哈希值都是一样的。 计算方法是: hash(32 + ["__name__=cpu_usage_idle", "host=host1"]) 从 event 到 alert 的这个收敛逻辑,我们叫做一级收敛。只有这个收敛逻辑还不够,告警信息还是比较 。那具体如何聚合呢? 告警聚合 事件到告警的聚合比较容易,通常是用类似下面的算法来计算不同事件的关联关系: hash(32 + ["__name__=cpu_usage_idle", "host=host1"]) 这个值姑且称为事件 Hash,相同 Hash 的事件就被聚合为一条告警。更复杂的是告警到故障的合并,当 前我们支持基于规则的聚合,后面会基于算法聚合:0 码力 | 23 页 | 1.75 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享使⽤用成本 问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets hash • horizontal sharding (实验性质使⽤用) • prometheus 2.0 (tsdb) HA prometheus server1 server2 server30 码力 | 34 页 | 650.25 KB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.Outro PromQL Quick is not quick enough Brian Brazil optimized PromQL 5x faster for time vector functions 100x reduction in garbage to collect Richard Hartmann & Frederic Branczyk @TwitchiH & @fredbrancz0 码力 | 34 页 | 370.20 KB | 1 年前3
PromQL 从入门到精通by (app) 函数 Prometheus 函数非常多,具体文档参考:https://prometheus.io/docs/prometheus/latest/ querying/functions/ 这一节我们举例说明一些常用的函数。 absent_over_time 接收一个 range-vector,如果range-vector是空,则返回1,表示absent,如果range-vector0 码力 | 16 页 | 2.77 MB | 1 年前3
共 4 条
- 1













