PromQL 从入门到精通比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上 statuscode 的标签即 可,然后可以求取非 5xx 非 4xx 的请求占比,即可得到成功的数量,除以总量就是成功率。 1 2 3 而对于延迟,如果只是求取平均延迟,代价也比较小,只要把请求总量做成一个 Counter 指 标,把耗时总量做成一个 求,可能恰好是暴露问题的200个请求。 所以在看延迟数据时,我们通常会用分位值,比如99分位,90分位,50分位,所谓的分位值, 就是把一段时间内的所有延迟数据从小到大排序,99分位就是看第99%位置的那个值的大小。 还是上面的例子,平均响应时间是1.18秒,但是99分位时间是10秒,相差巨大,更容易暴露问 题。这里所谓的99分位延迟10秒,可以理解为,99%的请求都在10秒内返回。 的设计初衷了。 Histogram 类型,是把延迟数据分到多个桶里,比如下面的例子,我们查询一个bucket指标看 看效果,虽然这个指标的桶划分不是很合理,也可以说明问题: binlog_consumer_latency_seconds_bucket 这个指标,有一个非常非常重要的标签叫 le,表 示桶上界,上面的例子就表示,binlog的consume延迟数据分成了6个桶,分别统计了每个桶的 总的consume次数:0 码力 | 16 页 | 2.77 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。 OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













