告警OnCall事件中心建设方法白皮书
以大大增加事件闭环率。 告警自动处理 很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的 逻辑,让告警事件无人值守自动处理。比如某个机房的某个服务挂掉了,Webhook 的逻辑是自动调用切 流的接口,把服务流量切走,这样来达到止损的目的。 告警自动处理的这段逻辑,未必一定能够做到告警自愈,有的时候只是使用这个机制来抓现场,也是非常0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通histogram_quantile 函数的用法,首先得了解 Histogram 类型的数据。Histogram 翻 译过来是柱状图,设计这个数据类型,是为了描述响应延时的情况。 比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上 statuscode 的标签即 可,然后可以求取非 5xx 非 4xx0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













