 告警OnCall事件中心建设方法白皮书
中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、阿里云的 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elasta 第一个菜单就是协作空间,就是这个设 计初衷。 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
中心建设方法 一站式处理值班 OnCall,智能降噪 北京快猫星云科技有限公司 前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、阿里云的 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elasta 第一个菜单就是协作空间,就是这个设 计初衷。 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个0 码力 | 23 页 | 1.75 MB | 1 年前3
 PromQL 从入门到精通http_request_duration_seconds_bucket{job="n9e-proxy", le="0.1"} 500 http_request_duration_seconds_bucket{job="n9e-proxy", le="1"} 700 http_request_duration_seconds_bucket{job="n9e-proxy", le="10"} 850 http_request_ http_request_duration_seconds_bucket{job="n9e-proxy", le="20"} 1000 http_request_duration_seconds_bucket{job="n9e-proxy", le="+Inf"} 1000 根据这个数据,我们可以计算出落在各个延迟区间的请求数量,如下: 0 ~ 0.1 : 500 0.1 ~ 1 : 200 1 ~ 10 histogram_quantile(0.9, rate(http_request_duration_seconds_bucket[10m])) 上面的例子,是会对每个请求分别做计算,假设有两个模块:n9e-proxy、n9e-webapi,都统 计了 http_request_duration_seconds_bucket ,我们可能希望以模块为颗粒度,分别计算每 个模块的90分位延迟,写法是: histogram_quantile(0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通http_request_duration_seconds_bucket{job="n9e-proxy", le="0.1"} 500 http_request_duration_seconds_bucket{job="n9e-proxy", le="1"} 700 http_request_duration_seconds_bucket{job="n9e-proxy", le="10"} 850 http_request_ http_request_duration_seconds_bucket{job="n9e-proxy", le="20"} 1000 http_request_duration_seconds_bucket{job="n9e-proxy", le="+Inf"} 1000 根据这个数据,我们可以计算出落在各个延迟区间的请求数量,如下: 0 ~ 0.1 : 500 0.1 ~ 1 : 200 1 ~ 10 histogram_quantile(0.9, rate(http_request_duration_seconds_bucket[10m])) 上面的例子,是会对每个请求分别做计算,假设有两个模块:n9e-proxy、n9e-webapi,都统 计了 http_request_duration_seconds_bucket ,我们可能希望以模块为颗粒度,分别计算每 个模块的90分位延迟,写法是: histogram_quantile(0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1













