直接寻址 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

入，系统没有自愈能力。这样的系统，需要配备更多运维人员，而且还很难跟老板讲清楚价值。怎么办？这就需要制定运维准入规则，哪个系统要交给运维人员来运维，首先要提供一些信息。 ● 相关联系人，出了问题能够及时找到人，联系不上的话得能直接联系研发领导。 ● 服务相关信息，比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常见问题还有处理办法等等。然后进行准入评审及准入测试，如果系统架构要把关键告警关联到故障，后续基于这个故障做协同就可以了。所谓协同，一个是信息同步、协同处理，一个是共同复盘、管理跟进项。故障协同处理首先，并不是所有的告警都需要升级成故障协同处理。一般来讲，如果告警可以被值班人员直接处理掉，对别的团队负责的服务没有影响，不需要通知别的团队，通常是不需要升级成故障的，在告警层面来协同就可以了，自己团队内部消化掉；如果值班人员和他所在的团队没办法独自处理告警，才需要升级成故有了这样一个故障协同的机制之后，故障被处理掉的概率就大幅提升了，后续再配合一些运营统计手段，统计各个团队的平均故障止损时间，建立红黑榜，大家就会有更高的热情来处理故障。当然，人的热情再高，也不如机器来得快，如果有些告警能够直接关联自动化处理逻辑，无疑可以大大增加事件闭环率。告警自动处理很多监控系统都可以配置 Webhook，当告警触发之后自动回调某个 HTTP 接口，来串联一些自动化的逻辑，让告警事

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

(power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用，比如之前的例子，对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的，如果采集器没有计算，而是上报了原始指标 mem_available 和 mem_total，我们仍然可以使用 promql 计算出可用率指标：逻辑上，是先根据 mem_availa 讲解，打消各位的疑问。字面意思上，表示求取一个增量，接收一个 range-vector，range-vector 显然是会返回多个 value+timestamp 的组合，我们直观理解就是，直接把时间范围内最后一个值减去第一个值，不就可以得到增量了吗？非也！如下图： 1 1 1 这个图上的一些关键信息，我们摘录出文本，具体如下： promql: net_bytes_recv{ 分位的值，但是这个值不是通过promql在服务端计算的，而是在应用的内存里，在SDK层面计算的，即客户端把这个分位值算好，再上报给服务端，服务端就无需通过histogram_quantile 这么重的函数做计算了，而是直接查看就好。但是，既然是在客户端SDK层面计算，就会产生局限，这些分位值只能是实例级别（或者说进程级别，因为SDK是在应用进程里运行的）的分位值，这个是否个问题？笔者看来，这是个问题，但是

0 码力 | 16 页 | 2.77 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

运维监控需求来源第一部分如果贵司的业务强依赖IT技术，IT故障会直接影响营业收入，稳定性体系一定要重视起来，而监控，就是稳定性体系中至关重要的一环运维监控需求来源 01.监控的原始需求来自业务稳定性左图是2013年的一个新闻，讲 Google宕机的影响。2020年也出现过aws大规模宕机的情况，影响不止是55万美元，直接影响大半个互联网！ 2018年有美国调研机构指出，如

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 3 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 1.6 利用夜莺扩展能力打造方位全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

1.6 利用夜莺扩展能力打造全方位监控系统