告警OnCall事件中心建设方法白皮书
入,系统没有自愈能力。这样的系统,需要配备更多运维人员,而且还很难跟老板讲清楚价值。怎么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构 要把关键告警关联到故障,后续基于这个故障做协同就可以了。所谓协同,一个是信息同步、协同处理, 一个是共同复盘、管理跟进项。 故障协同处理 首先,并不是所有的告警都需要升级成故障协同处理。一般来讲,如果告警可以被值班人员直接处理掉, 对别的团队负责的服务没有影响,不需要通知别的团队,通常是不需要升级成故障的,在告警层面来协同 就可以了,自己团队内部消化掉;如果值班人员和他所在的团队没办法独自处理告警,才需要升级成故 有了这样一个故障协同的机制之后,故障被处理掉的概率就大幅提升了,后续再配合一些运营统计手段, 统计各个团队的平均故障止损时间,建立红黑榜,大家就会有更高的热情来处理故障。当然,人的热情再 高,也不如机器来得快,如果有些告警能够直接关联自动化处理逻辑,无疑可以大大增加事件闭环率。 告警自动处理 很多监控系统都可以配置 Webhook,当告警触发之后自动回调某个 HTTP 接口,来串联一些自动化的 逻辑,让告警事0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通(power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用,比如之前的例子,对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的,如果采集器没有计算,而是上报了 原始指标 mem_available 和 mem_total,我们仍然可以使用 promql 计算出可用率指标: 逻辑上,是先根据 mem_availa 讲解,打消各位的疑问。字面意 思上,表示求取一个增量,接收一个 range-vector,range-vector 显然是会返回多个 value+timestamp 的组合,我们直观理解就是,直接把时间范围内最后一个值减去第一个值, 不就可以得到增量了吗?非也!如下图: 1 1 1 这个图上的一些关键信息,我们摘录出文本,具体如下: promql: net_bytes_recv{ 分位的值,但是这个值不是通过promql在服务端计算的,而是在应用的内存里,在SDK层面计 算的,即客户端把这个分位值算好,再上报给服务端,服务端就无需通过histogram_quantile 这么重的函数做计算了,而是直接查看就好。 但是,既然是在客户端SDK层面计算,就会产生局限,这些分位值只能是实例级别(或者说进程 级别,因为SDK是在应用进程里运行的)的分位值,这个是否个问题? 笔者看来,这是个问题,但是0 码力 | 16 页 | 2.77 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如0 码力 | 40 页 | 3.85 MB | 1 年前3
共 3 条
- 1













