小程序 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出，用户可能会觉得单一渠道不可靠，想用多个渠道同时发送的方式来保障告警触达率，这也属于告警规则配置不合理的范畴。第四个原因是预期内的维护动作导致的。比如程序升级变更，如果进程重启时间过长，可能会导致关联的服务告警，或者某个机器重启，忘记提前屏蔽了，也会产生一堆关联告警。了解了常见原因，下面我们来看一下有哪些常见解法。优化告警规则散，不能基于这些散乱的告警分别做协同，把多个 alert 收敛成一个 incident（故障），基于 incident 做协同才比较方便。但是，event 到 alert 是有一个固定的收敛逻辑的，可以通过程序自动收敛，而 alert 到 incident 却很难自动收敛。不过业界也会有一些常见的做法，下面我举几个例子。 1、根据时间做收敛把告警中心收到的所有告警，按照时间维度做收敛，如上图，最外层是故障列表（看起来比较多，这是我们的测试环境，正常来说，生产环境的故障不会很多，否则就说明出大问题了），每个故障关联了多少个告警，有个小警铃的图标可以看到，点击这个故障，右侧会出现一个抽屉，看到故障详情。关联告警这一栏，可以看到这个故障关联了哪些告警，每个告警也带有一个小锁链的图标，展示了关联的原始事件个数。另外，FlashDuty 不但提供了故障视图，还直接提供了告警视图，两个视图都有两种展示方式：列表展示

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

Client 侧的便利，可以看做是组合使用了 Gauge 和 Counter。所以我们重点就来讲解 Gauge 和 Counter 类型。 Gauge 类型 Gauge 类型的值表示当前的状态，可大可小、可负可正，比如某个虚机实例挂了，用 0 表示，如果实例存活，用 1 表示；再比如内存使用率，这个时刻采集是 33.7%，下个周期采集可能就变成了 25.8%；还有像机器最近 5 分钟的 load、正在运行的进程数量等等，都使用 mem_available 的5条记录，对于每一条，去 mem_total 的5条记录中找标签相同的记录，进行除法运算。除法运算得到5条结果（0~1之间的数字），然后跟100相乘（得到百分比大小），100这个数字称为标量，5条结果和标量计算，会把每一条结果分别乘以100，得到最终的结果，这个最终结果其实就是 mem_available_percent。如果分子和分母对应的select

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

B站统⼀一监控系统的设计,演进与实践分享梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 3 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 监控系统设计演进实践分享

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享