分布式消息引擎 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

B站统⼀监控系统的设计,演进与实践分享

机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志播放质量量 • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本问题: ? 性能问题 • 本地ssd prometheus Shard A prometheus Shard B prometheus Shard C targets

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

如上的方法，其实就是告警引擎的核心逻辑。告警规则里会要求用户配置promql以及执行频率，告警引擎就会根据执行频率周期性执行，每次执行的时候就是拿着promql去查询，promql 中带有阈值，即上例中的 <60，所以如果所有机器的内存可用率都很高，比如维持在80~90，那这个promql是不会返回查询结果的，此时监控系统就认为一切正常。如果返回了结果，比如上例中返回了3条结果，告警引擎就会认为有异常产生，生成3个告警事件。

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

，如果某两个级别对应完全一样的处理逻辑，就可以合并成一个级别。我的做法是把告警分成 3 个级别。级别通知渠道说明 Critical 电话、短信、即时消息、邮件影响收入的、影响客户的，必须立刻处理 Warning 短信、即时消息、邮件无需立刻处理，但是如果不处理，时间久了就会演化为 Critical 的问题，可以先放入 TODO 列表，手头上的紧急事务搞定之后就去处理 90%，实际机器的内存使用率已经 95%，此时就只会发送 Critical 的事件，Info 的就被忽略了。相关策略配置好之后，就可以收告警了，比如利用钉钉发送，会呈现为一张告警消息卡片：我们可以直接在钉钉（或飞书、企微等 IM）内部点击跟进，或直接关闭、临时屏蔽，方便地移动办公。当然，也可以登录 FlashDuty，在 WEB 上查看，需要有个非常直观的页面告诉用户您当前有哪些告

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 3 条前往

页

监控系统设计演进实践分享 PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享