B站统⼀监控系统的设计,演进
与实践分享固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target0 码力 | 34 页 | 650.25 KB | 1 年前3
PromQL 从入门到精通上面的图是查询的最近一小时的,我们切换到 Table 视图,得到如下结果: 这个表格的内容,是这 5 台机器在当前这个时间点的最新值,当前我做查询的时刻是:2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数: 但是,监控数据是周期性上报的,比如每 10 秒上报一次,在 2022-08-25 15:48:03 这个时 刻,未必恰好有监控数据啊,那这个 Table 中的数据是哪里来的?0 码力 | 16 页 | 2.77 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统01.监控数据采集,all in one的agentd Agentd 进程存 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设0 码力 | 40 页 | 3.85 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
用钉钉发送,会呈现为一张告警消息卡片: 我们可以直接在钉钉(或飞书、企微等 IM)内部点击跟进,或直接关闭、临时屏蔽,方便地移动办公。 当然,也可以登录 FlashDuty,在 WEB 上查看,需要有个非常直观的页面告诉用户您当前有哪些告 警,分成了几类,每一类有多少条之类的。 告警/故障查看 OnCall 中心需要对接各类监控系统,同一时间可能会有很多告警事件发到0 码力 | 23 页 | 1.75 MB | 1 年前3
共 4 条
- 1













