模块开发 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

上面的图是查询的最近一小时的，我们切换到 Table 视图，得到如下结果：这个表格的内容，是这 5 台机器在当前这个时间点的最新值，当前我做查询的时刻是：2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数：但是，监控数据是周期性上报的，比如每 10 秒上报一次，在 2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？ ation_seconds_bucket[10m])) 上面的例子，是会对每个请求分别做计算，假设有两个模块：n9e-proxy、n9e-webapi，都统计了 http_request_duration_seconds_bucket ，我们可能希望以模块为颗粒度，分别计算每个模块的90分位延迟，写法是： histogram_quantile( 0.9, sum by (job, le) (rate(http_request_duration_seconds_bucket[10m])) ) 注意，这里通过job标签来区分模块，le是计算histogram_quantile必须的，所以也要放到sum by后面，如果我们要计算全部数据的90分位值呢（虽然这大概率是个伪需求）？ histogram_quantile( 0.9, 1 2 3 4 5 1 2

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多 • 告警⻛风暴暴监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征选型原则 • 基于开源⽅方案，⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • > 0.3 * requests:holt_winters_rate1h offset 7d 告警规则: 预测业务A请求量量异常异常响应 todo • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析针对历史事件针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损针对未来事件 • 故障预测 • 容量量预测 • 趋势预测

0 码力 | 34 页 | 650.25 KB | 1 年前
3
告警OnCall事件中心建设方法白皮书

发现一些不同的线索，需要及时同步给所有相关的人，这个时候就可以在故障下面添加评论，其他人就可以及时看到。等到止损之后，大家还要根据故障时间线复盘，产出一系列跟进项，这个时候就需要这个故障管理模块具备跟进项管理的功能，或者至少能够跟任务管理系统良好打通。有了这样一个故障协同的机制之后，故障被处理掉的概率就大幅提升了，后续再配合一些运营统计手段，统计各个团队的平均故障止损时

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 3 条前往

页

PromQL Prometheus 监控系统设计演进实践分享告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

告警OnCall事件中心建设方法白皮书

分类

语言

格式

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享