扩展模块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

1.6 利用夜莺扩展能力打造全方位监控系统

利用夜莺扩展能力打造全方位监控系统喻波滴滴专家工程师目录运维监控需求来源 01 监控痛点：全面完备、跨云 02 夜莺介绍：国产开源监控系统 03 夜莺设计实现：Agentd 数据采集 04 夜莺设计实现：Server 数据处理 05 夜莺设计实现：技术难点及细节 06 运维监控需求来源第一部分如果贵司的业务强依赖IT技术，IT故障会直接影响营业收入，

0 码力 | 40 页 | 3.85 MB | 1 年前
3
PromQL 从入门到精通

ation_seconds_bucket[10m])) 上面的例子，是会对每个请求分别做计算，假设有两个模块：n9e-proxy、n9e-webapi，都统计了 http_request_duration_seconds_bucket ，我们可能希望以模块为颗粒度，分别计算每个模块的90分位延迟，写法是： histogram_quantile( 0.9, sum by (job, le) (rate(http_request_duration_seconds_bucket[10m])) ) 注意，这里通过job标签来区分模块，le是计算histogram_quantile必须的，所以也要放到sum by后面，如果我们要计算全部数据的90分位值呢（虽然这大概率是个伪需求）？ histogram_quantile( 0.9, 1 2 3 4 5 1 2 更多函数就不过多介绍了，相对容易理解，参考 Prometheus 官方文档即可。最后扩展介绍一个 MetricsQL（MetricsQL 是 VictoriaMetrics 提供的一种查询语言，兼容 PromQL 并对其做了增强，如果你的存储是 VictoriaMetrics，则可以使用这些扩展函数）中的扩展函数。 count_gt_over_time 假设原始需求：某个指标（假设指标名字是

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多 • 告警⻛风暴暴监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 > 0.3 * requests:holt_winters_rate1h offset 7d 告警规则: 预测业务A请求量量异常异常响应 todo • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析针对历史事件针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损针对未来事件 • 故障预测 • 容量量预测 • 趋势预测

0 码力 | 34 页 | 650.25 KB | 1 年前
3
告警OnCall事件中心建设方法白皮书

发现一些不同的线索，需要及时同步给所有相关的人，这个时候就可以在故障下面添加评论，其他人就可以及时看到。等到止损之后，大家还要根据故障时间线复盘，产出一系列跟进项，这个时候就需要这个故障管理模块具备跟进项管理的功能，或者至少能够跟任务管理系统良好打通。有了这样一个故障协同的机制之后，故障被处理掉的概率就大幅提升了，后续再配合一些运营统计手段，统计各个团队的平均故障止损时

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 4 条前往

页

1.6 利用夜莺扩展能力打造方位全方位监控系统 PromQL Prometheus 设计演进实践分享告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

告警OnCall事件中心建设方法白皮书

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享