业务上云 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

1.6 利用夜莺扩展能力打造全方位监控系统

喻波滴滴专家工程师目录运维监控需求来源 01 监控痛点：全面完备、跨云 02 夜莺介绍：国产开源监控系统 03 夜莺设计实现：Agentd 数据采集 04 夜莺设计实现：Server 数据处理 05 夜莺设计实现：技术难点及细节 06 运维监控需求来源第一部分如果贵司的业务强依赖IT技术，IT故障会直接影响营业收入，稳定性体系一定要重视起来，而监控，就是稳定性体系中至监控的原始需求来自业务稳定性左图是2013年的一个新闻，讲 Google宕机的影响。2020年也出现过aws大规模宕机的情况，影响不止是55万美元，直接影响大半个互联网！ 2018年有美国调研机构指出，如果服务器宕机1分钟，银行会损失 27万美元，制造业会损失42万美元美团故障？滴滴故障？腾讯故障？运维监控需求来源 01.监控的原始需求来自业务稳定性如何减监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个环节出问题都能及时感知产品要求 01.端上、链路、资源、组件、应用多维度跨云监控端上卡顿崩溃链路连通性链路质量服务端硬件资源组件服务业务应用夜莺介绍：国产开源监控系统第三部分国产开源监控产品相对比较匮乏，夜莺希望重新定义国产开源监控，支持云原生监控，经受了滴滴大规模生产检验

0 码力 | 40 页 | 3.85 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等，还有云厂商提供的监控系统，比如华为云的云监控、腾讯云的云监控、阿里云的云监控，甚至有些云厂商会提供多个割裂的监控系统，比如阿里云不但有云监控，还有 ARMS，还有 SLS。大部分公司都不会只使用一套监控系统，网络设备的监控可能采用的 Zabbix，Kubernetes 用的 Prometheus（Kubernetes 可能有多套，以至于 Prometheus 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。监控系统的重心，通常是采集、存储、可视化、生成告警事件，但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的确如此，这里我分享一下我个人的做法，希望对你有所启发。每个规则都应该对应具体的 Runbook Runbook 就是告警处理手册，也就是告警触发

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

类型来表示。这种类型的值，我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值，比如机器上某块网卡收到的数据包的总量，是从操作系统启动之后，就持续递增的，对于这种类型的值，我们通常关注的不是当前值是多少，而是关注增量和变化率。我们在机器上执行 ifconfig 命令： eth0: flags=4163 开发者工具可以看到发的请求参数：但是，监控数据是周期性上报的，比如每 10 秒上报一次，在 2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？实际上，Prometheus 有个启动参数，--query.lookback-delta=2m 来控制这个行为，如果配置为 2m，就表示，Prometheus 会查询 2022-08-25 15:46:03 step = 10，返回的图形就是每 10s 一个点，step = 20 就是每 20s 一个点，返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 理论上是没法绘制 Graph 的（当然有些时序库可能会做容错处理），因为从原理上说不通。绘图的时候，我们要选择一个时间范围，比如最近一小时，然后传给后端一个 step 参数用于控制分辨率，即数据间隔，比如

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高当前情况: • 覆盖率低 • 误报，漏漏报多 • 告警⻛风暴暴监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 • http • tcp • ping 基础层应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志播放质量量 • 点播/直播降低多idc维护成本规则管理理⻚页⾯面例例⼦子 - 业务监控稿件账号 Feed PAAS托管服务树 container http  server sdk 注册获取target 采集数据吞吐量量响应时间错误率饱和度熔断限流投稿数量量  订单数据在线⼈人数  … ⻩黄⾦金金指标业务指标少量量事件 dashboard 报表告警

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 4 条前往

页

1.6 利用夜莺扩展能力打造方位全方位监控系统告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 设计演进实践分享

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享