 1.6 利用夜莺扩展能力打造全方位监控系统稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 活 端口监 控 插件脚 本 日志监 控 网络设 备 中间件 类 数据库 类 • 支持在web上配置采集策略,不同的采集可以指定 不同的探针机器、目标机器,便于管理和知识传 承 • 独创在端上流式读取日志,根据正则提取指标的 机制,轻量易用,无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设 备的采集,复用telegraf和datadog-agent的能力0 码力 | 40 页 | 3.85 MB | 1 年前3
 PromQL 从入门到精通在 Graph 视图,返回的数据取 决于 step 参数,查询时传给时序库的 step = 10,返回的图形就是每 10s 一个点,step = 20 就是每 20s 一个点,返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 理论上是没法绘制 Graph 的(当然有些时序库可能会做容错处理),因为从原 理上说不通。绘图的时候,我们要选择一个时间范围,比如最近一小时,然后传给后端一个 (le) (rate(http_request_duration_seconds_bucket[10m])) ) 针对分位值的计算,已经阐述清楚了,但是分位值的计算是个挺重的查询,可能会把后端时序库 打爆,所以很多公司可能在业务埋点SDK中不提供histogram这种方式,只提供summary方 式。 所谓的summary,也是prometheus的一种埋点数据类型,summary也可以计算90分位、990 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通在 Graph 视图,返回的数据取 决于 step 参数,查询时传给时序库的 step = 10,返回的图形就是每 10s 一个点,step = 20 就是每 20s 一个点,返回的数据的时间间隔取决于 step 参数而非原始数据的上报间隔。 Range Query 理论上是没法绘制 Graph 的(当然有些时序库可能会做容错处理),因为从原 理上说不通。绘图的时候,我们要选择一个时间范围,比如最近一小时,然后传给后端一个 (le) (rate(http_request_duration_seconds_bucket[10m])) ) 针对分位值的计算,已经阐述清楚了,但是分位值的计算是个挺重的查询,可能会把后端时序库 打爆,所以很多公司可能在业务埋点SDK中不提供histogram这种方式,只提供summary方 式。 所谓的summary,也是prometheus的一种埋点数据类型,summary也可以计算90分位、990 码力 | 16 页 | 2.77 MB | 1 年前3
 B站统⼀监控系统的设计,演进
与实践分享Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+0 码力 | 34 页 | 650.25 KB | 1 年前3 B站统⼀监控系统的设计,演进
与实践分享Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+0 码力 | 34 页 | 650.25 KB | 1 年前3
 告警OnCall事件中心建设方法白皮书
IM 的联动,在 FlashDuty 中的一些评论回复,会自动发到 IM 端,进而提升 协同效率。 另外,我们非常建议大家认真处理每一个故障,认真填写故障处理过程、止损手段,这是极好的知识库, 未来再发生类似故障的时候,都可以快速参考。如前文所述,如果某个故障发生之后没有对应的处理动 作,这个故障对应的告警规则可能就是不合理的,需要优化。 总结 告警事件的后续处理,不只0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
IM 的联动,在 FlashDuty 中的一些评论回复,会自动发到 IM 端,进而提升 协同效率。 另外,我们非常建议大家认真处理每一个故障,认真填写故障处理过程、止损手段,这是极好的知识库, 未来再发生类似故障的时候,都可以快速参考。如前文所述,如果某个故障发生之后没有对应的处理动 作,这个故障对应的告警规则可能就是不合理的,需要优化。 总结 告警事件的后续处理,不只0 码力 | 23 页 | 1.75 MB | 1 年前3
共 4 条
- 1













