B站统⼀监控系统的设计,演进
与实践分享• 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label0 码力 | 34 页 | 650.25 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
这种产品,一定程度上是可以解决一些告警过多的问题,但如果能从告警规 则的源头做好优化,自然是事半功倍。很多公司的告警规则配置没有原则可循,每次故障复盘先看告警是 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什么原则呢?虽然每个公司业务不同,总有一些通用的原则可循吧?的 确如此,这里我分享一下我个人的做法,希望对你有所启发。0 码力 | 23 页 | 1.75 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入,0 码力 | 40 页 | 3.85 MB | 1 年前3
共 3 条
- 1













