1.6 利用夜莺扩展能力打造全方位监控系统监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 com/didi/nightingale 官网:https://n9e.didiyun.com/ Nightingale 众多企业已上生产,共同打磨夜莺 上图展示部分社区用户,加入夜莺社群,请联系微信:UlricQin Nightingale 众多企业已上生产,共同打磨夜莺 Server01 Server02 Agentd Agentd LoadBalance 1. 单机版Prom write 夜莺Server数据处理 06. data - read 夜莺Server数据处理 夜莺设计实现 技术难点及细节 第六部分 01. 规则集中化管理及自动发现 夜莺 技术难点及细节 02. 采集器 夜莺 技术难点及细节 02. 数据序列化及传输问题 夜莺 技术难点及细节 Thank you0 码力 | 40 页 | 3.85 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 核⼼心功能 API⽹网关 服务树 告警收敛 屏蔽规则 事件管理理 告警渠道 报表系统 ⼯工单系统 鉴权 频控 标准化 时间维度 业务维度 关联关系 rms 告警升级 企业微信 钉钉 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试0 码力 | 34 页 | 650.25 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
OK,接下来就是通知给谁以及如何通知的问题了。比如通知某个人或者通知某个团队,也可以通知某个 值班表,值班表的值班人接收告警。不同的严重程度的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知, 接收人一直没有响应,就要启动升级策略了,比如 30 分钟后,告警仍然没有恢复而且没有被人工处理, 95%,此时就只会发送 Critical 的事件,Info 的就被忽略了。 相关策略配置好之后,就可以收告警了,比如利用钉钉发送,会呈现为一张告警消息卡片: 我们可以直接在钉钉(或飞书、企微等 IM)内部点击跟进,或直接关闭、临时屏蔽,方便地移动办公。 当然,也可以登录 FlashDuty,在 WEB 上查看,需要有个非常直观的页面告诉用户您当前有哪些告 警,分成了几类,每一类有多少条之类的。 另外,FlashDuty 不但提供了故障视图,还直接提供了告警视图,两个视图都有两种展示方式:列表展示 方式、聚合展示方式,方便您查看处理。 另外,FlashDuty 提供了和 IM(飞书、企微、钉钉等)深度集成,用户无需使用电脑,在手机上就可以 快速查看故障/告警信息,比如在路上,赶去拿电脑的过程中,就可以提前快速了解相关信息,极大提升 故障排查、止损效率。 告警/故障处理0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通本文作者:秦晓辉,Open-Falcon、Nightingale 等开源项目创始人之一,极客时间《运 维监控系统实战笔记》作者;当前在创业(快猫星云联创),为客户提供监控/可观测性产品 方案,有需求的朋友欢迎联系我的微信 picobyte。 数据类型 Prometheus 有四种数据类型:Gauge、Counter、Histogram、Summary,其中最关键的是 Gauge 和 Counter,Histogram0 码力 | 16 页 | 2.77 MB | 1 年前3
共 4 条
- 1













