告警OnCall事件中心建设方法白皮书
的告警事件,就需要创建一个 Nightingale 类型的集成(Integration),点击上例中的 “支付”协作空间,进入协作空间详情,其中有个【集成数据】的入口: 上例中我已经创建过多个集成了,你的环境是新的,只需要点击【+新增一个集成】,选择集成类型,随便 输入一个集成名称,就可以创建一个集成。 创建完了集成之后,点击这个集成查看详情,会看到一个专属的 URL,以及相关的接入文档,去监控系 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较多,这是我们的测试环境,正常来说,生产环境的故障不会很 多,否则就说明出大问题了),每个故障关联了多少个告警,有个小警铃的图标可以看到,点击这个故 障,右侧会出现一个抽屉,看到故障详情。关联告警这一栏,可以看到这个故障关联了哪些告警,每个告0 码力 | 23 页 | 1.75 MB | 1 年前3
PromQL 从入门到精通(multiplication) / (division) % (modulo) ^ (power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用,比如之前的例子,对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的,如果采集器没有计算,而是上报了 原始指标 mem_available absent_over_time 接收一个 range-vector,如果range-vector是空,则返回1,表示absent,如果range-vector 有内容,则什么都不返回。 这个特性在生产环境下可以用作nodata告警,比如: absent_over_time(system_load_norm_1{ident="tt-fc-dev02.nj"}[5m]) 这个promql表示,tt-fc-dev020 码力 | 16 页 | 2.77 MB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+ 600+ 500+ star issue fork 项目:https://github.com/didi/nightingale 官网:https://n9e0 码力 | 40 页 | 3.85 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点0 码力 | 34 页 | 650.25 KB | 1 年前3
共 4 条
- 1













