 PromQL 从入门到精通Gauge 类型 Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter _running == 0 and ON (instance) mysql_slave_status_master_server_id > 0 这个promql想表达的意思是如果这个mysql实例是个slave(master_server_id>0),则检查其 slave_sql_running的值,如果slave_sql_running==0表示slave sql线程没有在运行。 但是 ave_status_master_server_id这两个 metric的标签可能并非完全一致,不过好在二者都有个instance标签,且相同instance标签的数 据从语义上来看就表示一个实例的多个指标数据,那就可以用on关键字,指定只使用instance 标签做匹配,忽略其他标签。 与on相反的是ignoring关键字,顾名思义,ignoring是忽略掉某些标签,用剩下的标签来做匹0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通Gauge 类型 Gauge 类型的值表示当前的状态,可大可小、可负可正,比如某个虚机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter _running == 0 and ON (instance) mysql_slave_status_master_server_id > 0 这个promql想表达的意思是如果这个mysql实例是个slave(master_server_id>0),则检查其 slave_sql_running的值,如果slave_sql_running==0表示slave sql线程没有在运行。 但是 ave_status_master_server_id这两个 metric的标签可能并非完全一致,不过好在二者都有个instance标签,且相同instance标签的数 据从语义上来看就表示一个实例的多个指标数据,那就可以用on关键字,指定只使用instance 标签做匹配,忽略其他标签。 与on相反的是ignoring关键字,顾名思义,ignoring是忽略掉某些标签,用剩下的标签来做匹0 码力 | 16 页 | 2.77 MB | 1 年前3
 告警OnCall事件中心建设方法白皮书
Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有 ncident),最终通知用户的是一个个故 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有 ncident),最终通知用户的是一个个故 障,大幅降低了打扰性。 不同的告警事件,通常有不同的分发逻辑,比如不同时段不同的分发逻辑:白天用短信通知,晚上用电话 通知,比如对象存储的告警要发给存储团队,物理机故障要发给运维团队。这都可以灵活定义。 也可以配置聚合窗口,比如延迟 120 秒,如果在延迟等待期内,告警自动恢复或被人工处理,则不会发送 该条告警。0 码力 | 23 页 | 1.75 MB | 1 年前3
 1.6 利用夜莺扩展能力打造全方位监控系统Agentd Agentd LoadBalance 1. 单机版Prom 2. 集群版m3db 3. 集群版n9e-tsdb 3种存储方案,按需选择 Agentd 夜莺设计实现 Agentd 数据采集 第四部分 监控系统的核心功能,是数据采集、存储、分析、展示,完 备性看采集能力,是否能够兼容并包,纳入更多生态的能力, 至关重要 夜莺数据采集 01.监控数据采集,all in0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统Agentd Agentd LoadBalance 1. 单机版Prom 2. 集群版m3db 3. 集群版n9e-tsdb 3种存储方案,按需选择 Agentd 夜莺设计实现 Agentd 数据采集 第四部分 监控系统的核心功能,是数据采集、存储、分析、展示,完 备性看采集能力,是否能够兼容并包,纳入更多生态的能力, 至关重要 夜莺数据采集 01.监控数据采集,all in0 码力 | 40 页 | 3.85 MB | 1 年前3
共 3 条
- 1













