PromQL 从入门到精通255.240.0 broadcast 10.206.15.255 inet6 fe80::5054:ff:fed2:a180 prefixlen 64 scopeid 0x20 ether 52:54:00:d2:a1:80 txqueuelen 1000 (Ethernet) RX packets 457952401 bytes 启动以来收到的总的包量,TX packets 后面的值是 OS 启动以来发 出去的总的包量,都是很大的值,我们通常不太关注这个值当前是多少,更关注的是最近 1 分 钟收到/发出多少包,或者每秒收到/发出多少包。 1 2 3 4 5 6 7 8 而对于监控数据采集器而言,一般是周期性运行的,比如每 10 秒采集一次,每次采集网卡收 到/发出的包这个数据的时候,都只能采集到当前的值,就像执行 ifconfig 中的数据是哪里来的? 实际上,Prometheus 有个启动参数,--query.lookback-delta=2m 来控制这个行为,如果配 置为 2m,就表示,Prometheus 会查询 2022-08-25 15:46:03 ~ 2022-08-25 15:48:03 这 2 分钟之间的数据,然后返回最新的那个。 查询类型 上例中的 mem_available_percent{app="clickhouse"}0 码力 | 16 页 | 2.77 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享prometheus server1 server2 server3 prometheus IDC HA prometheus server1 server2 server3 prometheus IDC Federation pr s s s pr I pr s s s pr I IDC1 IDC2 prometheus prometheus filter数据 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus0 码力 | 34 页 | 650.25 KB | 1 年前3
Prometheus Deep Dive - Monitoring. At scale.we can’t get rid of, we go into feature moratorium 2.3.2 is the first fully stable release in the 2.x train Richard Hartmann & Frederic Branczyk @TwitchiH & @fredbrancz Prometheus Deep Dive Introduction ACID databases... Atomicity - since 1.x Consistency - since 1.x Isolation - will happen within 2.x Durability - since 2.0 Richard Hartmann & Frederic Branczyk @TwitchiH & @fredbrancz Prometheus io/2017-munich/talks/staleness-in-prometheus-2-0/ Staleness and Isolation in Prometheus 2.0: https://promcon.io/2017-munich/talks/staleness-in-prometheus-2-0/ Social aspects of change: https://promcon0 码力 | 34 页 | 370.20 KB | 1 年前3
4 【王琼】容器监控架构演进 王琼 YY直播
• • • • ⚫ • • • ⚫ • • 计算指标需要多少内存 https://www.robustperception.io/how-much-ram-does-prometheus-2-x-need-for-cardinality-and-ingestion ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫0 码力 | 23 页 | 2.17 MB | 1 年前3
Intro to Prometheus - With a dash of operations & observabilityPrometheus Introduction Background Operations & observability Outro Time split 1 1/3 Prometheus 2 1/3 Observability 3 1/3 Questions Richard Hartmann & Frederic Branczyk @TwitchiH & @fredbrancz Intro0 码力 | 19 页 | 63.73 KB | 1 年前3
1.6 利用夜莺扩展能力打造全方位监控系统UlricQin Nightingale 众多企业已上生产,共同打磨夜莺 Server01 Server02 Agentd Agentd LoadBalance 1. 单机版Prom 2. 集群版m3db 3. 集群版n9e-tsdb 3种存储方案,按需选择 Agentd 夜莺设计实现 Agentd 数据采集 第四部分 监控系统的核心功能,是数据采集、存储、分析、展示,完0 码力 | 40 页 | 3.85 MB | 1 年前3
OpenMetrics - Standing on the shoulders of Titans1027 1544554800 histogram_bucket{le=" 1" } 123 # {foo=" bar" } 42 1544554800 histogram_bucket{le=" 2" } 234 # {foo=" bar" } 23 1544554799.123 histogram_bucket{le=" 3" } 345 1544554800 # {foo=" bar" } 110 码力 | 21 页 | 84.83 KB | 1 年前3
告警OnCall事件中心建设方法白皮书
把告警中心收到的所有告警,按照时间维度做收敛,比如按照分钟颗粒度,一分钟内所有告警收敛成一个 故障,下一分钟所有告警收敛成另一个故障。显然,一个故障内的多个告警相互之间可能没有关联关系, 所以这种收敛方法不是太好。 2、根据时间 + 标签做收敛 除了时间维度,再加上某个标签作为收敛维度,比如机器标签,某个时间段内所有 A 机器的告警收敛成 一个故障,所有 B 机器的告警收敛成另一个故障。或者按照服务维度,某个时间段内所有0 码力 | 23 页 | 1.75 MB | 1 年前3
共 8 条
- 1













