K线 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

Query Language，要想对 PromQL 有了解，得先搞清楚时序数据。认识时序数据我们先来看一张图，图上是 5 台机器的内存可用率：每个机器的内存可用率数据，体现为图上的一条线，我们称为 series，某个机器在某一时刻的内存可用率数据，我们称为数据点，比如上图，2022-08-25 15:05:22 这个时刻，每个机器都有一个可用率数据点，共计 5 个数据点。 count_values (count number of elements with the same value)  bottomk (smallest k elements by sample value)  topk (largest k elements by sample value)  quantile (calculate φ-quantile (0 ≤ φ ≤ 1) over 感的数据，可以使用 irate 函数。irate 是拿时间范围内的最后两个值来做计算，变化就会更剧烈，我们还是拿网卡入向流量这个指标来做个对比：蓝色的更变化更剧烈的线是 irate 函数计算的，紫色的相对平滑的线是 rate 函数计算得到的。 histogram_quantile 要了解 histogram_quantile 函数的用法，首先得了解 Histogram 类型的数据。Histogram

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

PagerDuty FlashDuty 这种产品，一定程度上是可以解决一些告警过多的问题，但如果能从告警规则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的这样就可以减少打扰。制定了这个原则之后，如果大家不遵守怎么办呢？还是有很多告警没有对应的 Runbook，作为管理人员，我们应该怎么处理？我的建议是分产品线统计一个指标：“Runbook 预置率”，就是各个产品线有多少告警规则配置了 Runbook，有多少没有配置，这个比例要统计出来，然后做成红黑榜，让大家去治理，治理一段时间之后有经验了，知道预置率大概在一个什么范围是合理的，然后就可以要求大家至少达响应，然后系统自动通知二线、三线人员的一种机制。一线人员没有及时响应的原因可能有很多，比如手机静音了没有听到，晚上睡着了，或者临时出去有事忘带手机了等等。这个时候系统发现某个告警一直没有恢复，也没有被认领，一段时间之后，就应该通知值班人员的领导或者二线备份人员，如果二线人员也迟迟没有响应，就应该继续往上升级。告警升级机制需要认领功能的配合，也就是一线人员收到告警之后要通过某种机制告诉系统：“我已知晓

0 码力 | 23 页 | 1.75 MB | 1 年前
3
Prometheus Deep Dive - Monitoring. At scale.

resilience What do you need for operations? Power and cooling Network connectivity Observability, a.k.a. Monitoring The rest you can fix Richard Hartmann & Frederic Branczyk @TwitchiH & @fredbrancz Prometheus with dedicated Prometheus nodes 800 microservice instances and Kubernetes components 120k samples/sec 300k active time series Swap out 50% of all pods every 10 minutes Richard Hartmann & Frederic

0 码力 | 34 页 | 370.20 KB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 • 分布式 • 使⽤用成本问题: ? 性能问题 • 本地ssd prometheus 先让告警有意义可读的 • 时间 • 源头 • 规则 • 影响 • 状态正确的有价值的 • 发现问题 • 正确反映现实案例例1 告警规则: 业务A 慢请求量量 > 10k/s 固定阈值告警阈值需要随着流量量变化⽽而调整 wrong 建议: 告警规则: 业务A 慢请求⽐比例例 > 80% 案例例2 告警规则: 磁盘容量量可⽤用率 <10% 告警规则: 磁盘容量量预计将于3⼩小时后饱和

0 码力 | 34 页 | 650.25 KB | 1 年前
3
4 【王琼】容器监控架构演进王琼 YY直播

com/prometheus-vs-victoriametrics-benchmark-on-node-exporter-metrics-4ca29c75590f 总体架构总体架构 T H A N K S !

0 码力 | 23 页 | 2.17 MB | 1 年前
3

共 5 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书 Deep Dive Monitoring At scale 监控系统设计演进实践分享王琼容器架构 YY 直播

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Prometheus Deep Dive - Monitoring. At scale.

B站统⼀监控系统的设计,演进与实践分享

4 【王琼】容器监控架构演进王琼 YY直播

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Prometheus Deep Dive - Monitoring. At scale.

B站统⼀监控系统的设计,演进 与实践分享

4 【王琼】容器监控架构演进 王琼 YY直播

B站统⼀监控系统的设计,演进与实践分享

4 【王琼】容器监控架构演进王琼 YY直播