二压 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

计算出可用率指标：逻辑上，是先根据 mem_available{app="clickhouse"} 找到相关指标数据，会找到5条，再根据 mem_total{app="clickhouse"} 也能找到5条，二者相除的逻辑姑且可以理解为，循环遍历 mem_available 的5条记录，对于每一条，去 mem_total 的5条记录中找标签相同的记录，进行除法运算。除法运算得到5条结果（0~1之间的数字），然后跟100相乘（得到百分比大 mem_available_percent。如果分子和分母对应的selector查到的数据标签不同，就没法做除法运算了，比如 net_bytes_recv 比内存相关的指标多了一个interface的标签（标明网卡），二者是没法做运算的，结果为空： net_bytes_recv{app="clickhouse"}/mem_total{app="clickhouse"} 比较运算符  == (equal) 名称和值从左边的向量转移过来。用于什么场景？先经过 vector1 做过滤得到一批监控数据，可能里边有一些是不想要的，可以用 and 操作符，再加一个条件，用另一个 metric 的值做一些二次过滤。举例： disk_used_percent{app="clickhouse"} > 70 and disk_total{app="clickhouse"}/1024/1024/1024 <

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

常态化通知的效果，不需要排查，也不需要止损，甚至连个长线的 TODO 都没有。这类告警多了人就疲了，当重要的告警来临的时候，也容易忽略。这样的规则如果不经过治理，日积月累，就会产生很多无用的告警。第二个常见的原因是底层出问题导致所有的上层依赖都告警，越是底层影响越大，比如基础网络如果出问题，发出几万条告警都是正常的。第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出，用户可能会觉得单一渠道不可告警升级是指在第一责任人收到告警之后没有及时响应，然后系统自动通知二线、三线人员的一种机制。一线人员没有及时响应的原因可能有很多，比如手机静音了没有听到，晚上睡着了，或者临时出去有事忘带手机了等等。这个时候系统发现某个告警一直没有恢复，也没有被认领，一段时间之后，就应该通知值班人员的领导或者二线备份人员，如果二线人员也迟迟没有响应，就应该继续往上升级。告警升级机制需要认

0 码力 | 23 页 | 1.75 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

！故障处理过程中，监控是『发现』和『定位』两个环节的关键工具。故障处理过程的首要原则是『止损』，因此，过程中的『发现』和『定位』都是面向尽快『止损』来实现。监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个环节出问题都能及时感知产品要求 01.端上、链路、资源、组件、应用多维度跨云监控端上卡顿崩溃链路连通性链路质量

0 码力 | 40 页 | 3.85 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征选型原则 • 基于开源⽅方案，⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 4 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书 1.6 利用夜莺扩展能力打造方位全方位监控系统设计演进实践分享

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享