PromQL 从入门到精通
0 码力 | 16 页 | 2.77 MB | 1 年前文档详细介绍了PromQL的基础知识及实际应用场景,包括查询选择器的使用、Offset关键字的时序调整、算术运算符和比较运算符的应用、rate和irate函数的区别、histogram_quantile函数的使用方法、以及告警规则的配置。同时,文档还讲解了逻辑运算符和集合运算符的使用,聚合函数的应用如sum、avg、min、max等,以及group_left和group_right的高级使用技巧。此外,文档还涉及PromQL在Kubernetes环境中的实践,如与kube-state-metrics结合使用,并对处理分布式系统延时指标的函数进行了详细说明。
1.6 利用夜莺扩展能力打造全方位监控系统
0 码力 | 40 页 | 3.85 MB | 1 年前文档介绍了夜莺这款国产开源监控系统,旨在打造全方位监控系统。夜莺支持云原生监控,并经过滴滴等多家企业的大规模生产环境验证。其核心功能包括数据采集、存储、分析和展示,特别强调了Agentd的数据采集能力和多维度跨云监控能力。文档还提到了夜莺内置了多种数据库和网络设备的采集能力,支持statsd协议用于业务应用的APM监控。
告警OnCall事件中心建设方法白皮书
0 码力 | 23 页 | 1.75 MB | 1 年前本文档阐述了OnCall事件中心的建设方法,重点介绍了协作空间的设计与管理,监控系统的集成方式,告警事件的自动处理逻辑,以及事件的收敛机制。通过协作空间,团队可以根据系统或团队划分不同的事件,实现告警的分类处理。集成中心支持多种监控系统,如Prometheus、Nightingale等,方便告警事件的接入。告警自动处理机制能够在故障发生时抓取现场信息,减少人工操作。文档还提出事件收敛机制,从底层事件到告警,再到故障的 다级别处理,降低告警干扰。
B站统⼀监控系统的设计,演进
与实践分享
0 码力 | 34 页 | 650.25 KB | 1 年前文档介绍了B站统一监控系统的设计与演进。面对技术栈多样、产品模块复杂、业务快速增长等挑战,B站建设了完整的监控体系,包括基础层、应用层和业务层,覆盖虚拟机、物理设备、容器、专线质量、机房出口质量等基础设施,以及Cache、DB、MQ等应用资源。同时,系统提供了播放质量、客户端质量等业务监控,并采用Prometheus进行时间序列数据管理。文档还提到了告警策略的优化,包括告警等级、处理方式以及多样化的通知渠道,如企业微信、钉钉、邮件和短信。
4 【王琼】容器监控架构演进 王琼 YY直播
0 码力 | 23 页 | 2.17 MB | 1 年前文档介绍了容器监控架构的演进,重点阐述了在Kubernetes环境下监控系统的复杂性和解决方案。传统监控系统YYMS无法直接支持Kubernetes的监控采集,Kubernetes集群的监控维度更多,包括Pod、Deployment、Namespace等,监控对象动态变化频繁,难以预置。为解决这些问题,文档提出使用Prometheus和VictoriaMetrics的架构,通过Remote Write协议将数据写入Kafka,并通过Grafana进行可视化。同时,文档也提到了现有的问题,如数据聚合查询困难和维护成本高。
共 5 条
- 1













