Kubernetes API支持 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

PromQL大括号里的部分是 selector，查询选择器，用于从一大堆监控数据中，过滤出真正关心的数据，在 Prometheus 生态里，时序数据的标识，就是一堆标签集合，所以这里的过滤，就是针对标签做过滤，支持四类操作符：  =：完全匹配，比如 app="clickhouse"  !=：完全不匹配，比如 app!="clickhouse"  =~：正则匹配，比如 app=~"n9e-.*"  后面跟一个时间段，比如 5m、1d、7d、1w，offset 要紧跟查询选择器，比如： sum(http_requests_total{method="GET"} offset 1d) 运算符 PromQL 支持基本的算术运算符和比较运算符，可以对不同的即时向量做运算，这为监控系统带来了巨大的进步，算术运算符让很多计算不需要在采集端做了，可以轻易挪到服务端，而比较运算符则为告警逻辑提供了支撑。算术运算符记录，所以高基数的一侧是左侧，故而使用 group_left。另外举一个例子，说明 group_left group_right 的一个常见用法，比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据，其中针对 pod 有个指标是 kube_pod_labels，会把 pod 的一些信息放到这个指标的标签里，指标值是1，相当于一个元信息，比如： kube_pod_labels{

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

的监控系统，比如阿里云不但有云监控，还有 ARMS，还有 SLS。大部分公司都不会只使用一套监控系统，网络设备的监控可能采用的 Zabbix，Kubernetes 的监控可能用的 Prometheus（Kubernetes 可能有多套，以至于 Prometheus 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力，但是通常都不完备，而这，正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名，核心就是支持告警 OnCall 值班处理的场景。对于告警事件的后续处理，有哪些问题和需求以及何为最佳实践？我们从思路方法和工具实践两个方面分别进行探讨，下面先行探讨思路方法，看看要解决这些问题和需求，我们有哪些可能的解法。到预置率下限的值。否则，就一定是有问题的。 Runbook 这个配置原则，是我最为推荐的原则，效果非常明显，其次就是告警分级原则。每个告警都应该合理分级基本每个监控系统都支持为告警规则配置不同的级别，基本上每个监控系统的用户也都知道应该做分级告警。但是具体怎么分级，却没有一个行业共识，大家各做各的。这里我也分享一下我的理解，你可以参考借鉴。首先，不同

0 码力 | 23 页 | 1.75 MB | 1 年前
3
Prometheus Deep Dive - Monitoring. At scale.

Prometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH Storage backend Caveat: Prometheus 2.0 comes with storage v3 Staleness handling Remote read & write API is now stable-ish Links to in-depth talks about these features are at the end Richard Hartmann & to 2.2.1 2.4 - 2.6 Beyond Outro Storage Test setup Kubernetes cluster with dedicated Prometheus nodes 800 microservice instances and Kubernetes components 120k samples/sec 300k active time series

0 码力 | 34 页 | 370.20 KB | 1 年前
3
Intro to Prometheus - With a dash of operations & observability

Prometheus team member Frederic Branczyk Red Hat (previously CoreOS) All things Prometheus / Kubernetes Kubernetes SIG-Instrumentation lead Prometheus team member Richard Hartmann & Frederic Branczyk @TwitchiH (How much time does this subroutine take?) Every service should have its own metrics endpoint Hard API commitments within major versions No built-in TLS yet, use reverse proxies for now Richard Hartmann

0 码力 | 19 页 | 63.73 KB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

卡顿崩溃链路连通性链路质量服务端硬件资源组件服务业务应用夜莺介绍：国产开源监控系统第三部分国产开源监控产品相对比较匮乏，夜莺希望重新定义国产开源监控，支持云原生监控，经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台，既可以解决传统物理机虚拟机的场景，也可以解决容器的场景。衍生自Open-Falcon和滴滴Odin监控，经受了包括小米、美团、滴滴备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设备的采集，复用telegraf和datadog-agent的能力 • 支持statsd的udp协议，用于业务应用的apm监控夜莺数据采集 06. Serializer 夜莺数据采集 07. Forwarder 夜莺设计实现 Server 数据处理第五部分夜莺Server数据处理 01. 服务器 02. API 夜莺Server数据处理 03. AlarmRule Control 夜莺Server数据处理 04. CollectRule Control 夜莺Server数据处理 04. CollectRule

0 码力 | 40 页 | 3.85 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

具有规律律性 metric数据特征选型原则 • 基于开源⽅方案，⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点现状: • 性能 • ⾼高可⽤用 prometheus target target target alert_manager 告警平服务 cache db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule prometheus target target target alert_manager 告警平服务 cache db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 6 条前往

页

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Prometheus Deep Dive - Monitoring. At scale.

Intro to Prometheus - With a dash of operations & observability

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

Prometheus Deep Dive - Monitoring. At scale.

Intro to Prometheus - With a dash of operations & observability

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享