 PromQL 从入门到精通机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 假设某个 Pod 是接入层的,统计了很多 HTTP 请求相关的指标,我们想统计 5xx 的请求数量, 希望能按 Pod 的 version 画一个饼图。这里有个难点:接入层这个 Pod 没有 version 标签, version 信息只是出现在 kube_pod_labels 中,如何让二者联动呢?上答案: (pod) group_left(label_version) kube_pod_labels 我们来掰开揉碎这个 promql 看一下具体的意思,乘号前面的部分,是一个典型的统计每秒 5xx 数量的语法,group by pod。 然后我们乘以 kube_pod_labels,这个值是1,所以对整体数值没有影响,而 kube_pod_labels 有多个标签,而且和sum语句的结果vector的标签不一致,所以通过0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通机实例挂了,用 0 表示, 如果实例存活,用 1 表示;再比如内存使用率,这个时刻采集是 33.7%,下个周期采集可能就 变成了 25.8%;还有像机器最近 5 分钟的 load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 假设某个 Pod 是接入层的,统计了很多 HTTP 请求相关的指标,我们想统计 5xx 的请求数量, 希望能按 Pod 的 version 画一个饼图。这里有个难点:接入层这个 Pod 没有 version 标签, version 信息只是出现在 kube_pod_labels 中,如何让二者联动呢?上答案: (pod) group_left(label_version) kube_pod_labels 我们来掰开揉碎这个 promql 看一下具体的意思,乘号前面的部分,是一个典型的统计每秒 5xx 数量的语法,group by pod。 然后我们乘以 kube_pod_labels,这个值是1,所以对整体数值没有影响,而 kube_pod_labels 有多个标签,而且和sum语句的结果vector的标签不一致,所以通过0 码力 | 16 页 | 2.77 MB | 1 年前3
 告警OnCall事件中心建设方法白皮书
接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事 这个手段听起来并不高大上,但确实非常有效。 上文中我们介绍了两级收敛机制, events -> alerts -> incidents: 与其看到最底层的 events,我们肯定更希望看到 incidents,incidents 数量少,所以通常来讲,首先去 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
接下来我们聊一下“告警疏漏、无法闭环”的问题,核心就是告警发出来得有人处理,所谓的闭环,就是 指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。 虽然事件降噪的几个手段落实之后,事件数量确实变少了,但是处理告警事件显然不是一个让人愉快的事 情,不愉快的事情就要团队共担,所以第一个手段就是排班,专人做专事。 排班,专人做专事 这个手段听起来并不高大上,但确实非常有效。 上文中我们介绍了两级收敛机制, events -> alerts -> incidents: 与其看到最底层的 events,我们肯定更希望看到 incidents,incidents 数量少,所以通常来讲,首先去 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较0 码力 | 23 页 | 1.75 MB | 1 年前3
 B站统⼀监控系统的设计,演进
与实践分享Feed PAAS托管 服务树 container http server sdk 注册 获取target 采集数据 吞吐量量 响应时间 错误率 饱和度 熔断 限流 投稿数量量 订单数据 在线⼈人数 … ⻩黄⾦金金指标 业务指标 少量量事件 dashboard 报表 告警 统⼀一的告警中⼼心 解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警0 码力 | 34 页 | 650.25 KB | 1 年前3 B站统⼀监控系统的设计,演进
与实践分享Feed PAAS托管 服务树 container http server sdk 注册 获取target 采集数据 吞吐量量 响应时间 错误率 饱和度 熔断 限流 投稿数量量 订单数据 在线⼈人数 … ⻩黄⾦金金指标 业务指标 少量量事件 dashboard 报表 告警 统⼀一的告警中⼼心 解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警0 码力 | 34 页 | 650.25 KB | 1 年前3
共 3 条
- 1













