Goroutine数量过高 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

机实例挂了，用 0 表示，如果实例存活，用 1 表示；再比如内存使用率，这个时刻采集是 33.7%，下个周期采集可能就变成了 25.8%；还有像机器最近 5 分钟的 load、正在运行的进程数量等等，都使用 Gauge 类型来表示。这种类型的值，我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值，比如机器上某块网卡收到的数据包的总量，是从操作系统启动 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 假设某个 Pod 是接入层的，统计了很多 HTTP 请求相关的指标，我们想统计 5xx 的请求数量，希望能按 Pod 的 version 画一个饼图。这里有个难点：接入层这个 Pod 没有 version 标签， version 信息只是出现在 kube_pod_labels 中，如何让二者联动呢？上答案： (pod) group_left(label_version) kube_pod_labels 我们来掰开揉碎这个 promql 看一下具体的意思，乘号前面的部分，是一个典型的统计每秒 5xx 数量的语法，group by pod。然后我们乘以 kube_pod_labels，这个值是1，所以对整体数值没有影响，而 kube_pod_labels 有多个标签，而且和sum语句的结果vector的标签不一致，所以通过

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

接下来我们聊一下“告警疏漏、无法闭环”的问题，核心就是告警发出来得有人处理，所谓的闭环，就是指告警发出、认领、协作处理、问题恢复、复盘改进的整个过程。虽然事件降噪的几个手段落实之后，事件数量确实变少了，但是处理告警事件显然不是一个让人愉快的事情，不愉快的事情就要团队共担，所以第一个手段就是排班，专人做专事。排班，专人做专事这个手段听起来并不高大上，但确实非常有效。上文中我们介绍了两级收敛机制， events -> alerts -> incidents：与其看到最底层的 events，我们肯定更希望看到 incidents，incidents 数量少，所以通常来讲，首先去故障管理里查看当前的故障（incidents）列表，每个故障关联了哪些告警，告警关联了哪些事件，也可以顺便查看。如上图，最外层是故障列表（看起来比较

0 码力 | 23 页 | 1.75 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

Feed PAAS托管服务树 container http  server sdk 注册获取target 采集数据吞吐量量响应时间错误率饱和度熔断限流投稿数量量  订单数据在线⼈人数  … ⻩黄⾦金金指标业务指标少量量事件 dashboard 报表告警统⼀一的告警中⼼心解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 3 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享