 PromQL 从入门到精通存可用率数据,我们称为数据点,比如上图,2022-08-25 15:05:22 这个时刻,每个机器都有 一个可用率数据点,共计 5 个数据点。 上面的图是查询的最近一小时的,我们切换到 Table 视图,得到如下结果: 这个表格的内容,是这 5 台机器在当前这个时间点的最新值,当前我做查询的时刻是:2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数: 但是,监控数据是周期性上报的,比如每 分钟之间的数据,然后返回最新的那个。 查询类型 上例中的 mem_available_percent{app="clickhouse"} 称为查询表达式,不同的表达式,会返 回不同的内容,返回的内容总共有 4 种格式,分别是:Instant vector(瞬时向量)、Range vector(范围向量)、Scalar(标量)、String(字符串)。返回瞬时向量的查询表达式,我们 称为 这一节我们举例说明一些常用的函数。 absent_over_time 接收一个 range-vector,如果range-vector是空,则返回1,表示absent,如果range-vector 有内容,则什么都不返回。 这个特性在生产环境下可以用作nodata告警,比如: absent_over_time(system_load_norm_1{ident="tt-fc-dev02.nj"}[5m])0 码力 | 16 页 | 2.77 MB | 1 年前3 PromQL 从入门到精通存可用率数据,我们称为数据点,比如上图,2022-08-25 15:05:22 这个时刻,每个机器都有 一个可用率数据点,共计 5 个数据点。 上面的图是查询的最近一小时的,我们切换到 Table 视图,得到如下结果: 这个表格的内容,是这 5 台机器在当前这个时间点的最新值,当前我做查询的时刻是:2022- 08-25 15:48:03 用 Chrome 开发者工具可以看到发的请求参数: 但是,监控数据是周期性上报的,比如每 分钟之间的数据,然后返回最新的那个。 查询类型 上例中的 mem_available_percent{app="clickhouse"} 称为查询表达式,不同的表达式,会返 回不同的内容,返回的内容总共有 4 种格式,分别是:Instant vector(瞬时向量)、Range vector(范围向量)、Scalar(标量)、String(字符串)。返回瞬时向量的查询表达式,我们 称为 这一节我们举例说明一些常用的函数。 absent_over_time 接收一个 range-vector,如果range-vector是空,则返回1,表示absent,如果range-vector 有内容,则什么都不返回。 这个特性在生产环境下可以用作nodata告警,比如: absent_over_time(system_load_norm_1{ident="tt-fc-dev02.nj"}[5m])0 码力 | 16 页 | 2.77 MB | 1 年前3
 告警OnCall事件中心建设方法白皮书
么紧急,有些只是想作为一个通知,好像又确实难以 对应一个固定的 Runbook。 针对这两种情况,我的做法是:不紧急的告警,也必须要有动作,虽然这个动作可能不是立马执行处理, 但至少要创建个低优先级的工单之类的,或者提高告警阈值,等问题严重一些再告警。对于只是想通知一 下的告警,其实都不算告警,只能看作是一种另类的报表和巡检手段,这样的“告警”就按照报表和巡检 的逻辑来处理,比如 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个 Prometheus 类型的集成(Integration),要接 Nightingale 的告警事件,就需要创建一个 Nightingale 类型的集成(Integration),点击上例中的 “支付”协作空间,进入协作空间详情,其中有个【集成数据】的入口: 上例中我已经创建过多个集成了,你的环境是新的,只需要点击【+新增一个集成】,选择集成类型,随便 输入一个集成名称,就可以创建一个集成。 创建完了集成之后,点击这个集成查看详情,会看到一个专属的0 码力 | 23 页 | 1.75 MB | 1 年前3 告警OnCall事件中心建设方法白皮书
么紧急,有些只是想作为一个通知,好像又确实难以 对应一个固定的 Runbook。 针对这两种情况,我的做法是:不紧急的告警,也必须要有动作,虽然这个动作可能不是立马执行处理, 但至少要创建个低优先级的工单之类的,或者提高告警阈值,等问题严重一些再告警。对于只是想通知一 下的告警,其实都不算告警,只能看作是一种另类的报表和巡检手段,这样的“告警”就按照报表和巡检 的逻辑来处理,比如 比如我们团队是负责公司的支付系统,我们就可以创建一个以“支付”命名的协作空间。之后把支付团队 相关的告警都接入这个协作空间,支付团队可能用了 Zabbix、Prometheus 等多个监控系统,所以, OnCall 这个产品需要提供多种数据集成方式,让告警事件很方便地上报上来。 集成中心 比如要接入 Prometheus 的告警事件,就需要创建一个 Prometheus 类型的集成(Integration),要接 Nightingale 的告警事件,就需要创建一个 Nightingale 类型的集成(Integration),点击上例中的 “支付”协作空间,进入协作空间详情,其中有个【集成数据】的入口: 上例中我已经创建过多个集成了,你的环境是新的,只需要点击【+新增一个集成】,选择集成类型,随便 输入一个集成名称,就可以创建一个集成。 创建完了集成之后,点击这个集成查看详情,会看到一个专属的0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1













