高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) (自编码器) 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 • 方差,偏度,峰度 • 同比,环比,周期性 • 自相关系数,变异系数 时间序列的拟合特征 • 移动平均算法 • 带权重的移动平均算法 • 指数移动平均算法0 码力 | 28 页 | 1.88 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全良好的用户体验,降低IT成本 运维角色转变 背锅侠 救火员 被动响应 主动求变 需求提炼 产品化开发 产品化落地 产品意识 推广落地 业务数据分析 过程改进 技术运营 事件处理 业务分析 业务预测 业务增值 架构标准化 架构实施 架构优化 架构运维 运维价值凸显 新运维时代来临 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能运维(AIOps)落地规划 大规模实时监控平台V1.0 大规模监控平台架构 大规模实时监控平台V1.0 ◼多级部门、应用多维度统计 ◼日报、周报、同比、环比统计 ◼低资源使用率TOP统计 ◼低负载应用榜单 ◼低资源使用率应用优化建议 多维度使用率分析助力企业降本增效 使用率报表 大规模实时监控平台V2.0 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确 大规模实时监控平台V3.0 产品规划 大规模实时监控平台V3.0 故障预测、容量预测、性能预测 预测分类: 预测算法: 重点关注: LSTM、多元线性回归、决策树、随机森 林、神经网络、朴素贝叶斯分类、最小二乘 法、支持向量机 … 算法匹配度评分 日历适配、基于节假日的机器学习算法 Kpi自动分类并匹配预测算法 基于业务关联关系的预测算法 预测 大规模实时监控平台V3.0 红绿灯 大屏 可视化0 码力 | 41 页 | 3.52 MB | 1 年前3
Zabbix 5.0 Manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 9 时间段配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . zabbix server/proxy 日志中出现”Trapper got [] len 0” 信息,这是什么原因? A: 很有可能是前端有问题,连接并检查服务是否仍在运行。 10. Q: 系统时间设置为将来的某一时间,导致没有数据出现。这个问题怎么解决? A: 清除数据库中的字段 hosts.disable_until*, drules.nextcheck, httptest.nextcheck 的值,并重启 nt.key ... 4 TimescaleDB 配置 概述 Zabbix 支持时序数据库 TimescaleDB,这是一种基于 PostgreSQL 的数据库解决方案,可将数据自动划分为基于时间的块,以支持更快 的大规模性能。 Warning: 目前时序数据库不支持 Zabbix proxy。 本页上的说明可用于创建 TimescaleDB 数据库或从现有 PostgreSQL 表迁移到0 码力 | 2715 页 | 28.60 MB | 1 年前3
B站统⼀监控系统的设计,演进
与实践分享客户端质量量 • ⽤用户端⽹网络质量量 • 劫持情况 • 崩溃&卡顿 • 返回码 • 响应时间 • 错误率 服务端监控 ⽤用户端监控 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 如何推进? 如何推进? 服务端监控 场景 分析监控场景对应监控⼿手段 类型 metric类型 ⽇日志类型 ⾃自定义类型 ⼿手段 时间序列列数据 ⽇日志处理理流 ⾃自研 ⽤用户端监控 apm ⾃自研 客户端 播放器器 metric⽅方案选型 • 能覆盖⼤大部分监控场景 • 固定⼏几种数据类型 ✦ Counter ✦ Gauge ✦ 等.. • 时序数据 时序数据 ✦ 具有统计特性 ✦ 具有规律律性 metric数据特征 选型原则 • 基于开源⽅方案,⼆二次开发 • 具备现代时间序列列数据库的特性 • 活跃项⽬目,具有成熟的⽣生态环境 结论 • prometheus • ⽀支持任意维度label • cncf基⾦金金会 metric • 40w+/s的指标采集 • 10k+ 监控⽬目标 • 10+ prometheus节点0 码力 | 34 页 | 650.25 KB | 1 年前3
Zabbix 7.0 中文手册. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884 13 时间段选择器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1859 9 时间段语法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 使用宏可以使通知变得有意义和友好 • 自动化操作包括执行远程命令 实时图形 • 采集到的监控项值可以使用内置的绘图功能立即图形化 网络监控功能 • Zabbix 可以跟踪网站上的模拟鼠标点击的路径并检查功能和响应时间 丰富的可视化选项 • 创建自定义图形的能力,可以将多个监控项组合成一个聚合图形 • 网络拓扑图 • 在仪表盘中显示幻灯片 • 报表 • 被监控资源的高级(业务)视图 历史数据存储 •0 码力 | 1951 页 | 33.43 MB | 1 年前3
Zabbix 6.0 Manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1718 9 时间段语法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 使用宏可以使通知变得有意义和有用 • 自动化操作包括执行远程命令 实时图形 • 采集到的监控项值可以使用内置的绘图功能立即绘图 网络监控功能 • Zabbix 可以跟踪网站上的模拟鼠标点击路径并检查功能和响应时间 广泛的可视化选项 • 创建自定义图形的能力,可以将多个监控项组合成一个聚合图形 • 网络拓扑图 • 在仪表盘中显示幻灯片 • 报表 • 受监控资源的高级(业务)视图 历史数据存储 • ,该参数允许通过引入 sum、min、max、avg 和 count 等函数来聚合潜在的多个匹配行的数据。 函数 Prometheus 直方图的函数 在 Zabbix 中收集Prometheus 指标 已经有一段时间了,但有些指标很难使用。具体来说,直方图类型的指标可以在 Zabbix 中呈现为具 有相同键值名称但参数不同的多个监控项。然而,即使这些监控项在逻辑上相关并代表相同的数据,如果没有专门的功能,很难分析收集0 码力 | 1741 页 | 22.78 MB | 1 年前3
Zabbix 4.4 中文手册. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 9 时间段配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . zabbix server/proxy 日志中出现”Trapper got [] len 0” 信息,这是什么原因? A: 很有可能是前端有问题,连接并检查服务是否仍在运行。 10. Q: 系统时间设置为将来的某一时间,导致没有数据出现。这个问题怎么解决? A: 清除数据库中的字段 hosts.disable_until*, drules.nextcheck, httptest.nextcheck 的值,并重启 不会删除任何 Elasticsearch 中的数据 Note: Housekeeper is not deleting any data from Elasticsearch. 历史数据存储于多个基于时间的索引 Storing history data in multiple date-based indices 本节介绍使用 pipeline 和 ingest 节点所需的其他配置步骤。This0 码力 | 1850 页 | 13.52 MB | 1 年前3
openEuler 21.09 技术白皮书的实时抢占及抖动 抑制,创新业务优先级 OOM 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步时间, 提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 夯实云化基座 容器操作系统 安全容器方案:iSulad + shimv2 + StratoVirt 安全容器方案,相比传统 docker + qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eggo:ARM/X86 双平面混合集群 OS 高效一键式安装,百节点部署时间 <15min。 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler 21.09 Edge,集成 KubeEdge+ KubeEdge+ 边云协同框架,具备边云应用 统一管理和发放等基础能力。 • 嵌入式: 发布面向嵌入式领域的版本 openEuler 21.09 Embedded,镜像大小 <5M,启动时间 <5S。 繁荣社区生态 友好桌面环境:UKUI、DDE 、Xfce 桌面环境,丰富社区桌面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。0 码力 | 35 页 | 3.72 MB | 1 年前3
Zabbix 5.2 Manual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 9 时间段配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . zabbix server/proxy 日志中出现”Trapper got [] len 0” 信息,这是什么原因? A: 很有可能是前端有问题,连接并检查服务是否仍在运行。 10. Q: 系统时间设置为将来的某一时间,导致没有数据出现。这个问题怎么解决? A: 清除数据库中的字段 hosts.disable_until*, drules.nextcheck, httptest.nextcheck 的值,并重启 不会删除任何 Elasticsearch 中的数据 Note: Housekeeper is not deleting any data from Elasticsearch. 历史数据存储于多个基于时间的索引 Storing history data in multiple date-based indices 本节介绍使用 pipeline 和 ingest 节点所需的其他配置步骤。This0 码力 | 1725 页 | 11.53 MB | 1 年前3
Zabbix 4.0 中文手册. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 9 时间段配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . zabbix server/proxy 日志中出现”Trapper got [] len 0” 信息,这是什么原因? A: 很有可能是前端有问题,连接并检查服务是否仍在运行。 10. Q: 系统时间设置为将来的某一时间,导致没有数据出现。这个问题怎么解决? A: 清除数据库中的字段 hosts.disable_until*, drules.nextcheck, httptest.nextcheck 的值,并重启 不会删除任何 Elasticsearch 中的数据 Note: Housekeeper is not deleting any data from Elasticsearch. 历史数据存储于多个基于时间的索引 Storing history data in multiple date-based indices 14 本节介绍使用 pipeline 和 ingest 节点所需的其他配置步骤。This0 码力 | 1992 页 | 17.90 MB | 1 年前3
共 114 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12













