 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的未来规划 展望未来 业务埋点 收集数据 监控系统 指标展示 多维数据 维度查询 异常检测 检测异常指标 多维下钻 分析异常维度 多维时间序列分析 多维时间序列分析 判断时间序列是否波动 人工查找可疑维度 人工查找可疑元素 1 2 3 人工分析异常维度 数据存储 多维时间序列 异常检测0 码力 | 28 页 | 1.88 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的未来规划 展望未来 业务埋点 收集数据 监控系统 指标展示 多维数据 维度查询 异常检测 检测异常指标 多维下钻 分析异常维度 多维时间序列分析 多维时间序列分析 判断时间序列是否波动 人工查找可疑维度 人工查找可疑元素 1 2 3 人工分析异常维度 数据存储 多维时间序列 异常检测0 码力 | 28 页 | 1.88 MB | 1 年前3
 Flashcat 让监控分析变简单,Flashcat产品技术交流率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视⻆的驾驶舱,也提供层层下钻的故障定位能⼒,有效缩短故障发现和定位 时间。 统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One Flashcat ⾯向服务稳定性保障场景 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 发现 真.故障 收敛 故障范围 引导下钻定位 引导下钻定位 北极星 灭⽕图 ⽇志分析 链路分析 事件分析 指标分析 容量分析 基础设施分析 。。。 引导定位 关键特征 关键事件 量化业务层的健康状态 量化IT系统层的健康状态 预置故障定位的最佳实 RESERVED © 北京快猫星云科技有限公司 灭⽕图:故障快速定界 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 事件墙 层层下钻 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Flashcat 优势 INTERNAL OR RESTRICTED, ALL0 码力 | 43 页 | 6.54 MB | 1 年前3 Flashcat 让监控分析变简单,Flashcat产品技术交流率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling 等多种可观测性数据融会贯通,并预置⾏业最佳实践, 既提供全局业务视⻆、技术视⻆的驾驶舱,也提供层层下钻的故障定位能⼒,有效缩短故障发现和定位 时间。 统一采集 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 All-in-One Flashcat ⾯向服务稳定性保障场景 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 发现 真.故障 收敛 故障范围 引导下钻定位 引导下钻定位 北极星 灭⽕图 ⽇志分析 链路分析 事件分析 指标分析 容量分析 基础设施分析 。。。 引导定位 关键特征 关键事件 量化业务层的健康状态 量化IT系统层的健康状态 预置故障定位的最佳实 RESERVED © 北京快猫星云科技有限公司 灭⽕图:故障快速定界 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 事件墙 层层下钻 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Flashcat 优势 INTERNAL OR RESTRICTED, ALL0 码力 | 43 页 | 6.54 MB | 1 年前3
 CloudExplorer 3.0 管理员手册v1.2了解各个云账号费用支出情况和各类资源投入使用情况。  了解各个项目、各个组织部门或用户当月或历史月份都支出多少费用。  了解各个项目、各个组织部门或用户都使用了多少各类资源。  从按需维度逐层下钻了解费用花费情况,如从各个云账号层的情况、到各个云账号下 各类资源类型层费用、到某种资源类型下资源层的花费。  了解资源的性能使用情况,找到浪费资源,进行回收优化。  制作并按需及定时生成和发送月度、年度运营报告给相关 (3)在【按云账号】选项卡中,可查看各个云账号当月或历史月份费用及费用占比。 (4)在饼图中,点击各个云账号部分,能够下钻查看云账号下各类资源费用,如图 9-4(b) 所示。 图 9-4(a) 账单分析页面 杭州飞致云信息科技有限公司 245 图 9-4(b) 下钻查看腾讯云账号下各类资源费用  查看各类计费方式费用及费用占比 操作步骤如下。 (1)在【账单中心】下【账单分析】 (1)在【账单中心】下【账单分析】页面,选择【按计费方式】标签打开【按计费方 式】选项卡。 (2)在【按计费方式】选项卡,可查看各类计费方式费用及费用占比,如图 9-15 所 示,并可下钻查看。 杭州飞致云信息科技有限公司 246 图 9-5 账单分析按计费方式选项卡  查看各类资源类型费用及费用占比 操作步骤如下。 (1)在【账单中心】左侧菜单中选择【费用分析】下【账单分析】打开【账单分析】 页面。 (20 码力 | 308 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 管理员手册v1.2了解各个云账号费用支出情况和各类资源投入使用情况。  了解各个项目、各个组织部门或用户当月或历史月份都支出多少费用。  了解各个项目、各个组织部门或用户都使用了多少各类资源。  从按需维度逐层下钻了解费用花费情况,如从各个云账号层的情况、到各个云账号下 各类资源类型层费用、到某种资源类型下资源层的花费。  了解资源的性能使用情况,找到浪费资源,进行回收优化。  制作并按需及定时生成和发送月度、年度运营报告给相关 (3)在【按云账号】选项卡中,可查看各个云账号当月或历史月份费用及费用占比。 (4)在饼图中,点击各个云账号部分,能够下钻查看云账号下各类资源费用,如图 9-4(b) 所示。 图 9-4(a) 账单分析页面 杭州飞致云信息科技有限公司 245 图 9-4(b) 下钻查看腾讯云账号下各类资源费用  查看各类计费方式费用及费用占比 操作步骤如下。 (1)在【账单中心】下【账单分析】 (1)在【账单中心】下【账单分析】页面,选择【按计费方式】标签打开【按计费方 式】选项卡。 (2)在【按计费方式】选项卡,可查看各类计费方式费用及费用占比,如图 9-15 所 示,并可下钻查看。 杭州飞致云信息科技有限公司 246 图 9-5 账单分析按计费方式选项卡  查看各类资源类型费用及费用占比 操作步骤如下。 (1)在【账单中心】左侧菜单中选择【费用分析】下【账单分析】打开【账单分析】 页面。 (20 码力 | 308 页 | 0 Bytes | 1 年前3
 1.6 利用夜莺扩展能力打造全方位监控系统的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知 产品要求 01.端上、链路、资源、组件、应用多维度跨云监控 端上 卡顿 崩溃 链路 连通性 链路质量 服务端 硬件资源 组件服务 业务应用 夜莺介绍:国产开源监控系统 第三部分0 码力 | 40 页 | 3.85 MB | 1 年前3 1.6 利用夜莺扩展能力打造全方位监控系统的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知 产品要求 01.端上、链路、资源、组件、应用多维度跨云监控 端上 卡顿 崩溃 链路 连通性 链路质量 服务端 硬件资源 组件服务 业务应用 夜莺介绍:国产开源监控系统 第三部分0 码力 | 40 页 | 3.85 MB | 1 年前3
 基于 APM 的智能运维体系在京东物流的落地和实践-付正全⚫智能运维(AIOps)落地规划 大规模实时监控平台V1.0 大规模监控平台架构 大规模实时监控平台V1.0 ◼多级部门、应用多维度统计 ◼日报、周报、同比、环比统计 ◼低资源使用率TOP统计 ◼低负载应用榜单 ◼低资源使用率应用优化建议 多维度使用率分析助力企业降本增效 使用率报表 大规模实时监控平台V2.0 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确0 码力 | 41 页 | 3.52 MB | 1 年前3 基于 APM 的智能运维体系在京东物流的落地和实践-付正全⚫智能运维(AIOps)落地规划 大规模实时监控平台V1.0 大规模监控平台架构 大规模实时监控平台V1.0 ◼多级部门、应用多维度统计 ◼日报、周报、同比、环比统计 ◼低资源使用率TOP统计 ◼低负载应用榜单 ◼低资源使用率应用优化建议 多维度使用率分析助力企业降本增效 使用率报表 大规模实时监控平台V2.0 ◼整合多端数据,解决数据孤岛问题 ◼性能分析、告警分析更加准确0 码力 | 41 页 | 3.52 MB | 1 年前3
 爱奇艺 CDN 运维平台实践-张强灰度计划 远程管理 运维平台 - 配置管理 平台采用服务端渲染、中心化管 理的配置模型. 配置可以是一个压缩包,也可以 是单个文件,均有md5信息和版 本信息用于设备本地验证和数据 上报 基于多维度、优先级覆盖策略设 计差异化算法 以设备、IDC、运营商、全局这四 个维度设定优先级进行差异化配 置 每个App的配置关联一个Task 模板. 配置关联Task模板后,可以服用平 台的基于设备、IDC、运营商等多 Plugins Promised代理集群 智能路由 心跳健康探测 API/SDK Promised服务端集群 Tagging Reformat 数据过滤 Apps CDN 设备节点 多维度 带宽实时统计 设备状态 实 时 统 计 视频CDN 服务质量统计 静态/DNS 等业务 关键指标 实时性(秒级);可扩展;易开发; 平台应用 – 运维开发 分析任务类型,确定相关依0 码力 | 34 页 | 1.75 MB | 1 年前3 爱奇艺 CDN 运维平台实践-张强灰度计划 远程管理 运维平台 - 配置管理 平台采用服务端渲染、中心化管 理的配置模型. 配置可以是一个压缩包,也可以 是单个文件,均有md5信息和版 本信息用于设备本地验证和数据 上报 基于多维度、优先级覆盖策略设 计差异化算法 以设备、IDC、运营商、全局这四 个维度设定优先级进行差异化配 置 每个App的配置关联一个Task 模板. 配置关联Task模板后,可以服用平 台的基于设备、IDC、运营商等多 Plugins Promised代理集群 智能路由 心跳健康探测 API/SDK Promised服务端集群 Tagging Reformat 数据过滤 Apps CDN 设备节点 多维度 带宽实时统计 设备状态 实 时 统 计 视频CDN 服务质量统计 静态/DNS 等业务 关键指标 实时性(秒级);可扩展;易开发; 平台应用 – 运维开发 分析任务类型,确定相关依0 码力 | 34 页 | 1.75 MB | 1 年前3
 云原生 DevOps 平台 Zadig 产品介绍次。完成⼤规模微服务的联调、集成测试,⾛上云原⽣ DevOps 交付之路! Zadig 打通内部研发交付和外部客⼾交付,对内实现云原⽣ DevOps ⼯程化、基线 化。通过云原⽣技术和⼯程能⼒,建⽴企业多维度数字化能⼒,从业务、流程、质 量、成本管理,释放“数字⼯程师”⽣产⼒。 Zadig 研发数字化成功案例 企业案例 Zadig 价值运营指标 业务管理简单⾼效,⽀持 RBAC/ABAC 权限隔离0 码力 | 8 页 | 18.50 MB | 1 年前3 云原生 DevOps 平台 Zadig 产品介绍次。完成⼤规模微服务的联调、集成测试,⾛上云原⽣ DevOps 交付之路! Zadig 打通内部研发交付和外部客⼾交付,对内实现云原⽣ DevOps ⼯程化、基线 化。通过云原⽣技术和⼯程能⼒,建⽴企业多维度数字化能⼒,从业务、流程、质 量、成本管理,释放“数字⼯程师”⽣产⼒。 Zadig 研发数字化成功案例 企业案例 Zadig 价值运营指标 业务管理简单⾼效,⽀持 RBAC/ABAC 权限隔离0 码力 | 8 页 | 18.50 MB | 1 年前3
 JumpServer ⼴受欢迎的开源堡垒机⽩名单);⾃定义控制⽤户登录时间段; 控制(复核)⽤户登录时间段;(X-Pack) ⻆⾊管理(X-Pack) ⽤户⾏为⽀持基于⻆⾊的访问控制(RBAC); 授权控制 Authorization 多维度授权 ⽀持对⽤户、⽤户组、资产、资产节点以及账号进⾏授权; 资产授权 资产以树状结构进⾏展示;资产和节点均可灵活授权;节点内资产⾃动继承授权;⼦节点⾃动继承⽗节点授权; 动作授权 实现对授权0 码力 | 49 页 | 14.87 MB | 1 年前3 JumpServer ⼴受欢迎的开源堡垒机⽩名单);⾃定义控制⽤户登录时间段; 控制(复核)⽤户登录时间段;(X-Pack) ⻆⾊管理(X-Pack) ⽤户⾏为⽀持基于⻆⾊的访问控制(RBAC); 授权控制 Authorization 多维度授权 ⽀持对⽤户、⽤户组、资产、资产节点以及账号进⾏授权; 资产授权 资产以树状结构进⾏展示;资产和节点均可灵活授权;节点内资产⾃动继承授权;⼦节点⾃动继承⽗节点授权; 动作授权 实现对授权0 码力 | 49 页 | 14.87 MB | 1 年前3
 openEuler 24.03 LTS 技术白皮书全栈观测能力,包括 GuestOS 进程级、Block 层的 I/O 观测能力,以及虚 拟化层存储前端 I/O 观测能力,分布式存储后端 I/O 观测能力。 • 精细化性能 Profiling:提供多维度(包括系统、进程、容器、Pod 等多个维度)、高精度(10ms 采样周期)的性能(包括 CPU 性能、 内存占用、资源占用、系统调用等类型)火焰图、时间线图,可实时在线持续性采集。 • K8S0 码力 | 45 页 | 6.18 MB | 1 年前3 openEuler 24.03 LTS 技术白皮书全栈观测能力,包括 GuestOS 进程级、Block 层的 I/O 观测能力,以及虚 拟化层存储前端 I/O 观测能力,分布式存储后端 I/O 观测能力。 • 精细化性能 Profiling:提供多维度(包括系统、进程、容器、Pod 等多个维度)、高精度(10ms 采样周期)的性能(包括 CPU 性能、 内存占用、资源占用、系统调用等类型)火焰图、时间线图,可实时在线持续性采集。 • K8S0 码力 | 45 页 | 6.18 MB | 1 年前3
 openEuler 23.09 技术白皮书C/C++、Go、Rust、Java。 3) 多实例:支持同时监控多个进程或容器,UI 前端可以对比性分析问题原因。 4) 细粒度:支持指定 profiling 范围,包括进程、容器、Pod。 5) 多维度:提供 OnCPU、OffCPU、MemAlloc 不同维度的应用性 Profiling。 特性增强 29 openEuler 23.09 技术白皮书 相关使用方式请参考 gala-gopher0 码力 | 52 页 | 5.25 MB | 1 年前3 openEuler 23.09 技术白皮书C/C++、Go、Rust、Java。 3) 多实例:支持同时监控多个进程或容器,UI 前端可以对比性分析问题原因。 4) 细粒度:支持指定 profiling 范围,包括进程、容器、Pod。 5) 多维度:提供 OnCPU、OffCPU、MemAlloc 不同维度的应用性 Profiling。 特性增强 29 openEuler 23.09 技术白皮书 相关使用方式请参考 gala-gopher0 码力 | 52 页 | 5.25 MB | 1 年前3
共 14 条
- 1
- 2













