 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践腾讯智能运维(Metis)项目实践 张戎 机器学习高级研究员 张戎 腾讯云 云服务平台部 机器学习高级研究员 • 2015年毕业于新加坡国立大学数学专业,获博士学位; • 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 智能运维系统:机器学习+业务运维,2017年8月-至今 SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐0 码力 | 28 页 | 1.88 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践腾讯智能运维(Metis)项目实践 张戎 机器学习高级研究员 张戎 腾讯云 云服务平台部 机器学习高级研究员 • 2015年毕业于新加坡国立大学数学专业,获博士学位; • 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 智能运维系统:机器学习+业务运维,2017年8月-至今 SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐0 码力 | 28 页 | 1.88 MB | 1 年前3
 CloudExplorer 3.0 部署运维手册v1.2杭州飞致云信息科技有限公司 1 CloudExplorer 云管理平台 部署运维手册 版本(v1.2) 杭州飞致云信息科技有限公司 2022 年 4 月 杭州飞致云信息科技有限公司 2 目录 一、概述.......................................................................................... ........................................................................................6 2.1.4 模块镜像................................................................................................... .......................................................................................... 27 9.2 镜像拉取失败...............................................................................................0 码力 | 29 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 部署运维手册v1.2杭州飞致云信息科技有限公司 1 CloudExplorer 云管理平台 部署运维手册 版本(v1.2) 杭州飞致云信息科技有限公司 2022 年 4 月 杭州飞致云信息科技有限公司 2 目录 一、概述.......................................................................................... ........................................................................................6 2.1.4 模块镜像................................................................................................... .......................................................................................... 27 9.2 镜像拉取失败...............................................................................................0 码力 | 29 页 | 0 Bytes | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - ServerlessOpsDocker KVM 业务运维 平台运维 系统运维 Serverless 介绍 什么是 Serverless、Serverless 提供的运维能力 Serverless 业务运维能力 & 系统运维能力 Serverless 和 虚拟机 2 种形态下运维能力对比 Serverless vs. IaaS 运维能力对比 Serverless 和 虚拟机 2 种形态下运维能力对比 Serverless Serverless 运维案例 腾讯相册微信小程序运维案例 目录 Serverless 介绍 2014 2016 2017 AWS lambda Azure Function GCP Cloud Function IBM Open Wisk Tencent Cloud SCF Ali Cloud FC Firebase Serverless:云计算新趋势 … System Resource 内存和数据库等,只 需关注业务开发 用户运维 Cloud Vendor System Resource Serverless 化 / Serverless … CaaS (Compute as a Service) … BaaS (Backend as a Service) Serverless ≈ CaaS + BaaS 用户运维 Serverless 介绍 Physical0 码力 | 32 页 | 4.85 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - ServerlessOpsDocker KVM 业务运维 平台运维 系统运维 Serverless 介绍 什么是 Serverless、Serverless 提供的运维能力 Serverless 业务运维能力 & 系统运维能力 Serverless 和 虚拟机 2 种形态下运维能力对比 Serverless vs. IaaS 运维能力对比 Serverless 和 虚拟机 2 种形态下运维能力对比 Serverless Serverless 运维案例 腾讯相册微信小程序运维案例 目录 Serverless 介绍 2014 2016 2017 AWS lambda Azure Function GCP Cloud Function IBM Open Wisk Tencent Cloud SCF Ali Cloud FC Firebase Serverless:云计算新趋势 … System Resource 内存和数据库等,只 需关注业务开发 用户运维 Cloud Vendor System Resource Serverless 化 / Serverless … CaaS (Compute as a Service) … BaaS (Backend as a Service) Serverless ≈ CaaS + BaaS 用户运维 Serverless 介绍 Physical0 码力 | 32 页 | 4.85 MB | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化,低成本 实现企业IT经营管理模式升级和自主化。 承载数百款 腾讯业务 管控数十万 台服务器 孵化700+ 应用系统 全球多云 管控 培养数百蓝鲸运 维开发 工具驱动运维:采用运维 开发的模式,实现所有运维任 务自动化、工具化、可视化。 数据驱动运维:基于大数据 的接入、存储、分析技术,对运 维数据进行全面挖掘和分析,实 维数据进行全面挖掘和分析,实 现数据驱动自动化运维。 机器驱动运维:基于智能算法 的机器自我学习,训练机器智能运 维模型,实现无人值守和智能的运 维与运营。 数据化 2015--2017 智能化 2017—现在 蓝鲸目前在腾讯应用情况及发展方向 4个转型的绊脚石 有重客户端游戏,网页游戏,各类官网,移动终端游戏, 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 蓝鲸进化第1步:抽象原子平台0 码力 | 26 页 | 8.25 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化,低成本 实现企业IT经营管理模式升级和自主化。 承载数百款 腾讯业务 管控数十万 台服务器 孵化700+ 应用系统 全球多云 管控 培养数百蓝鲸运 维开发 工具驱动运维:采用运维 开发的模式,实现所有运维任 务自动化、工具化、可视化。 数据驱动运维:基于大数据 的接入、存储、分析技术,对运 维数据进行全面挖掘和分析,实 维数据进行全面挖掘和分析,实 现数据驱动自动化运维。 机器驱动运维:基于智能算法 的机器自我学习,训练机器智能运 维模型,实现无人值守和智能的运 维与运营。 数据化 2015--2017 智能化 2017—现在 蓝鲸目前在腾讯应用情况及发展方向 4个转型的绊脚石 有重客户端游戏,网页游戏,各类官网,移动终端游戏, 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 蓝鲸进化第1步:抽象原子平台0 码力 | 26 页 | 8.25 MB | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践云+社区技术沙龙 冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 协作式DevOps团队 交付周期 短且持续 应用架构 微服务,基于API的通信 基础架构 以容器为中心 部署可预测性 可预测 弹性能力 弹性调度 恢复能力 自动化运维,快速恢复 蓝盾/TencentHub…… 每天可交付数十次 运维开发&应用开发 TSF,Service Mesh K8S(TKE) 云原生方法 业务最佳实践 K8S(TKE) K8S(TKE)+业务画像 K8S(TKE) 基础设施告警 管理体系 业务管理 用户体系 权限 审计 安全 资源调度 服务监控 服务告警 远程日志 自动扩缩容 负载均衡 服务发现 CI/CD 蓝盾 OCI QCI 镜像仓库 CSIGHUB DockerImage Docker Hub 跨地域、跨集群部署 分批灰度升级 测试、预发布、生产 容器登录 容器权限同步 PAAS服务支持 数据库 消息中间件0 码力 | 26 页 | 2.39 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践云+社区技术沙龙 冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 协作式DevOps团队 交付周期 短且持续 应用架构 微服务,基于API的通信 基础架构 以容器为中心 部署可预测性 可预测 弹性能力 弹性调度 恢复能力 自动化运维,快速恢复 蓝盾/TencentHub…… 每天可交付数十次 运维开发&应用开发 TSF,Service Mesh K8S(TKE) 云原生方法 业务最佳实践 K8S(TKE) K8S(TKE)+业务画像 K8S(TKE) 基础设施告警 管理体系 业务管理 用户体系 权限 审计 安全 资源调度 服务监控 服务告警 远程日志 自动扩缩容 负载均衡 服务发现 CI/CD 蓝盾 OCI QCI 镜像仓库 CSIGHUB DockerImage Docker Hub 跨地域、跨集群部署 分批灰度升级 测试、预发布、生产 容器登录 容器权限同步 PAAS服务支持 数据库 消息中间件0 码力 | 26 页 | 2.39 MB | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践0 码力 | 10 页 | 1.39 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践0 码力 | 10 页 | 1.39 MB | 1 年前3
 CloudExplorer 3.0 管理员手册v1.2模块化的无缝 横向扩展(scale-out),形成统一的资源池。比较知名常见的超融合平台 有 Nutanix、戴尔的 VxRail,国内的 SmartX、青云超融合。 运维支撑工具平台 指运维工作中帮助运维的各种运维工具平台,如 CMDB、ITSM、监控平台、 自动化作业工具、备份工具、漏洞扫描工具等等。 VMware 平台 虚拟化平台市场中占有率最大的平台,多数大中型企业 IT 都采用了 9 云账号 用于 Human 用户登录云平台 Web 控制台的账号,以及用于给应用通过 API 操作云平台需要的授权云平台 API 账号。 项目生命周期 指项目从开发测试、投产到系统运维、应用运维的整个过程。 应用系统 由多个应用组成的分布式系统。 应用 指独立部署运行的应用程序。 应用运行环境 支持应用系统运行的各类资源和环境,包括各类基础架构平台的虚拟机、 操作系统、云磁盘、网络、安全组、弹性 ManageEngine、优云等。 JumpServer JumpServer 是全球首款开源的堡垒机,使用 GNU GPL v2.0 开源协议, 杭州飞致云信息科技有限公司 11 是符合 4A 规范的运维安全审计系统。JumpServer 使用 Python / Django 为主进行开发,遵循 Web 2.0 规范,配备了业界领先的 Web Terminal 方案,交互界面美观、用户体验好。采纳分布式架构,支持多机0 码力 | 308 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 管理员手册v1.2模块化的无缝 横向扩展(scale-out),形成统一的资源池。比较知名常见的超融合平台 有 Nutanix、戴尔的 VxRail,国内的 SmartX、青云超融合。 运维支撑工具平台 指运维工作中帮助运维的各种运维工具平台,如 CMDB、ITSM、监控平台、 自动化作业工具、备份工具、漏洞扫描工具等等。 VMware 平台 虚拟化平台市场中占有率最大的平台,多数大中型企业 IT 都采用了 9 云账号 用于 Human 用户登录云平台 Web 控制台的账号,以及用于给应用通过 API 操作云平台需要的授权云平台 API 账号。 项目生命周期 指项目从开发测试、投产到系统运维、应用运维的整个过程。 应用系统 由多个应用组成的分布式系统。 应用 指独立部署运行的应用程序。 应用运行环境 支持应用系统运行的各类资源和环境,包括各类基础架构平台的虚拟机、 操作系统、云磁盘、网络、安全组、弹性 ManageEngine、优云等。 JumpServer JumpServer 是全球首款开源的堡垒机,使用 GNU GPL v2.0 开源协议, 杭州飞致云信息科技有限公司 11 是符合 4A 规范的运维安全审计系统。JumpServer 使用 Python / Django 为主进行开发,遵循 Web 2.0 规范,配备了业界领先的 Web Terminal 方案,交互界面美观、用户体验好。采纳分布式架构,支持多机0 码力 | 308 页 | 0 Bytes | 1 年前3
 FIT2CLOUD CloudExplorer 产品白皮书 v1.7简化异构基础架构及工具带来的服务管理运维复杂度............................... 10 1.4 能够带来哪些改变.................................................................................................10 1.4.1 对于应用开发测试运维人员............. ..11 1.5.2 实现资源运行环境全生命周期管理............................................................12 1.5.3 实现运维工具深度整合、联动自动化........................................................ 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 5 前言 目前很多企业科技及 IT 的负责人、从业者都有以下同样的感受以及面临着同样的问题, 即 IT 部门采购了大量基础架构及运维安全管理工具,但是却发现在 IT 整体服务响应速度及 管理能力提升上却收效甚微,仍然难以从整体上快速供给提供运行环境资源,快速响应业务 需求,对于业务部门不得不排期等待几小时、几天甚至几周时间获取业务开发测试运行所需0 码力 | 60 页 | 0 Bytes | 1 年前3 FIT2CLOUD CloudExplorer 产品白皮书 v1.7简化异构基础架构及工具带来的服务管理运维复杂度............................... 10 1.4 能够带来哪些改变.................................................................................................10 1.4.1 对于应用开发测试运维人员............. ..11 1.5.2 实现资源运行环境全生命周期管理............................................................12 1.5.3 实现运维工具深度整合、联动自动化........................................................ 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 5 前言 目前很多企业科技及 IT 的负责人、从业者都有以下同样的感受以及面临着同样的问题, 即 IT 部门采购了大量基础架构及运维安全管理工具,但是却发现在 IT 整体服务响应速度及 管理能力提升上却收效甚微,仍然难以从整体上快速供给提供运行环境资源,快速响应业务 需求,对于业务部门不得不排期等待几小时、几天甚至几周时间获取业务开发测试运行所需0 码力 | 60 页 | 0 Bytes | 1 年前3
 Zadig 产品使用手册研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路:通过「平台工程」解决流程挑战,通过「技术升级」提升组织效能 01 04 02 03 工程化协同:“人、技术、流 程、工具” 四维协同基线,沉 淀全流程数据,从感知到赋 能,服务于工程师 释放云基建能力:链接任何云 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 多服务并行部署发布,云原生构建环境和运行 环境,基础设施对接及企业级 SSO/ 权限管理 等 运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外 搭建全流程能力 专门面向开发者的生产力平台,涵盖需求到开 发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。 测试 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付0 码力 | 52 页 | 22.95 MB | 1 年前3 Zadig 产品使用手册研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路:通过「平台工程」解决流程挑战,通过「技术升级」提升组织效能 01 04 02 03 工程化协同:“人、技术、流 程、工具” 四维协同基线,沉 淀全流程数据,从感知到赋 能,服务于工程师 释放云基建能力:链接任何云 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 多服务并行部署发布,云原生构建环境和运行 环境,基础设施对接及企业级 SSO/ 权限管理 等 运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外 搭建全流程能力 专门面向开发者的生产力平台,涵盖需求到开 发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。 测试 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付0 码力 | 52 页 | 22.95 MB | 1 年前3
 Zadig 产品使用手册研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路:通过「平台工程」解决流程挑战,通过「技术升级」提升组织效能 01 04 02 03 工程化协同:“人、技术、流 程、工具” 四维协同基线, 沉淀全流程数据,从感知到赋 能,服务于工程师 释放云基建能力:链接任何云 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 多服务并行部署发布,云原生构建环境和运行 环境,基础设施对接及企业级 SSO/权限管理等 运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外 搭建全流程能力 专门面向开发者的生产力平台,涵盖需求到开 发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。 测试 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付0 码力 | 52 页 | 16.27 MB | 1 年前3 Zadig 产品使用手册研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路:通过「平台工程」解决流程挑战,通过「技术升级」提升组织效能 01 04 02 03 工程化协同:“人、技术、流 程、工具” 四维协同基线, 沉淀全流程数据,从感知到赋 能,服务于工程师 释放云基建能力:链接任何云 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 多服务并行部署发布,云原生构建环境和运行 环境,基础设施对接及企业级 SSO/权限管理等 运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外 搭建全流程能力 专门面向开发者的生产力平台,涵盖需求到开 发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。 测试 发布 洞察 一堆复杂脚本、维护成本极高 员工手工操作费时费力易出错 手动更新服务、手动打包、交付0 码力 | 52 页 | 16.27 MB | 1 年前3
共 18 条
- 1
- 2













