高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 接入服务 业务 服务框架 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker IEG PCG WXG CDG “烟囱式”的业务支持体系 幸福的烦恼 ⚫ 重复造轮子,每个部门一套轮子 ⚫ 缺乏统一规范,包括开源代码在内 将原有七大事业群(BG)重组整合,新成立云与智慧产业事业群(CSIG)、平台与内容 事业群(PCG)。在连接人、连接数字内容、连接服务的基础上,更加彰显了腾讯推动由消费 互联网,向产业互联网的升级的决心。 业务上云价值 • 开发效率更高 • 云上特性(VM热迁移等) • 丰富的标准化云服务 • 云原生TKE、研发CICD流程 • 计算资源重用 • 公共组件产品化 • 丰富的公有云海外资源 •0 码力 | 26 页 | 2.39 MB | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7年,是多云时代技术领先的企业级软件提供商。 FIT2CLOUD 以“Fit to Cloud”为使命,致力于帮助企业在多云时代更好地测试、运行、 管理和保护其 IT 基础设施和应用,实现数字化转型的目标。 FIT2CLOUD 的产品与解决方案涵盖软件测试、云原生运行时、多云管理、安全合规、 数据分析可视化、内容管理,其旗舰产品包括:MeterSphere 开源持续测试平台、 KubeOperator IT 部门采购了大量基础架构及运维安全管理工具,但是却发现在 IT 整体服务响应速度及 管理能力提升上却收效甚微,仍然难以从整体上快速供给提供运行环境资源,快速响应业务 需求,对于业务部门不得不排期等待几小时、几天甚至几周时间获取业务开发测试运行所需 的运行环境资源,对于 IT 部门又耗费大量 IT 人力在重复操作工作上,并且难以精细有效管 理 IT 资源,造成大量的资源浪费和不必要的成本投入。 的依赖程度及要求越来越高,IT 规模以及 IT 组织 规模增大分工越来越细化,以及云时代的来临云基础架构带来的多样化,使得 IT 部门越来 越不堪重负,形成了两个日趋激化的矛盾。 一方面,业务快速发展要求 IT 响应时间越来越短,迭代开发测试速度越来越快, 形成 IT 响应时间越来越短的要求与现有僵化基础设施、低效 IT 供给服务模式的矛 盾。 另一方面,资源池规模越来越大、种类越来越多,运维工具独立多样化,IT0 码力 | 60 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 管理员手册v1.2..........254 9.3.8 查看各个部门历史月份费用变化情况及趋势............................................255 9.3.9 查看各个业务或项目历史月份费用变化情况及趋势................................255 9.3.10 查看各个云账号下资源使用情况......................... 阅读对象 杭州飞致云信息科技有限公司 7 IT 系统管理员、云平台管理员、运营人员 云管平台实施人员 云管平台开发测试人员 1.3 名词术语 名词 解释 基础架构平台 指为业务系统开发测试、运行提供运行环境资源的各类虚拟化平台、超融 合平台、私有云平台以及公有云平台。 虚拟化平台 指以 VMware 为代表的基于虚拟化技术整合物理机以虚拟机方式提供资源 的平台,除 网络还允许划分成更小的网络,称为子网(Subnet)。 ITSM 全称 IT Service and Management,是诸多大中型企业采用的 IT 变更请 求管理工具,用于 IT 部门面向应用业务开发测试、业务部门以及 IT 部门内 部成员提交 IT 服务请求,流程管理、流程审批,派发,沟通反馈操作结果 输出,记录变更,记录管理知识库。通常 ITIL 以 ITSM 工具进行落地。比 较 常 见0 码力 | 308 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 用户手册v1.2维人员,通过该手册了解云管平台的用户侧功能及相应的使用场景、操作使用方法。 1.2 阅读对象 应用开发测试人员 应用运维人员 云管平台实施人员 1.3 名词术语 名词 解释 基础架构平台 指为业务系统开发测试、运行提供运行环境资源的各类虚拟化平 台、超融合平台、私有云平台以及公有云平台。 虚拟化平台 指以 VMware 为代表的基于虚拟化技术整合物理机以虚拟机方 式提供资源的平台,除 到克隆列表】按钮旁的【查看克隆列表】按钮,如图 3-7 所示,打开【批量克隆虚拟机】 页面。 (3)在【批量克隆虚拟机】页面中,如图 3-8 所示,选择克隆虚拟机到哪个集群、IP 分配方式,修改目标机器名、租期、回收策略和备注,选择和填写完成后点击【提交】 按钮。 杭州飞致云信息科技有限公司 29 图 3-6 添加到克隆列表 图 3-7 查看克隆列表 杭州飞致云信息科技有限公司 30 当【强制变更文件系统】开启时,开启后,新添加的磁盘将自动强制挂载至您所填 写的挂载点 若目标文件下存在文件/文件夹,挂载程序会将源文件夹下的子文件移 动至/tmp 目录并在挂载后移回,此过程会影响使用相关文件/文件夹的应用或系统 的正常运行,请谨慎操作! 【挂载点】说明:磁盘添加完成后自动挂载到目标文件系统,若目录存在且为 LVM 磁盘,将自动执行 LVM 扩容。若目录不存在,将自动创建0 码力 | 102 页 | 0 Bytes | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性:极简、 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps 方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源 / 业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保 障,建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地 /0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性:极简、0 负担接入 Zadig 业务架构 Zadig 系统架构 Zadig 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源/业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保障, 建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地/子环境免打扰,独立完成验证工作0 码力 | 59 页 | 23.57 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - ServerlessOpsTencent Serverless System Resource Mysql Ceph Docker KVM 业务运维 平台运维 系统运维 Serverless 介绍 什么是 Serverless、Serverless 提供的运维能力 Serverless 业务运维能力 & 系统运维能力 Serverless 和 虚拟机 2 种形态下运维能力对比 Serverless vs. ❑ 无服务器:不代表真的不需要服务器,只不过服务器由云厂商维护 ❑ 是一种软件系统架构思想和方法,不是软件框架、类库或者工具 ❑ 核心思想:无须关注底层资源,比如:CPU、内存和数据库等,只 需关注业务开发 用户运维 Cloud Vendor System Resource Serverless 化 / Serverless … CaaS (Compute as a Service) Virtualization O/S Containers Runtime Applications Functions ❑ 云计算:去基础架构的过程 ❑ Serverless 符合云计算发展的方向 聚焦业务,快速迭代,提高产品竞争力 Serverless 运行示例 Serverless 介绍 示例:腾讯云 Serverless 平台运行 Function Function Function0 码力 | 32 页 | 4.85 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏速构建基 础运营PaaS。 腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化,低成本 实现企业IT经营管理模式升级和自主化。 承载数百款 腾讯业务 管控数十万 台服务器 孵化700+ 应用系统 全球多云 管控 培养数百蓝鲸运 维开发 工具驱动运维:采用运维 开发的模式,实现所有运维任 务自动化、工具化、可视化。 数据驱动运维:基于大数据 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 出来。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 蓝鲸进化第1步:抽象原子平台 蓝鲸配置平台 获取资源 新建大区 主机注册 创建DB 初始化数 据 拉起业务 进程 布署监控 开新区 部署程序 测试验证 清理脏数 据 对外开放 获取新主 机 CMDB注0 码力 | 26 页 | 8.25 MB | 1 年前3
云原生 DevOps 平台 Zadig 产品介绍的繁复⼯作量,轻松应对数百业务服务 的灵活接⼊。帮助研发节省出⼤量时间,投⼊到业务创新! 字节跳动⻜书的若⼲团队⽤ Zadig 实现主⼲开发、持续验证,周部署 达 1200 次。完成⼤规模微服务的联调、集成测试,⾛上云原⽣ DevOps 交付之路! Zadig 打通内部研发交付和外部客⼾交付,对内实现云原⽣ DevOps ⼯程化、基线 化。通过云原⽣技术和⼯程能⼒,建⽴企业多维度数字化能⼒,从业务、流程、质 量、成本管理,释放“数字⼯程师”⽣产⼒。 Zadig 研发数字化成功案例 企业案例 Zadig 价值运营指标 业务管理简单⾼效,⽀持 RBAC/ABAC 权限隔离 流程模版统⼀规划,产研协同更⾼效,⾃动化⼀切 质量建设有的放⽮,全流程内建安全,测试驱动开发 多视⻆资源管理,业务协同更透明,成本可观测 ⼯程师数字化协作,幸福度更⾼更专注 全触点研发运营数据,可管理,可度量,可提升 备注:所有数据来⾃于落地⽤⼾的可收集实际使⽤状况0 码力 | 8 页 | 18.50 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践• 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今 SPEAKER 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 单维时间序列分析 海量时间序列 业务场景复杂 规则配置繁琐 1 2 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 Metis 的未来规划 展望未来 业务埋点 收集数据 监控系统 指标展示 多维数据 维度查询 异常检测 检测异常指标 多维下钻 分析异常维度 多维时间序列分析 多维时间序列分析 判断时间序列是否波动 人工查找可疑维度 人工查找可疑元素 1 2 3 人工分析异常维度 数据存储 多维时间序列 异常检测 多模型融合 正负样本 业务场景 特征工程 连续特征 离散特征0 码力 | 28 页 | 1.88 MB | 1 年前3
共 18 条
- 1
- 2













