 CloudExplorer 3.0 管理员手册v1.2查看虚拟机资源性能使用情况..................................................................261 9.3.16 找到浪费资源并回收优化..........................................................................261 9.3.17 创建管理运营报告..... ..........272 9.3.20 配置定时自动生成报告并发送到指定邮箱...............................................273 10 资源回收优化................................................................................................... 查看到期资源并操作回收...........................................................................276 10.2.4 持续分析优化...............................................................................................2760 码力 | 308 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 管理员手册v1.2查看虚拟机资源性能使用情况..................................................................261 9.3.16 找到浪费资源并回收优化..........................................................................261 9.3.17 创建管理运营报告..... ..........272 9.3.20 配置定时自动生成报告并发送到指定邮箱...............................................273 10 资源回收优化................................................................................................... 查看到期资源并操作回收...........................................................................276 10.2.4 持续分析优化...............................................................................................2760 码力 | 308 页 | 0 Bytes | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践云+社区技术沙龙 冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 “烟囱式”的业务支持体系 幸福的烦恼 ⚫ 重复造轮子,每个部门一套轮子 ⚫ 缺乏统一规范,包括开源代码在内 Bug 多 ⚫ 开源文化落后,共享精神差,很多基础框架没有内部开源 ⚫ 技术支持不足,文档陈旧 ⚫ 数据技术不互通,部门间代码相互封闭,跟业界缺乏交流 ⚫ 缺乏维护,越来越多的历史遗留组件 ⚫ 没有技术图谱 2018年930变革 开源协同 自研上云 代码开源 相互协同 基于公有云模式研发 性能测试 数据备份 云上部署 业务验证 效果评估 问题优化 正式上云 运营维护 上云各环节注意点 业务上云 测试 方案 迁移 混合 质量 功能、性能测试,云上云下对比 安全、容量、难度、风险、数据 接入服务、逻辑服务、数据存储、文件存储 混合云过度到全量公有云 服务调用质量、用户访问质量、 服务可用率 数据上公有云 • 冷迁移+增量 •同步中心数据同步 •切换过程停写0 码力 | 26 页 | 2.39 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践云+社区技术沙龙 冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 “烟囱式”的业务支持体系 幸福的烦恼 ⚫ 重复造轮子,每个部门一套轮子 ⚫ 缺乏统一规范,包括开源代码在内 Bug 多 ⚫ 开源文化落后,共享精神差,很多基础框架没有内部开源 ⚫ 技术支持不足,文档陈旧 ⚫ 数据技术不互通,部门间代码相互封闭,跟业界缺乏交流 ⚫ 缺乏维护,越来越多的历史遗留组件 ⚫ 没有技术图谱 2018年930变革 开源协同 自研上云 代码开源 相互协同 基于公有云模式研发 性能测试 数据备份 云上部署 业务验证 效果评估 问题优化 正式上云 运营维护 上云各环节注意点 业务上云 测试 方案 迁移 混合 质量 功能、性能测试,云上云下对比 安全、容量、难度、风险、数据 接入服务、逻辑服务、数据存储、文件存储 混合云过度到全量公有云 服务调用质量、用户访问质量、 服务可用率 数据上公有云 • 冷迁移+增量 •同步中心数据同步 •切换过程停写0 码力 | 26 页 | 2.39 MB | 1 年前3
 FIT2CLOUD CloudExplorer 产品白皮书 v1.7FIT2CLOUD 的产品与解决方案涵盖软件测试、云原生运行时、多云管理、安全合规、 数据分析可视化、内容管理,其旗舰产品包括:MeterSphere 开源持续测试平台、 KubeOperator 开源容器平台、CloudExplorer 多云管理平台、JumpServer 开源堡垒机、 DataEase 开源数据可视化分析平台、Halo 开源博客/CMS 系统。FIT2CLOUD 旗下的开 源 ....................................... 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化.............................................12 1.5.5 建立数据中心 IT 体系演进框架支持迭代扩展建设.....................................12 1.6 各行业客户案例 .......................................................................... 38 2.4.11 IT 投入可视化、分析回收优化...................................................................40 三、核心能力......................0 码力 | 60 页 | 0 Bytes | 1 年前3 FIT2CLOUD CloudExplorer 产品白皮书 v1.7FIT2CLOUD 的产品与解决方案涵盖软件测试、云原生运行时、多云管理、安全合规、 数据分析可视化、内容管理,其旗舰产品包括:MeterSphere 开源持续测试平台、 KubeOperator 开源容器平台、CloudExplorer 多云管理平台、JumpServer 开源堡垒机、 DataEase 开源数据可视化分析平台、Halo 开源博客/CMS 系统。FIT2CLOUD 旗下的开 源 ....................................... 12 1.5.4 实现运营分析、IT 投入透明化及时回收优化.............................................12 1.5.5 建立数据中心 IT 体系演进框架支持迭代扩展建设.....................................12 1.6 各行业客户案例 .......................................................................... 38 2.4.11 IT 投入可视化、分析回收优化...................................................................40 三、核心能力......................0 码力 | 60 页 | 0 Bytes | 1 年前3
 JumpServer ⼴受欢迎的开源堡垒机JumpServer 堡垒机⼀体机及信创⽅案 3 5 为什么要使⽤堡垒机? - 以更安全的⽅式管控和登录各种类型的资产 - 系统管理员 外包⼈员 普通⽤户 临时访客 运维资产集 服务器 ⽹络设备 数据库 安全设备 事前授权 事中监察 事后审计 管理者期望 堡垒机的 4A 能⼒ 堡垒机 身份鉴别 Authentication 授权控制 Authorization 安全审计 Auditing 堡垒机的能⼒范围 身份鉴别 授权控制 账号管理 安全审计 站内信 邮箱 企业微信 钉钉 ⼯单 通知 / 审批 LDAP 对象存储 ⽇志存储 … Linux Windows ⽹络设备 数据库 Web 虚拟应⽤ … 基础设施 使⽤者 服务 Https API SSH Client … KMS JumpServer 提供的堡垒机必备功能 身份验证 Authentication 16 (X-Pack) )和⼀键部署远程应⽤发布机; 作业中⼼ ⽀持对批量资产执⾏快捷命令、命令脚本以及 Playbook 脚本; 个性化设置(X-Pack) ⽀持⾃定义 LOGO 与主题; 数据库资产连接 MariaDB、MySQL、Redis、MongoDB; Oracle、SQL Server、PostgreSQL、ClickHouse、DB2;(X-Pack) ⾼清晰度 RDP 连接0 码力 | 49 页 | 14.87 MB | 1 年前3 JumpServer ⼴受欢迎的开源堡垒机JumpServer 堡垒机⼀体机及信创⽅案 3 5 为什么要使⽤堡垒机? - 以更安全的⽅式管控和登录各种类型的资产 - 系统管理员 外包⼈员 普通⽤户 临时访客 运维资产集 服务器 ⽹络设备 数据库 安全设备 事前授权 事中监察 事后审计 管理者期望 堡垒机的 4A 能⼒ 堡垒机 身份鉴别 Authentication 授权控制 Authorization 安全审计 Auditing 堡垒机的能⼒范围 身份鉴别 授权控制 账号管理 安全审计 站内信 邮箱 企业微信 钉钉 ⼯单 通知 / 审批 LDAP 对象存储 ⽇志存储 … Linux Windows ⽹络设备 数据库 Web 虚拟应⽤ … 基础设施 使⽤者 服务 Https API SSH Client … KMS JumpServer 提供的堡垒机必备功能 身份验证 Authentication 16 (X-Pack) )和⼀键部署远程应⽤发布机; 作业中⼼ ⽀持对批量资产执⾏快捷命令、命令脚本以及 Playbook 脚本; 个性化设置(X-Pack) ⽀持⾃定义 LOGO 与主题; 数据库资产连接 MariaDB、MySQL、Redis、MongoDB; Oracle、SQL Server、PostgreSQL、ClickHouse、DB2;(X-Pack) ⾼清晰度 RDP 连接0 码力 | 49 页 | 14.87 MB | 1 年前3
 CloudExplorer 3.0 用户手册v1.2申请多组不同配置虚拟机..................................................................................... 23 3.3 申请中间件数据库集群.........................................................................................26 3.4 F5 负载均衡 VS 实例................................................................................ 75 8 云数据库在线申请部署及操作变更回收..........................................................................77 8.1 新建公有云 RDS、负载均衡服务。常见私有云: OpenStack、华为 HCS、 HSC Online、青云、EasyStack 等。 杭州飞致云信息科技有限公司 6 公有云平台 部署在云服务提供商数据中心,为市场公众企业客户提供服务被 多个企业客户共享使用的云平台。世界上第一个公有云是亚马逊 AWS。  国外公有云: AWS、Azure。  国内公有云: 阿里云、华为云、腾讯云、UCloud、青云、金0 码力 | 102 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 用户手册v1.2申请多组不同配置虚拟机..................................................................................... 23 3.3 申请中间件数据库集群.........................................................................................26 3.4 F5 负载均衡 VS 实例................................................................................ 75 8 云数据库在线申请部署及操作变更回收..........................................................................77 8.1 新建公有云 RDS、负载均衡服务。常见私有云: OpenStack、华为 HCS、 HSC Online、青云、EasyStack 等。 杭州飞致云信息科技有限公司 6 公有云平台 部署在云服务提供商数据中心,为市场公众企业客户提供服务被 多个企业客户共享使用的云平台。世界上第一个公有云是亚马逊 AWS。  国外公有云: AWS、Azure。  国内公有云: 阿里云、华为云、腾讯云、UCloud、青云、金0 码力 | 102 页 | 0 Bytes | 1 年前3
 CloudExplorer 3.0 部署运维手册v1.2............................................................................................24 八、 数据备份................................................................................................. ..............................25 8.2 数据库备份............................................................................................................25 8.3 数据库恢复.................................... docker-compose 的方式维护整体平台的运行与服务之间的 依赖关系。 2.1.1 依赖组件 CloudExplorer 云管平台依赖于如下第三方开源中间件及数据库服务: 名称 描述 MySQL 提供数据库服务,可配置使用外部数据库服务,例:RDS Ansible CloudExplorer 基于 Ansible 实现自动化操作功能 Prometheus CloudExplorer 基于0 码力 | 29 页 | 0 Bytes | 1 年前3 CloudExplorer 3.0 部署运维手册v1.2............................................................................................24 八、 数据备份................................................................................................. ..............................25 8.2 数据库备份............................................................................................................25 8.3 数据库恢复.................................... docker-compose 的方式维护整体平台的运行与服务之间的 依赖关系。 2.1.1 依赖组件 CloudExplorer 云管平台依赖于如下第三方开源中间件及数据库服务: 名称 描述 MySQL 提供数据库服务,可配置使用外部数据库服务,例:RDS Ansible CloudExplorer 基于 Ansible 实现自动化操作功能 Prometheus CloudExplorer 基于0 码力 | 29 页 | 0 Bytes | 1 年前3
 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 自回归算法 • 深度学习算法 时间序列的分类特征 • 熵特征 • 值分布特征 • 小波分析特征 单维时间序列分析 有监督异常检测算法 (RF,GBDT,XGBoost,深度学习) 数据层 数据存储 数据提取 统计算法 输出疑似异常 无监督算法 输出疑似异常 有监督算法 特征工程 离线训练 实时计算 人工标注 提升效果 单维时间序列分析 时间序列异常检测整体流程 单维时间序列分析0 码力 | 28 页 | 1.88 MB | 1 年前3 高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 团队角色划分 01 智能运维场景描述 整体介绍 02 单维时间序列分析 3 时间序列异常检测 如何找到通用的解决方案? 单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 生成数据 单维时间序列分析 无监督异常检测算法 (N-Sigma) 单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 • 最大值,最小值,值域 • 均值,中位数 自回归算法 • 深度学习算法 时间序列的分类特征 • 熵特征 • 值分布特征 • 小波分析特征 单维时间序列分析 有监督异常检测算法 (RF,GBDT,XGBoost,深度学习) 数据层 数据存储 数据提取 统计算法 输出疑似异常 无监督算法 输出疑似异常 有监督算法 特征工程 离线训练 实时计算 人工标注 提升效果 单维时间序列分析 时间序列异常检测整体流程 单维时间序列分析0 码力 | 28 页 | 1.88 MB | 1 年前3
 Zadig 面向开发者的云原生 DevOps 平台自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 企业交付案例场景深化 开 发 者 场 景 挖 掘 3-5 个领域敏感型场景 建立产品发展委员会 贡献者流程优化 2022 年 9 月 场 景 深 化 能 力 增 强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级,工程师一线体验优化 推出效能看板,实时客观度量工程数据指标 效 率 优 化 、 开 发 者 体 验 增 强 2023 年 面向生态伙伴开放场景 面向开发者提供 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高0 码力 | 59 页 | 81.43 MB | 1 年前3 Zadig 面向开发者的云原生 DevOps 平台自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 企业交付案例场景深化 开 发 者 场 景 挖 掘 3-5 个领域敏感型场景 建立产品发展委员会 贡献者流程优化 2022 年 9 月 场 景 深 化 能 力 增 强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级,工程师一线体验优化 推出效能看板,实时客观度量工程数据指标 效 率 优 化 、 开 发 者 体 验 增 强 2023 年 面向生态伙伴开放场景 面向开发者提供 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高0 码力 | 59 页 | 81.43 MB | 1 年前3
 Zadig 面向开发者的云原生 DevOps 平台集成验证 xN 写测试用例 系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 xN 部署生产环境 xN 部署/灰度上线 xN 监控/告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 需求阶段 研发阶段 企业交付案例场景深化 开 发 者 场 景 挖 掘 3-5 个领域敏感型场景 建立产品发展委员会 贡献者流程优化 2022年9月 场 景 深 化 能 力 增 强 Helm/K8s YAML/托管场景接入流程优化 UX/UI 升级,工程师一线体验优化 推出效能看板,实时客观度量工程数据指标 效 率 优 化 、 开 发 者 体 验 增 强 2023年 面向生态伙伴开放场景 面向开发者提供 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高0 码力 | 59 页 | 23.57 MB | 1 年前3 Zadig 面向开发者的云原生 DevOps 平台集成验证 xN 写测试用例 系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 xN 部署生产环境 xN 部署/灰度上线 xN 监控/告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 需求阶段 研发阶段 企业交付案例场景深化 开 发 者 场 景 挖 掘 3-5 个领域敏感型场景 建立产品发展委员会 贡献者流程优化 2022年9月 场 景 深 化 能 力 增 强 Helm/K8s YAML/托管场景接入流程优化 UX/UI 升级,工程师一线体验优化 推出效能看板,实时客观度量工程数据指标 效 率 优 化 、 开 发 者 体 验 增 强 2023年 面向生态伙伴开放场景 面向开发者提供 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 进度管理:根据团队客观数据,预测和确定项目规划 迭代进度一目了然 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高0 码力 | 59 页 | 23.57 MB | 1 年前3
 CurveFS rename 接口实现方案Juicefs Juicefs 中 rename 的实现都是原子性的,主要得益于它元数据是存储在各类 KV/DB 中(如 redis、tikv...),而这些 KV 本身就支持事务,所以它只要把这些操作打包成事务扔给 KV 就可以了 如果采用 Juicefs 的方案,我们需要在 metaserver 层实现分布式事务 方案实现 方案一:chubaofs 从以上的分析来看,chubaofs srcDentry, dstDentry 所在 copyset 的 txid 都加 1(这一步是通过 etcd 的事务保证的),如果上一步或这一步失败,因为 txid 不变,原始数据版本也在,还是保证原子性(其实就是一个 txid 对应一个版本的数据)© XXX Page 8 of 15 下次访问的时候,带上对应 copyset 的最新 txid (copyset_txid),判断 PendingTx,如果 (copyset_txid value, dentry(如果更新完发现 dentry 的 flag 为 DeleteMarkFlag,则直接删除这个 dentry) 如果上面 2 个动作,有一个失败,则本次事务失败 VFS 这层保证了每个挂载点只会有一个 rename 事务,所以这就变成了一写的事务场景 初略来看,这个方案只要 3 个 RPC 请求就够了,2 次 dentry 操作,一次提交事务 (txid) 操作 实现:0 码力 | 15 页 | 555.93 KB | 6 月前3 CurveFS rename 接口实现方案Juicefs Juicefs 中 rename 的实现都是原子性的,主要得益于它元数据是存储在各类 KV/DB 中(如 redis、tikv...),而这些 KV 本身就支持事务,所以它只要把这些操作打包成事务扔给 KV 就可以了 如果采用 Juicefs 的方案,我们需要在 metaserver 层实现分布式事务 方案实现 方案一:chubaofs 从以上的分析来看,chubaofs srcDentry, dstDentry 所在 copyset 的 txid 都加 1(这一步是通过 etcd 的事务保证的),如果上一步或这一步失败,因为 txid 不变,原始数据版本也在,还是保证原子性(其实就是一个 txid 对应一个版本的数据)© XXX Page 8 of 15 下次访问的时候,带上对应 copyset 的最新 txid (copyset_txid),判断 PendingTx,如果 (copyset_txid value, dentry(如果更新完发现 dentry 的 flag 为 DeleteMarkFlag,则直接删除这个 dentry) 如果上面 2 个动作,有一个失败,则本次事务失败 VFS 这层保证了每个挂载点只会有一个 rename 事务,所以这就变成了一写的事务场景 初略来看,这个方案只要 3 个 RPC 请求就够了,2 次 dentry 操作,一次提交事务 (txid) 操作 实现:0 码力 | 15 页 | 555.93 KB | 6 月前3
共 16 条
- 1
- 2













