 云计算白皮书部开发者平台,是工程团队已经部署的技术和工具之上的全新一层。 演进路线方面,容器云平台为开发者构建和运行分布式应用带来了 便利,但同时将复杂资源暴露给了开发者,知识门槛高,并且开发 者难以从众多资源中定位业务故障。而容器云平台及传统 PaaS 等经 过平台工程化,可演进为面向开发者的一站式平台,灵活组合 Backstage、Grafana、KubeVela 等云原生能力,对接算力、Kubernetes 稳定性层面,云上系统稳定性挑战持续存在,系统稳定性保障 云计算白皮书(2023 年) 20 体系不断完善、技术不断创新。云上系统自带“分布式”属性,各 模块之间依赖关系错综复杂,给服务性能分析、故障定位、根因分 析等带来了诸多困难;云上系统故障率随设备数量的增加而呈指数 级增长,单一节点问题可能会被无限放大,日常运行过程中一定会 伴随“异常”发生;同时,节点分布范围更广,节点数量更多,对 日常运维过程中的日志采集、变更升级等都带来了新的挑战。基于 感知系统状态、定位系统故障,协助进行容量治理及性能调优,并 通过建立基线模型和监测系统的行为模式,来检测和预测异常情况, 实现自动化运维和自愈能力。三是机器学习与人工智能提升稳定性 保障的建设成效。人工智能和机器学习技术将在系统稳定性保障技 术体系中发挥越来越重要的作用,并进一步提升落地成效。通过对 云计算白皮书(2023 年) 21 数据进行智能分析,可以实现故障预测、自动诊断、场景演练和自0 码力 | 47 页 | 1.22 MB | 1 年前3 云计算白皮书部开发者平台,是工程团队已经部署的技术和工具之上的全新一层。 演进路线方面,容器云平台为开发者构建和运行分布式应用带来了 便利,但同时将复杂资源暴露给了开发者,知识门槛高,并且开发 者难以从众多资源中定位业务故障。而容器云平台及传统 PaaS 等经 过平台工程化,可演进为面向开发者的一站式平台,灵活组合 Backstage、Grafana、KubeVela 等云原生能力,对接算力、Kubernetes 稳定性层面,云上系统稳定性挑战持续存在,系统稳定性保障 云计算白皮书(2023 年) 20 体系不断完善、技术不断创新。云上系统自带“分布式”属性,各 模块之间依赖关系错综复杂,给服务性能分析、故障定位、根因分 析等带来了诸多困难;云上系统故障率随设备数量的增加而呈指数 级增长,单一节点问题可能会被无限放大,日常运行过程中一定会 伴随“异常”发生;同时,节点分布范围更广,节点数量更多,对 日常运维过程中的日志采集、变更升级等都带来了新的挑战。基于 感知系统状态、定位系统故障,协助进行容量治理及性能调优,并 通过建立基线模型和监测系统的行为模式,来检测和预测异常情况, 实现自动化运维和自愈能力。三是机器学习与人工智能提升稳定性 保障的建设成效。人工智能和机器学习技术将在系统稳定性保障技 术体系中发挥越来越重要的作用,并进一步提升落地成效。通过对 云计算白皮书(2023 年) 21 数据进行智能分析,可以实现故障预测、自动诊断、场景演练和自0 码力 | 47 页 | 1.22 MB | 1 年前3
 DaoCloud Enterprise 5.0
产品介绍搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等十大 集群,快速搭建企业级容器云平台,适配物理机和虚拟机 底层环境。 ➢ 一键式集群升级,一键升级 Kubernetes 版本,统一管理系统组件升级。 ➢ 集群高可用,内置集群容灾、备份能力,保障业务系统在主机故障、机房中断、自然 灾害等情况下可恢复,提高生产环境的稳定性,降低业务中断风险。 ➢ 集群的全生命周期管理,实现自建云原生集群的全生命周期管理。 ➢ 开放式 API 能力,提供原生的 Kubernetes0 码力 | 18 页 | 1.32 MB | 1 年前3 DaoCloud Enterprise 5.0
产品介绍搭建的新一代容器化平台能够满足企业上云的各类场景需求。 多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等十大 集群,快速搭建企业级容器云平台,适配物理机和虚拟机 底层环境。 ➢ 一键式集群升级,一键升级 Kubernetes 版本,统一管理系统组件升级。 ➢ 集群高可用,内置集群容灾、备份能力,保障业务系统在主机故障、机房中断、自然 灾害等情况下可恢复,提高生产环境的稳定性,降低业务中断风险。 ➢ 集群的全生命周期管理,实现自建云原生集群的全生命周期管理。 ➢ 开放式 API 能力,提供原生的 Kubernetes0 码力 | 18 页 | 1.32 MB | 1 年前3
 石墨文档Go在K8S上微服务的实践-彭友顺维护困难 架构演进 传统模式 K8S模式 应用开发 启动方式 日志采集 加载配置 监控采集 资源隔离 故障转移 资源调度 权限控制 标准统一 运维简单 框架简单 编译 部署 应用开发 启动方式 日志采集 加载配置 监控采集 资源隔离 故障转移 资源调度 权限控制 编译 部署 2014年6月K8S开源 微服务的生命周期 第二部分 微服务的生命周期 • 错误定位 问题:每种开源组件的配置、调用方式、debug方式、记录日志方式都不一样 微服务的开发阶段 问题:gRPC未设置连接错误,阻塞模式报错不正确 Redis、MySQL连接数配置未设置?超时未设置? 配置 对接 Debug • 配置驱动 • 配置补齐 • 配置工具 • Proto的管理 • 错误码管理 • 调试gRPC • 调试信息 • 错误定位 // IDE的体验,右键插入资源引用,悬停查看资源信息 配置 对接 Debug • 配置驱动 • 配置补齐 • 配置工具 • Proto的管理 • 错误码管理 • 调试gRPC • 调试信息 • 错误定位 配置版本,发布,回滚,可以更加方便 微服务的开发阶段 统一采用gRPC协议和protobuf编解码 CI check 阶段 • 主要做 pb 的 format、lint、breaking 检查。0 码力 | 41 页 | 3.20 MB | 1 年前3 石墨文档Go在K8S上微服务的实践-彭友顺维护困难 架构演进 传统模式 K8S模式 应用开发 启动方式 日志采集 加载配置 监控采集 资源隔离 故障转移 资源调度 权限控制 标准统一 运维简单 框架简单 编译 部署 应用开发 启动方式 日志采集 加载配置 监控采集 资源隔离 故障转移 资源调度 权限控制 编译 部署 2014年6月K8S开源 微服务的生命周期 第二部分 微服务的生命周期 • 错误定位 问题:每种开源组件的配置、调用方式、debug方式、记录日志方式都不一样 微服务的开发阶段 问题:gRPC未设置连接错误,阻塞模式报错不正确 Redis、MySQL连接数配置未设置?超时未设置? 配置 对接 Debug • 配置驱动 • 配置补齐 • 配置工具 • Proto的管理 • 错误码管理 • 调试gRPC • 调试信息 • 错误定位 // IDE的体验,右键插入资源引用,悬停查看资源信息 配置 对接 Debug • 配置驱动 • 配置补齐 • 配置工具 • Proto的管理 • 错误码管理 • 调试gRPC • 调试信息 • 错误定位 配置版本,发布,回滚,可以更加方便 微服务的开发阶段 统一采用gRPC协议和protobuf编解码 CI check 阶段 • 主要做 pb 的 format、lint、breaking 检查。0 码力 | 41 页 | 3.20 MB | 1 年前3
 Kubernetes开源书 -  周立plane 所⽤的API 与开发⼈员和⽤户可⽤的API相同。⽤户可以使⽤ their own API 编写⾃⼰ 的控制器,例如 scheduler ,这些API可由通⽤ command-line tool 定位。 这种 design 使得许多其他系统可以构建在Kubernetes上。 Kubernetes不是什么? Kubernetes不是⼀个传统的,全⾯的PaaS系统。 它保留了⽤户的重要选择。 28production%2Cqa%29%2Ctier+in+%28frontend%29 两种Label选择器都可⽤于在REST客户端中LIST或WATCH资源。例如,使⽤ kubectl 定位 apiserver 并使⽤ equality-based 的⽅式可写为: $ kubectl get pods -l environment=production,tier=frontend 因为基础设施承担起更多的责任,容器更加轻量级。 为什么不⽀持基于亲和性部署的容器协同调度? 这种⽅法将会提供协同定位,但⽆法提供Pod的⼤部分优势,例如资源共享,IPC(进程间通信),保证命运共享和简 化管理。 Pod的持久性(或缺乏持久性) Pod不能被视为持久的实体。 它们不会因调度失败,节点故障或其他问题⽽⽣存,例如由于缺乏资源,或者在节点维护 的情况下。 ⼀般来说,⽤户⽆需直接创建Pod。0 码力 | 135 页 | 21.02 MB | 1 年前3 Kubernetes开源书 -  周立plane 所⽤的API 与开发⼈员和⽤户可⽤的API相同。⽤户可以使⽤ their own API 编写⾃⼰ 的控制器,例如 scheduler ,这些API可由通⽤ command-line tool 定位。 这种 design 使得许多其他系统可以构建在Kubernetes上。 Kubernetes不是什么? Kubernetes不是⼀个传统的,全⾯的PaaS系统。 它保留了⽤户的重要选择。 28production%2Cqa%29%2Ctier+in+%28frontend%29 两种Label选择器都可⽤于在REST客户端中LIST或WATCH资源。例如,使⽤ kubectl 定位 apiserver 并使⽤ equality-based 的⽅式可写为: $ kubectl get pods -l environment=production,tier=frontend 因为基础设施承担起更多的责任,容器更加轻量级。 为什么不⽀持基于亲和性部署的容器协同调度? 这种⽅法将会提供协同定位,但⽆法提供Pod的⼤部分优势,例如资源共享,IPC(进程间通信),保证命运共享和简 化管理。 Pod的持久性(或缺乏持久性) Pod不能被视为持久的实体。 它们不会因调度失败,节点故障或其他问题⽽⽣存,例如由于缺乏资源,或者在节点维护 的情况下。 ⼀般来说,⽤户⽆需直接创建Pod。0 码力 | 135 页 | 21.02 MB | 1 年前3
 第1930期:Kubernetes基础介绍定制化的workflows 和更 高级的自动化任务。Kubernetes 具备完善的集群管理能力,包括多层次的安全防护和准入机制、多租户应用支撑能力、透明 的服务注册和服务发现机制、内建负载均衡器、故障发现和自我修复能力、服务滚动升级和在线扩容、可扩展的资源自动调度 机制、多粒度的资源配额管理能力。 Kubernetes 还提供完善的管理工具,涵盖开发、部署测试、运维监控等各个环节。 5 www Confidential 秘密 55 Kubernetes基础结构介绍 Kubernetes特性: 自动装箱:构建于容器之上,基于资源依赖和其他约束自动完成容器部署。 自我修复:容器故障后自动重启、节点故障后重新调度容器,以及容器自我修复机制。 水平扩展:通过简单明了实现水平扩展,基于CPU等资源负载率的自动水平扩展。 服务发现和负载均衡:实现内部负载均衡可以实现服务访问负载。 自动发布和回滚:可以自动实现版本的发布和回滚。 秘钥和配置管理:对于密码等信息,专门提供了Secert对象为其解耦。 存储编排:支持多种不同类型的存储,包括本地存储、云存储、网络存储等。 批量处理执行:除服务型应用,还支持批处理作业CI(持续集成),如有需要,一样可以实现容器故障后修复。 Kubernetes特点: 可移植: 支持公有云,私有云,混合云,多重云(multi-cloud) 可扩展: 模块化, 插件化, 可挂载, 可组合 自动化: 自动部署,自动重启,自动复制,自动伸缩/扩展0 码力 | 49 页 | 4.11 MB | 1 年前3 第1930期:Kubernetes基础介绍定制化的workflows 和更 高级的自动化任务。Kubernetes 具备完善的集群管理能力,包括多层次的安全防护和准入机制、多租户应用支撑能力、透明 的服务注册和服务发现机制、内建负载均衡器、故障发现和自我修复能力、服务滚动升级和在线扩容、可扩展的资源自动调度 机制、多粒度的资源配额管理能力。 Kubernetes 还提供完善的管理工具,涵盖开发、部署测试、运维监控等各个环节。 5 www Confidential 秘密 55 Kubernetes基础结构介绍 Kubernetes特性: 自动装箱:构建于容器之上,基于资源依赖和其他约束自动完成容器部署。 自我修复:容器故障后自动重启、节点故障后重新调度容器,以及容器自我修复机制。 水平扩展:通过简单明了实现水平扩展,基于CPU等资源负载率的自动水平扩展。 服务发现和负载均衡:实现内部负载均衡可以实现服务访问负载。 自动发布和回滚:可以自动实现版本的发布和回滚。 秘钥和配置管理:对于密码等信息,专门提供了Secert对象为其解耦。 存储编排:支持多种不同类型的存储,包括本地存储、云存储、网络存储等。 批量处理执行:除服务型应用,还支持批处理作业CI(持续集成),如有需要,一样可以实现容器故障后修复。 Kubernetes特点: 可移植: 支持公有云,私有云,混合云,多重云(multi-cloud) 可扩展: 模块化, 插件化, 可挂载, 可组合 自动化: 自动部署,自动重启,自动复制,自动伸缩/扩展0 码力 | 49 页 | 4.11 MB | 1 年前3
 KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑提供者 消费者 Agent Agent 用户 配置中心 治理规则 Dev-Sec-Ops 无损下线 离群实例摘除 标签路由 服务鉴权 链路跟踪 金丝雀发布 API管理 服务测试 限流降级 故障注入 • 业务无侵入、无感知 • 0升级成本 • 全面兼容开源 注册中心 元数据中心 微服务引擎 基于 Java Agent 的服务治理 public class BaseLoadBalancer 需要关注错误率阈值、隔离机器的比 例阈值,及被摘除后恢复时间 • 更灵活的摘除策略:调整权重 应用A 应用B 应用C 应用D 全局摘除:监管控一体 • 维度更加丰富 摘除后动作 • 弹性扩容替换故障机器 离群实例摘除: 单点故障自愈 服务治理中心 订单服务 交易服务 4. 发起调用 3. 获取token 5. 校验签名和规则 6. 审计日志 7. 返回结果 Agent • 规则优先级: 方法级别 Consumer 标签路由 可灰度 可监控 可回滚 变更管控 安全变更三板斧 故障应急 发布封网 故障复盘 紧急发布 稳定性分 安全 变更 GitOps 持续集 成 自动化 回归 性能压 测 灰度发 布 监控对 比 发布/ 回滚 1分钟发现 5分钟定位 10分钟恢复 故障应急 1-5-10原则 安全变更 4. 读取灰度规则 配置中心 3. 配置灰度规则0 码力 | 27 页 | 7.10 MB | 1 年前3 KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑提供者 消费者 Agent Agent 用户 配置中心 治理规则 Dev-Sec-Ops 无损下线 离群实例摘除 标签路由 服务鉴权 链路跟踪 金丝雀发布 API管理 服务测试 限流降级 故障注入 • 业务无侵入、无感知 • 0升级成本 • 全面兼容开源 注册中心 元数据中心 微服务引擎 基于 Java Agent 的服务治理 public class BaseLoadBalancer 需要关注错误率阈值、隔离机器的比 例阈值,及被摘除后恢复时间 • 更灵活的摘除策略:调整权重 应用A 应用B 应用C 应用D 全局摘除:监管控一体 • 维度更加丰富 摘除后动作 • 弹性扩容替换故障机器 离群实例摘除: 单点故障自愈 服务治理中心 订单服务 交易服务 4. 发起调用 3. 获取token 5. 校验签名和规则 6. 审计日志 7. 返回结果 Agent • 规则优先级: 方法级别 Consumer 标签路由 可灰度 可监控 可回滚 变更管控 安全变更三板斧 故障应急 发布封网 故障复盘 紧急发布 稳定性分 安全 变更 GitOps 持续集 成 自动化 回归 性能压 测 灰度发 布 监控对 比 发布/ 回滚 1分钟发现 5分钟定位 10分钟恢复 故障应急 1-5-10原则 安全变更 4. 读取灰度规则 配置中心 3. 配置灰度规则0 码力 | 27 页 | 7.10 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16. 通过依赖健康检查化解包幻觉风险 17. 设计系统决策记录 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16. 通过依赖健康检查化解包幻觉风险 17. 设计系统决策记录 15 11. 基于风险的故障建模 试验 基于风险的故障建模是一种用于了解系统发生故障的可能性、潜在影响和检测手段的方法。交付团队逐渐开始使 用这种方法来设计和评估预防故障所需的控制措施。该方法源自故障模式与影响分析(FMEA)的实践。FMEA 是一种诞生于上世纪 40 年代的风险评分技术,成功运用于航空航天和汽车等建造复杂物理系统的行业中。与这 些行业一样,软件故障也可能产生严重后果,例0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16. 通过依赖健康检查化解包幻觉风险 17. 设计系统决策记录 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16. 通过依赖健康检查化解包幻觉风险 17. 设计系统决策记录 15 11. 基于风险的故障建模 试验 基于风险的故障建模是一种用于了解系统发生故障的可能性、潜在影响和检测手段的方法。交付团队逐渐开始使 用这种方法来设计和评估预防故障所需的控制措施。该方法源自故障模式与影响分析(FMEA)的实践。FMEA 是一种诞生于上世纪 40 年代的风险评分技术,成功运用于航空航天和汽车等建造复杂物理系统的行业中。与这 些行业一样,软件故障也可能产生严重后果,例0 码力 | 43 页 | 2.76 MB | 1 年前3
 从Mesos到Kubernetes免密安全登录 基于服务树节点授权 每登录认证凭据 动态服务安全 仅需Server端嵌入SDK和配置 数据库,DB-Proxy简化接入 IP+JOBNAME共同生效,防 御ZK故障 监控 Push采集,与动态 环境更亲和 促成自动发现能力 监控  节点内增加主机或容器  主机或容器增加分区 转向K8S 双引擎 Kubernetes  健康检查探针适配 DCOS 组件服务 Mysql Redis Memc achd ELK ZK  规范配置  统一监控  数据自动迁移  故障自愈 CI/CD Step1 Branch staging change Condition Action Object Build UT test Staging Job 随机关闭生产环境中的实例,模拟服 务故障  引入人为延时,模拟服务降级  寻找未使用、可被清理的资源  寻找不符合预定义最佳实践的服务  发现和跟踪异常修改,排查安全问题 DCBrain 根因分析  自动发现依赖拓扑  完善的监控点  决策树找到最末报警点 ServiceA HOST SWITCH ServiceB Domain LB 故障自愈0 码力 | 30 页 | 2.12 MB | 1 年前3 从Mesos到Kubernetes免密安全登录 基于服务树节点授权 每登录认证凭据 动态服务安全 仅需Server端嵌入SDK和配置 数据库,DB-Proxy简化接入 IP+JOBNAME共同生效,防 御ZK故障 监控 Push采集,与动态 环境更亲和 促成自动发现能力 监控  节点内增加主机或容器  主机或容器增加分区 转向K8S 双引擎 Kubernetes  健康检查探针适配 DCOS 组件服务 Mysql Redis Memc achd ELK ZK  规范配置  统一监控  数据自动迁移  故障自愈 CI/CD Step1 Branch staging change Condition Action Object Build UT test Staging Job 随机关闭生产环境中的实例,模拟服 务故障  引入人为延时,模拟服务降级  寻找未使用、可被清理的资源  寻找不符合预定义最佳实践的服务  发现和跟踪异常修改,排查安全问题 DCBrain 根因分析  自动发现依赖拓扑  完善的监控点  决策树找到最末报警点 ServiceA HOST SWITCH ServiceB Domain LB 故障自愈0 码力 | 30 页 | 2.12 MB | 1 年前3
 202106 KubeOperator:开源的轻量级 Kubernetes 发行版
提升资源使⽤用效率 按需修补 快速升级 K8S 集群,与社区版本同步 应⽤用商店 快速在 K8S 中部署和管理理 应⽤用程序 Multi-AZ ⽀支持 Master 节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 KubeOperator 企业版⽀支持服务内容 ⽀支持服务 7×24 ⼯工单及电话⽀支持服务,1 个⼩小时内响应客户⼯工单;接到故障申报后,⼯工程师通过电话⽀支持、远程接 ⼊入等⽅方式协助客户及时排除软件故障。 安装及培训服务 合计 5 ⼈人天的原⼚厂专业服务,可提供现场安装、现场紧急救助、软件故障排查、培训等专业⽀支持服务;并且 可以根据企业 IT 规划提供相关顾问咨询服务。 紧急救助服务 专家顾问咨询服务0 码力 | 20 页 | 1.62 MB | 1 年前3 202106 KubeOperator:开源的轻量级 Kubernetes 发行版
提升资源使⽤用效率 按需修补 快速升级 K8S 集群,与社区版本同步 应⽤用商店 快速在 K8S 中部署和管理理 应⽤用程序 Multi-AZ ⽀支持 Master 节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 KubeOperator 企业版⽀支持服务内容 ⽀支持服务 7×24 ⼯工单及电话⽀支持服务,1 个⼩小时内响应客户⼯工单;接到故障申报后,⼯工程师通过电话⽀支持、远程接 ⼊入等⽅方式协助客户及时排除软件故障。 安装及培训服务 合计 5 ⼈人天的原⼚厂专业服务,可提供现场安装、现场紧急救助、软件故障排查、培训等专业⽀支持服务;并且 可以根据企业 IT 规划提供相关顾问咨询服务。 紧急救助服务 专家顾问咨询服务0 码力 | 20 页 | 1.62 MB | 1 年前3
 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践本地磁盘管理理 Kubernetes node 部署 Agent • 监控服务器器存储状态 • 磁盘容量量资源回收 • 磁盘故障处理理 容器器挂载磁盘⽬目录的软连接 本地⽬目录设计 磁盘容错 • 磁盘故障不不可避免 • 快速恢复 服务器器预留留备⽤用磁盘 单盘故障启⽤用备⽤用盘 容错 主机容错 • 优化磁盘调度算法 • 运⽤用 Kafka 机架感知特性 服务注册和客户端 注册0 码力 | 34 页 | 2.64 MB | 1 年前3 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践本地磁盘管理理 Kubernetes node 部署 Agent • 监控服务器器存储状态 • 磁盘容量量资源回收 • 磁盘故障处理理 容器器挂载磁盘⽬目录的软连接 本地⽬目录设计 磁盘容错 • 磁盘故障不不可避免 • 快速恢复 服务器器预留留备⽤用磁盘 单盘故障启⽤用备⽤用盘 容错 主机容错 • 优化磁盘调度算法 • 运⽤用 Kafka 机架感知特性 服务注册和客户端 注册0 码力 | 34 页 | 2.64 MB | 1 年前3
共 19 条
- 1
- 2














