 KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑+ 公司生产环境上线 Spring Cloud Alibaba 现状 https://start.aliyun.com/bootstrap.html • 业务高可用、多可用区部署 • 同城/异地容灾,业务多活 • 微服务需要更安全、更可信 成本 稳定 效率 • 白天流量高峰期发布 • 云边端一体化开发部署联调 • 服务治理体系强依赖SDK升级 • K8s下应用IP的不确定、导致服务治理规则的失效 开发态Dev • 无损下线 • 无损上线 • 金丝雀发布 • A/B Test • 全链路灰度 安全态Sec 发布态 • 离群实例摘除 • 限流降级 • 同AZ优先路由 • 就近容灾路由 高可用 • 服务鉴权 • 漏洞防护 服务治理的区分 服务治理中心 提供者 消费者 Agent Agent 用户 配置中心 治理规则 Dev-Sec-Ops 无损下线 离群实例摘除 写入token和规则 购物车服务 服务鉴权: 保护你的敏感业务 AZ 标 Region 标 压测标 版本标 场景标 自定义标 标签路由 金丝雀发布 全链路流控 场景链路 同 AZ 优先路由 容灾路由 全链路压测 自定义标 tag1 tag2 Provider Consumer 标签路由 可灰度 可监控 可回滚 变更管控 安全变更三板斧 故障应急 发布封网 故障复盘0 码力 | 27 页 | 7.10 MB | 1 年前3 KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑+ 公司生产环境上线 Spring Cloud Alibaba 现状 https://start.aliyun.com/bootstrap.html • 业务高可用、多可用区部署 • 同城/异地容灾,业务多活 • 微服务需要更安全、更可信 成本 稳定 效率 • 白天流量高峰期发布 • 云边端一体化开发部署联调 • 服务治理体系强依赖SDK升级 • K8s下应用IP的不确定、导致服务治理规则的失效 开发态Dev • 无损下线 • 无损上线 • 金丝雀发布 • A/B Test • 全链路灰度 安全态Sec 发布态 • 离群实例摘除 • 限流降级 • 同AZ优先路由 • 就近容灾路由 高可用 • 服务鉴权 • 漏洞防护 服务治理的区分 服务治理中心 提供者 消费者 Agent Agent 用户 配置中心 治理规则 Dev-Sec-Ops 无损下线 离群实例摘除 写入token和规则 购物车服务 服务鉴权: 保护你的敏感业务 AZ 标 Region 标 压测标 版本标 场景标 自定义标 标签路由 金丝雀发布 全链路流控 场景链路 同 AZ 优先路由 容灾路由 全链路压测 自定义标 tag1 tag2 Provider Consumer 标签路由 可灰度 可监控 可回滚 变更管控 安全变更三板斧 故障应急 发布封网 故障复盘0 码力 | 27 页 | 7.10 MB | 1 年前3
 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅腾讯 专家工程师 自我介绍 罗韩梅,腾讯 T4 专家工程师,2009 年加入腾讯,现任数据平台部容器云开发组组长。 拥有多年分布式系统研发经验,对大数据、云计算、容器等有深刻理解。从事过自研容 器云平台,大数据云平台,以及面向公司内外的通用容器云平台,从无到有,从自研到 开源生态,从公司内部平台到同时面向To B市场。目前专注于容器云平台领域,负责腾 讯企业级容器云平台 。 2009年-2013年 全组件自动化部署、统一配置管理、多策略灰度升级 • 提供可视化、自动化的运维能力,降低使用者的人力成本和学习成本 可靠 • 所有组件无单点; • 平台本身支持热升级; • 组件自身HA机制,如docker; • 多地域多可用区的容灾设计 • 管理机挂掉:对应用无影响 • 计算节点挂掉:跨机迁移 • 健康探针 ① 存活探针 ② 就绪探针 • 负载均衡 • 重启机制 ① 区分异常原因 ② 本地重启/跨机重启 • 黑名单机制 • container.restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化,新增Pod层级 平台容灾 应用容灾 数据容灾 企业内部各个集群灰度运营。 可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include0 码力 | 28 页 | 3.92 MB | 1 年前3 腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅腾讯 专家工程师 自我介绍 罗韩梅,腾讯 T4 专家工程师,2009 年加入腾讯,现任数据平台部容器云开发组组长。 拥有多年分布式系统研发经验,对大数据、云计算、容器等有深刻理解。从事过自研容 器云平台,大数据云平台,以及面向公司内外的通用容器云平台,从无到有,从自研到 开源生态,从公司内部平台到同时面向To B市场。目前专注于容器云平台领域,负责腾 讯企业级容器云平台 。 2009年-2013年 全组件自动化部署、统一配置管理、多策略灰度升级 • 提供可视化、自动化的运维能力,降低使用者的人力成本和学习成本 可靠 • 所有组件无单点; • 平台本身支持热升级; • 组件自身HA机制,如docker; • 多地域多可用区的容灾设计 • 管理机挂掉:对应用无影响 • 计算节点挂掉:跨机迁移 • 健康探针 ① 存活探针 ② 就绪探针 • 负载均衡 • 重启机制 ① 区分异常原因 ② 本地重启/跨机重启 • 黑名单机制 • container.restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化,新增Pod层级 平台容灾 应用容灾 数据容灾 企业内部各个集群灰度运营。 可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include0 码力 | 28 页 | 3.92 MB | 1 年前3
 DaoCloud Enterprise 5.0
产品介绍多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 Kubernetes 集群,快速搭建企业级容器云平台,适配物理机和虚拟机 底层环境。 ➢ 一键式集群升级,一键升级 Kubernetes 版本,统一管理系统组件升级。 ➢ 集群高可用,内置集群容灾、备份能力,保障业务系统在主机故障、机房中断、自然 灾害等情况下可恢复,提高生产环境的稳定性,降低业务中断风险。 ➢ 集群的全生命周期管理,实现自建云原生集群的全生命周期管理。 ➢ 开放式 全生命周期管理。 ➢ 应用负载的弹性伸缩,支持应用负载的手动/自动扩缩容,支持横向伸缩、纵向伸缩、 以及定时伸缩,从容应对流量高峰。 ➢ 应用的全生命周期,支持应用查看、更新、删除、回滚、事件查看以及升级等全生命 周期管理。 ➢ 跨集群负载统一管理能力。 策略管理 支持以命名空间或集群粒度制定网络策略、配额策略、资源限制策略、灾备策 略、安全策略。 ➢ 网络策略,支持以命名空间或集0 码力 | 18 页 | 1.32 MB | 1 年前3 DaoCloud Enterprise 5.0
产品介绍多云编排 支持多云和混合云的统一集中管理,提供跨云资源检索及跨云的应用部署、发布和运 维能力,实现多云应用高效管控,提供基于集群资源的应用弹性扩缩,实现全局负载 均衡,具备故障恢复能力,有效解决多云应用灾备问题,助力企业构建多云、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 Kubernetes 集群,快速搭建企业级容器云平台,适配物理机和虚拟机 底层环境。 ➢ 一键式集群升级,一键升级 Kubernetes 版本,统一管理系统组件升级。 ➢ 集群高可用,内置集群容灾、备份能力,保障业务系统在主机故障、机房中断、自然 灾害等情况下可恢复,提高生产环境的稳定性,降低业务中断风险。 ➢ 集群的全生命周期管理,实现自建云原生集群的全生命周期管理。 ➢ 开放式 全生命周期管理。 ➢ 应用负载的弹性伸缩,支持应用负载的手动/自动扩缩容,支持横向伸缩、纵向伸缩、 以及定时伸缩,从容应对流量高峰。 ➢ 应用的全生命周期,支持应用查看、更新、删除、回滚、事件查看以及升级等全生命 周期管理。 ➢ 跨集群负载统一管理能力。 策略管理 支持以命名空间或集群粒度制定网络策略、配额策略、资源限制策略、灾备策 略、安全策略。 ➢ 网络策略,支持以命名空间或集0 码力 | 18 页 | 1.32 MB | 1 年前3
 逐灵&木苏-阿里巴巴 K8S 超大规模实践经验统一容器与应用实例周期简化 应用启动流程 不可变基础设施 分离基础设施与应用容器简化 应用运维复杂性面向终态升级 • 过程式的运维有什么问题? 例子:升级某服务的 3000 个实例 容 器 平 台 运 维 平 台 容 器 平 台 运 维 平 台 Kubernetes 200 最大不可用数面向终态的应用管理 • 支持终态副本数保持 • 支持容器原地升级 • 保持 IP、卷 • 支持并发更新、容错暂停 Add Indexs 1. nodename 2. Namespace 3. Labels …… Describe node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度 APIServer Scheduler0 码力 | 33 页 | 8.67 MB | 6 月前3 逐灵&木苏-阿里巴巴 K8S 超大规模实践经验统一容器与应用实例周期简化 应用启动流程 不可变基础设施 分离基础设施与应用容器简化 应用运维复杂性面向终态升级 • 过程式的运维有什么问题? 例子:升级某服务的 3000 个实例 容 器 平 台 运 维 平 台 容 器 平 台 运 维 平 台 Kubernetes 200 最大不可用数面向终态的应用管理 • 支持终态副本数保持 • 支持容器原地升级 • 保持 IP、卷 • 支持并发更新、容错暂停 Add Indexs 1. nodename 2. Namespace 3. Labels …… Describe node 5s 0.3s• 稳定性保证 规模化容器调度 稳定 资源竞争 容灾 负载均衡 CPU精细化分配 应用互斥/亲和 维度:应用、核心应用 拓扑:单机、AZ 节点负载感知 资源利用率预测• 丰富的调度策略 规模化容器调度 APIServer Scheduler0 码力 | 33 页 | 8.67 MB | 6 月前3
 2.2.4 基于Kubernetes的私有云实战私有云建设⽅案 03 私有云建设收益 04 遇到的问题 05 未来规划 06 为什么要做私有云? 公司规模扩⼤⾯临的常态问题 • ⾼速增⻓的业务和低下的资源利⽤率 • 需要⾼效的扩缩容和部署效率 • 复杂的业务场景带来了层出不穷的异构机型 • ⾼昂的机房成本投⼊ 公司当前的技术现状 微服务现状 •服务数量暴涨 •资源需求暴涨 •部署效率急需提高 •研发期望独占资源 •简单的设计,易掌控 集群方案 一个超大集群还是多个中小集群? 集群方案 •超级部署屏蔽K8S的各类资源 •一个部署调度到多个集群 •业务可自定调度策略 •达到机架、机房、集群级容灾 服务发现方案 •K8S自带的服务发现不可用 •基于Pod事件的服务发现 •现状妥协导致服务发现链路变长 集群失败了 •没有办法操作K8S? •基于假事件的重新调度 •灾难场景可迁移至备份集群0 码力 | 47 页 | 10.67 MB | 1 年前3 2.2.4 基于Kubernetes的私有云实战私有云建设⽅案 03 私有云建设收益 04 遇到的问题 05 未来规划 06 为什么要做私有云? 公司规模扩⼤⾯临的常态问题 • ⾼速增⻓的业务和低下的资源利⽤率 • 需要⾼效的扩缩容和部署效率 • 复杂的业务场景带来了层出不穷的异构机型 • ⾼昂的机房成本投⼊ 公司当前的技术现状 微服务现状 •服务数量暴涨 •资源需求暴涨 •部署效率急需提高 •研发期望独占资源 •简单的设计,易掌控 集群方案 一个超大集群还是多个中小集群? 集群方案 •超级部署屏蔽K8S的各类资源 •一个部署调度到多个集群 •业务可自定调度策略 •达到机架、机房、集群级容灾 服务发现方案 •K8S自带的服务发现不可用 •基于Pod事件的服务发现 •现状妥协导致服务发现链路变长 集群失败了 •没有办法操作K8S? •基于假事件的重新调度 •灾难场景可迁移至备份集群0 码力 | 47 页 | 10.67 MB | 1 年前3
 QCon北京2018/QCon北京2018-基于Kubernetes与Helm的应用部署平台构建实践-张夏-赵明+PaaS:基于Kubernetes私有云平台, 支持CI/CD、配置管理、基于Helm的 服务编排等 基于Kubernetes平台概览 Kubernetes on AWS高可用架构 • 高可用性 • 容灾容错 • 监控报警 • 日志收集 • 轻量级框架 Flask提供REST API • Celery实现任务分发与请求异步处理, 并通过RabbitMQ消息传输� • 通过uWSGI配合Nginx反向代理实现0 码力 | 28 页 | 12.18 MB | 1 年前3 QCon北京2018/QCon北京2018-基于Kubernetes与Helm的应用部署平台构建实践-张夏-赵明+PaaS:基于Kubernetes私有云平台, 支持CI/CD、配置管理、基于Helm的 服务编排等 基于Kubernetes平台概览 Kubernetes on AWS高可用架构 • 高可用性 • 容灾容错 • 监控报警 • 日志收集 • 轻量级框架 Flask提供REST API • Celery实现任务分发与请求异步处理, 并通过RabbitMQ消息传输� • 通过uWSGI配合Nginx反向代理实现0 码力 | 28 页 | 12.18 MB | 1 年前3
 基于Kubernetes构建容器云平台的实践
 - UCloud优刻得实验室负责⼈ 叶理灯,提供⾼高可⽤用,在线升 级,⾃自动扩缩,负载均衡,⽇日志查看,资 源监控,等多种功能。 KUN 运维管理理 监控 ⽇日志 权限 分析 集群管理理 版本管理理 配置管理理 链路路跟踪 负载均衡 ⾃自动容灾 持续集成 持续部署 灰度发布 服务注册/发现 关系数据库 KV存储 对象存储 块存储 DNS 消息队列列 API- Gateway 镜像仓库 统⼀一代码管理理 统⼀一编程框架 统⼀一通讯协议 还可以对集群进⾏行行配置更更新、删除等操作。 Operator Server Think in Cloud . 北北京 Operator管理理⽆无状态的服务 特性 A. ⽆无状态⽔水平弹缩: ⽀支持动态扩缩容 B. 容错处理理: 通过kubernetes validating admission configuration校验⽤用 户下发的编排的crd实例例,同时⾃自动恢复⽤用户误操作的该crd维护的资源0 码力 | 30 页 | 3.52 MB | 1 年前3 基于Kubernetes构建容器云平台的实践
 - UCloud优刻得实验室负责⼈ 叶理灯,提供⾼高可⽤用,在线升 级,⾃自动扩缩,负载均衡,⽇日志查看,资 源监控,等多种功能。 KUN 运维管理理 监控 ⽇日志 权限 分析 集群管理理 版本管理理 配置管理理 链路路跟踪 负载均衡 ⾃自动容灾 持续集成 持续部署 灰度发布 服务注册/发现 关系数据库 KV存储 对象存储 块存储 DNS 消息队列列 API- Gateway 镜像仓库 统⼀一代码管理理 统⼀一编程框架 统⼀一通讯协议 还可以对集群进⾏行行配置更更新、删除等操作。 Operator Server Think in Cloud . 北北京 Operator管理理⽆无状态的服务 特性 A. ⽆无状态⽔水平弹缩: ⽀支持动态扩缩容 B. 容错处理理: 通过kubernetes validating admission configuration校验⽤用 户下发的编排的crd实例例,同时⾃自动恢复⽤用户误操作的该crd维护的资源0 码力 | 30 页 | 3.52 MB | 1 年前3
 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践服务注册和客户端 注册 Topic 的集群信息 • Broker, Zookeeper • Status 是否启⽤用 客户端 • 业务易易⽤用 • 标准客户端,降低集群⻛风险 集群容错 • 灾备集群 • 保证重要 Topic ⾼高可⽤用 • 客户端与服务器器注册联动 指标维度 举例例 Kubernetes 3 容器器内存、CPU、运⾏行行状态 Broker 14 消息量量,JVM0 码力 | 34 页 | 2.64 MB | 1 年前3 QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践服务注册和客户端 注册 Topic 的集群信息 • Broker, Zookeeper • Status 是否启⽤用 客户端 • 业务易易⽤用 • 标准客户端,降低集群⻛风险 集群容错 • 灾备集群 • 保证重要 Topic ⾼高可⽤用 • 客户端与服务器器注册联动 指标维度 举例例 Kubernetes 3 容器器内存、CPU、运⾏行行状态 Broker 14 消息量量,JVM0 码力 | 34 页 | 2.64 MB | 1 年前3
 Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践Compliance 访问控制、审计、安全链接、加密存储等等。 Patching & Upgrades 小版本升级、大版本升级、安全漏洞修复等等。 Data Migrations 迁移、同步、清洗、跨地域、灾备、多活等等。 DB Operator Day-2 Operations Operator 基础模型 第二部分 K8s 架构 Cache Informer 机制 Cache 如何获取到本地(内存中)0 码力 | 21 页 | 3.06 MB | 9 月前3 Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践Compliance 访问控制、审计、安全链接、加密存储等等。 Patching & Upgrades 小版本升级、大版本升级、安全漏洞修复等等。 Data Migrations 迁移、同步、清洗、跨地域、灾备、多活等等。 DB Operator Day-2 Operations Operator 基础模型 第二部分 K8s 架构 Cache Informer 机制 Cache 如何获取到本地(内存中)0 码力 | 21 页 | 3.06 MB | 9 月前3
 ⾸云容器产品Kubernetes操作指南可以⽤去的选择要和容器集群所在区域⼀致,不同区域的集群和存储间不能挂载和访问 创建挂载点 新创建的NAS盘,需要挂载后才能使⽤ 在挂载窗⼝中,请选择需要挂载的集群,此处的集群仅显示和该NAS所在区域相同的容 器集群 挂载成功后,会显示私⽹IP 挂载过程可能⽤时较⻓,3-5分钟 14 挂载NAS盘到本地机器 对于已经挂载好的NAS盘,该集群内的任何⼀台计算资源(master和worker)均可访 使⽤后,执⾏下述命令即可卸载本次挂载: sudo umount /nas NAS盘扩容 在⽂件存储NAS⻚⾯点击扩容,即可对该盘进⾏在线扩容 在新⻚⾯中,选择容量并确定即可完成扩容 ⽬前只⽀持扩容操作,不可缩容 15 卸载NAS盘 对于已挂载的NAS盘,可以从集群中卸载,卸载后的NAS盘可以挂在到同⼀区域下的其他集群使⽤ NAS盘⼀旦卸载,会导致该集群内所有依赖该存储的POD的PV皆不可⽤,请谨慎操作 触发条件:资源使⽤率的百分⽐,超过设置的Pod request值,容器开始扩容。 最⼤副本数:该 Deployment 可扩容的副本(即容器组Pod)数量上限。 最⼩副本数:该 Deployment 可缩容的副本(即容器组Pod)数量下限。 注:若要启⽤⽔平伸缩,您必须为容器设置所需资源,否则容器⾃动伸缩⽆法⽣效。参⻅容器基本配置环 节。 可选:升级⽅式。升级⽅式包括滚0 码力 | 94 页 | 9.98 MB | 1 年前3 ⾸云容器产品Kubernetes操作指南可以⽤去的选择要和容器集群所在区域⼀致,不同区域的集群和存储间不能挂载和访问 创建挂载点 新创建的NAS盘,需要挂载后才能使⽤ 在挂载窗⼝中,请选择需要挂载的集群,此处的集群仅显示和该NAS所在区域相同的容 器集群 挂载成功后,会显示私⽹IP 挂载过程可能⽤时较⻓,3-5分钟 14 挂载NAS盘到本地机器 对于已经挂载好的NAS盘,该集群内的任何⼀台计算资源(master和worker)均可访 使⽤后,执⾏下述命令即可卸载本次挂载: sudo umount /nas NAS盘扩容 在⽂件存储NAS⻚⾯点击扩容,即可对该盘进⾏在线扩容 在新⻚⾯中,选择容量并确定即可完成扩容 ⽬前只⽀持扩容操作,不可缩容 15 卸载NAS盘 对于已挂载的NAS盘,可以从集群中卸载,卸载后的NAS盘可以挂在到同⼀区域下的其他集群使⽤ NAS盘⼀旦卸载,会导致该集群内所有依赖该存储的POD的PV皆不可⽤,请谨慎操作 触发条件:资源使⽤率的百分⽐,超过设置的Pod request值,容器开始扩容。 最⼤副本数:该 Deployment 可扩容的副本(即容器组Pod)数量上限。 最⼩副本数:该 Deployment 可缩容的副本(即容器组Pod)数量下限。 注:若要启⽤⽔平伸缩,您必须为容器设置所需资源,否则容器⾃动伸缩⽆法⽣效。参⻅容器基本配置环 节。 可选:升级⽅式。升级⽅式包括滚0 码力 | 94 页 | 9.98 MB | 1 年前3
共 24 条
- 1
- 2
- 3













