 蚂蚁金服 API Gateway Mesh 思考与实践微服务网关架构(2013-2016) LB spanner 特点: • 微服务网关 • 蚂蚁金服 RPC 协议 • 安全\鉴权\监控 • Netty 异步化 • 私有协议 MMTP 缺点: • API 网关变更风险 • 业务分级隔离需求 • 大促容量规划问题 HTTP/MMTP sofarpc10/21 去中心化网关架构(2016-2018) APP 去中心化网关架构 LB spanner APP1 mgs15/21 可灰度 可回滚 可监控 蚂蚁金服「三板斧」 API Gateway Mesh 落地挑战 风险 运维 性能 功能 上线不是一件容易的事 Golang 历史债清理 sian->protobuf ead->goroutine sigma 已知的风险都不是风险16/21 M O S N A P P Gateway LB Spanner x % x*(100-y)0 码力 | 22 页 | 1.72 MB | 6 月前3 蚂蚁金服 API Gateway Mesh 思考与实践微服务网关架构(2013-2016) LB spanner 特点: • 微服务网关 • 蚂蚁金服 RPC 协议 • 安全\鉴权\监控 • Netty 异步化 • 私有协议 MMTP 缺点: • API 网关变更风险 • 业务分级隔离需求 • 大促容量规划问题 HTTP/MMTP sofarpc10/21 去中心化网关架构(2016-2018) APP 去中心化网关架构 LB spanner APP1 mgs15/21 可灰度 可回滚 可监控 蚂蚁金服「三板斧」 API Gateway Mesh 落地挑战 风险 运维 性能 功能 上线不是一件容易的事 Golang 历史债清理 sian->protobuf ead->goroutine sigma 已知的风险都不是风险16/21 M O S N A P P Gateway LB Spanner x % x*(100-y)0 码力 | 22 页 | 1.72 MB | 6 月前3
 金融级云原生 PaaS 探索与实践灰度分组发布 中间件变配 (DRM/Scheduler/Message) Mesh流调拨和治理 弹性建站/下站 容器腾挪/迁移 容灾切换和恢复 应急预案管理 … 分钟级容灾切换和恢复 全面变更风险管理 无限弹性可扩展 业务架构 产品层 云原生 PaaS 产品架构方案 7/209/20 二、多集群管控 多集群管控10/20 为什么要有集群联邦 • 异构屏蔽:  底层集群变化; Pod IP 添加finalizer 发布完成 16/2017/20 安全风险保障 • 审计追踪; • 用户安全 – 基于 RBAC 体系和 PaaS 账号体系打通; • 租户安全 – 租户隔离|环境隔离|集群隔离; • 容器运行时 - 配额|隔离控制(磁盘,CPUSET); 发布运维体系18/20 技术风险保障 业务变更三板斧 发布运维体系 Replica/Partition 据可查; 可监控: • 接入监控告警体系,全程保证 可观测性 partition:3 partition:5 InPlaceSetControlle r replica:519/20 技术风险管控 Operator变更三板斧 发布运维体系 可灰度: • Controller 发布避免 0-1; 可回滚: • 回滚到基线版本; • 快速止血,停止新版本调和; 可监控: • metrics0 码力 | 20 页 | 1.71 MB | 6 月前3 金融级云原生 PaaS 探索与实践灰度分组发布 中间件变配 (DRM/Scheduler/Message) Mesh流调拨和治理 弹性建站/下站 容器腾挪/迁移 容灾切换和恢复 应急预案管理 … 分钟级容灾切换和恢复 全面变更风险管理 无限弹性可扩展 业务架构 产品层 云原生 PaaS 产品架构方案 7/209/20 二、多集群管控 多集群管控10/20 为什么要有集群联邦 • 异构屏蔽:  底层集群变化; Pod IP 添加finalizer 发布完成 16/2017/20 安全风险保障 • 审计追踪; • 用户安全 – 基于 RBAC 体系和 PaaS 账号体系打通; • 租户安全 – 租户隔离|环境隔离|集群隔离; • 容器运行时 - 配额|隔离控制(磁盘,CPUSET); 发布运维体系18/20 技术风险保障 业务变更三板斧 发布运维体系 Replica/Partition 据可查; 可监控: • 接入监控告警体系,全程保证 可观测性 partition:3 partition:5 InPlaceSetControlle r replica:519/20 技术风险管控 Operator变更三板斧 发布运维体系 可灰度: • Controller 发布避免 0-1; 可回滚: • 回滚到基线版本; • 快速止血,停止新版本调和; 可监控: • metrics0 码力 | 20 页 | 1.71 MB | 6 月前3
 阿里云容器服务大促备战关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT我是谁挑战在哪里? 极限并发 人为失误 系统瓶颈 雪崩 单点失效 成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测 边缘计算 敏捷调度 故障演练人为失误 http://integracon 百亿实时样本 万亿维度模型云原生基础设施 新生态 新算力 新基石 全球化部署 单集群万节点规模 云边端一体化 延时降低75% 混合云2.0架构 交付效率提升3倍 全链路安全架构 实时风险监测、告警、阻断 极速弹性 分钟级1000节点伸缩 异构算力 利用率提升5倍 沙箱容器 强隔离,90%原生性能 容器云应用市场 合作伙伴计划 阿里云容器服务Thank you ! 关注“阿里巴巴云原生”公众号0 码力 | 17 页 | 17.74 MB | 6 月前3 阿里云容器服务大促备战关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT我是谁挑战在哪里? 极限并发 人为失误 系统瓶颈 雪崩 单点失效 成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测 边缘计算 敏捷调度 故障演练人为失误 http://integracon 百亿实时样本 万亿维度模型云原生基础设施 新生态 新算力 新基石 全球化部署 单集群万节点规模 云边端一体化 延时降低75% 混合云2.0架构 交付效率提升3倍 全链路安全架构 实时风险监测、告警、阻断 极速弹性 分钟级1000节点伸缩 异构算力 利用率提升5倍 沙箱容器 强隔离,90%原生性能 容器云应用市场 合作伙伴计划 阿里云容器服务Thank you ! 关注“阿里巴巴云原生”公众号0 码力 | 17 页 | 17.74 MB | 6 月前3
 深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统实践 Part 2:8/19 资源分时调度 Part 2:双十一 Kubernetes 实践 快速腾挪的问题 1.实例上下线需要预热 2. 腾挪耗时不可控 3. 大规模腾挪的稳定性技术风险 9/19 资源分时链路切换 Part 2:资源分时调度 Kubernetes Node 分时调度 Agent Pod 资源 Node 分时调度 Agent Pod 资源 Node 三、展望未来,迎接挑战 Part 2:17/19 平台与多租户 Part 3:展望未来,迎接挑战 Kubernetes设计的多租户 实际Kubernetes集群里的多租户18/19 自动化运维 – 技术风险 Part 3:展望未来,迎接挑战0 码力 | 19 页 | 2.18 MB | 6 月前3 深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统实践 Part 2:8/19 资源分时调度 Part 2:双十一 Kubernetes 实践 快速腾挪的问题 1.实例上下线需要预热 2. 腾挪耗时不可控 3. 大规模腾挪的稳定性技术风险 9/19 资源分时链路切换 Part 2:资源分时调度 Kubernetes Node 分时调度 Agent Pod 资源 Node 分时调度 Agent Pod 资源 Node 三、展望未来,迎接挑战 Part 2:17/19 平台与多租户 Part 3:展望未来,迎接挑战 Kubernetes设计的多租户 实际Kubernetes集群里的多租户18/19 自动化运维 – 技术风险 Part 3:展望未来,迎接挑战0 码力 | 19 页 | 2.18 MB | 6 月前3
 网易云Service Mesh的产品架构与实现reciated-azure-service-fabric-ben-spencer/ Kaola163yun.com 开发独立: 代码耦合度比较高,修改代码通常会对多个模块产生影响,操控难度大,风险高 上线独立: 单次上线需求列表多,上线时间长,影响面大 简化扩容: 由于业务多,每一次扩容需要增加的配置比较杂。一些不起眼的小业务虽然不是扩容的主要目 的,也需要慎重考虑 容灾降级:核心业务与非核心业务耦合,在关键时候互相影响0 码力 | 35 页 | 6.33 MB | 6 月前3 网易云Service Mesh的产品架构与实现reciated-azure-service-fabric-ben-spencer/ Kaola163yun.com 开发独立: 代码耦合度比较高,修改代码通常会对多个模块产生影响,操控难度大,风险高 上线独立: 单次上线需求列表多,上线时间长,影响面大 简化扩容: 由于业务多,每一次扩容需要增加的配置比较杂。一些不起眼的小业务虽然不是扩容的主要目 的,也需要慎重考虑 容灾降级:核心业务与非核心业务耦合,在关键时候互相影响0 码力 | 35 页 | 6.33 MB | 6 月前3
 蚂蚁金服双十一 Service Mesh 超大规模落地揭秘最终选型:自研数据面+轻量 SDK,我们给出的答案是 MOSN。 方案落地-选型 开源/自研:全部迁移到 envoy?不现实,自有协议+历史负担。 SDK/透明劫持:运维和可监控性不好,性能不高,风险不太可控。12 方案落地-目标架构 MOSN APP Pod MOSN APP Pod 服务发现 More Sidecar More Sidecar Pilot MQ Kubernetes0 码力 | 26 页 | 2.71 MB | 6 月前3 蚂蚁金服双十一 Service Mesh 超大规模落地揭秘最终选型:自研数据面+轻量 SDK,我们给出的答案是 MOSN。 方案落地-选型 开源/自研:全部迁移到 envoy?不现实,自有协议+历史负担。 SDK/透明劫持:运维和可监控性不好,性能不高,风险不太可控。12 方案落地-目标架构 MOSN APP Pod MOSN APP Pod 服务发现 More Sidecar More Sidecar Pilot MQ Kubernetes0 码力 | 26 页 | 2.71 MB | 6 月前3
 Service Mesh的实践分享链路上某些节点的配置不合理,很难被预 先发现 • 如整条调用链入口要求的超时是500ms,然而 中间某个服务的超时时间是5s。超时时间的严 重差异容易造成资源浪费(上游超时返回了下 游还继续往下调)和数据不一致风险(上游以 为写失败了下游却写成功了) • 目标 • 实时上下游超时治理 • 通过传递剩余超时时间,让下游可以判断是否 继续一些重量级操作 • 实时上下游限流治理 • 下游资源异常(DB调用超时、redis超时等)动0 码力 | 30 页 | 4.80 MB | 6 月前3 Service Mesh的实践分享链路上某些节点的配置不合理,很难被预 先发现 • 如整条调用链入口要求的超时是500ms,然而 中间某个服务的超时时间是5s。超时时间的严 重差异容易造成资源浪费(上游超时返回了下 游还继续往下调)和数据不一致风险(上游以 为写失败了下游却写成功了) • 目标 • 实时上下游超时治理 • 通过传递剩余超时时间,让下游可以判断是否 继续一些重量级操作 • 实时上下游限流治理 • 下游资源异常(DB调用超时、redis超时等)动0 码力 | 30 页 | 4.80 MB | 6 月前3
共 7 条
- 1













