深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统落地,超过 90% 的资源通过 Kubernetes 分配,核心链路100%落地支撑 大促。5/19 大促规模 Part 1:蚂蚁金服的Kubernetes现状 数万台 服务器和ECS 超一万 单集群规模 90%+ 应用服务 数十万 应用 Pods业务 6/19 统一资源调度架构 Part 1:蚂蚁金服的Kubernetes现状 非云 资源 云化 资源 基础 服务 蚂蚁 极速交付 分时复用 弹性容量 资源画像 规模化调度 高可用容灾 可视化 服务 Cluster Control Panel 在线应用 计算型混部任务 CSI CNI Device Plugin runc nanovisor 日志服务 云盘 本地多盘 弹性网卡 网络安全组 GPU 安全可信 数据库服务 OB serverless 平台 kata SOFAMesh 资源分时复用 神龙裸金属 VPC Part 2:8/19 资源分时调度 Part 2:双十一 Kubernetes 实践 快速腾挪的问题 1.实例上下线需要预热 2. 腾挪耗时不可控 3. 大规模腾挪的稳定性技术风险 9/19 资源分时链路切换 Part 2:资源分时调度 Kubernetes Node 分时调度 Agent Pod 资源 Node 分时调度 Agent Pod 资源 Node 分时调度0 码力 | 19 页 | 2.18 MB | 6 月前3
蚂蚁金服双十一 Service Mesh 超大规模落地揭秘Mesh 为什么要 Service Mesh为什么要 Service Mesh-现状 5.客户端中间件版本的统一 9% 3.流量调度的诉求 18% 4.框架不断升级 14% 2.机器资源逐年增加 27% 1.业务和框架耦合 32%8 因为我们要解决在 SOA 下面,没有解决但亟待解决的: 基础架构和业务研发的耦合,以及未来无限的对业务透明的稳定性与高可用相关诉求。 为什么要 产品层 运维能力 监控能力 流量调控 安全能力 扩展能力 HTTP/RPC13 方案落地-拷问 现有框架升级 容器如何替换 MOSN 如何升级 需要业务改代码吗 能回滚吗? 没资源给你做 buffer 能不能快一点 升级过程不要影响我业务 其他你随便 1问 2问 3问App 容器 14 方案落地-框架升级前 应用代码 SOFABoot SOFABoot/SOFARPC 发布和订阅服务 直接调用,关闭寻 址功能 其他16 方案落地-容器替换 Pod Pod Old Pod New With MOSN Pod New With MOSN 扩容 缩容 资源 Buffer Pod APP:4C8G Pod APP:4C8G MOSN:4C2G Operator 注入 传统接入 VS 原地接入 4C2G? Elastic0 码力 | 26 页 | 2.71 MB | 6 月前3
Service Mesh的实践分享OSP client多语言客户端接入 • HTTP & TCP • Local & Remote • 根据接入对象的不同,制定 不同的接入策略,达到 • 接入简单 • 保证性能 • 节省资源 Java App Local Proxy OSP Server Remote Proxy Cluster Thrift over TCP PHP App C/C++/Node JS 切换地址到remote proxy,轻 易实现优雅退出和滚动升级 • 增强隔离性 • Local Proxy被pod共享 • 自保护,对来源方限流和流量 转移 • 资源适配 • 根据宿主机的硬件配置定制不 同资源配置的Daemonset Local Proxy Pod 写入地址 监听变化 宿主机 Proxy address File Pod Remote Proxy 容易。需依赖SDK 编码难度 容易。IDL接口规范 容易。IDL接口规范 难。需要自行处理HTTP请求和 响应(目前还没有生成HTTP sdk) 应用侵入性 侵入性大。复杂客户端会给 应用造成负担,包括资源占 用、依赖冲突等等 侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能 无侵入性。应用自行调用 运维难度 难度大。客户端的问题会对 应用直接产生影响,耦合太 重 难度小。Sidecar故障可以将流量临时切到0 码力 | 30 页 | 4.80 MB | 6 月前3
陌陌Service Mesh架构实践控制平面 • 轻量的Pilot Proxy • 向Istio的标准协议靠拢 重点目标 长期规划15/24 数据平面实践细节 • 部署方式 • 升级方式 • 容灾方式 • 性能问题 • 资源问题 • 兼容问题 关键设计 关键问题16/24 数据平面部署方式 容器化运行方式 • sidecar模式 • 与业务进程相同Pod不同Container 陌陌微服务容器化部署比例在80%以上 Agent内部 • 对象池化:减少资源消耗与GC压力 • 响应等待机制:非阻塞等待 两次请求转发小于0.2ms Agent外部 • 提升服务器性能(缩减耗时绝对值) API层接口耗时增长小于6%21/24 数据平面资源占用 与业务容器共享CPU、内存资源配额 为Agent JVM分配256M内存资源 服务器消耗增加约10% 分配方式 内存资源 服务器资源 维持现有内存使用率与 服务器配置的最坏情况0 码力 | 25 页 | 1.25 MB | 6 月前3
蚂蚁金服网络代理演进之路通用的框架能力(SOFAMosn/Envoy)无法直接满足复杂的、定制的业务能力,需 要进行针对性的扩展实现 • 需要融合主站已有的应用体系,如注册中心、配置中心等,这些也需要扩展实现 • 大规模场景下需要面对的资源占用,自动化问题、性能问题,稳定性问题兼容问题 § 不同的应用,部分Mesh化 § 同一个应用,部分Mesh化 § 蚂蚁基础设施适配 § TLS加密链路平滑迁移 Localhost or Iptables 容器进行无损平滑升级,即“给奔跑的汽车换轮胎” l 支持 SOFARPC、HTTP/1.x、消息、TLS 等多种协议无损迁移资源问题 CPU • Cpuset模式,与业务App共享独占核 • Cpushare模式,与应用容器共享物理机Cpu资源 • 根据具体业务情况设置Cpu资源 内存 • 使用应用内存的1/16 • 与业务Share内存,最大限制使用1G,存在超卖问题,触发Pod 级别的direct 级别的direct reclaim问题 磁盘 • Sidecar与业务容器共享磁盘,并且不受容器启动顺序对磁盘分配的影响,单独mount配置文件 • 不同业务不同资源占用的精细化调配性能问题 GOMAXPROCS :Cpu消耗与RT的tradeoff 优化GC策略升级1.12版本,MADV_FREE,MADV_DONTNEED带来的 影响 Chan的吞吐极限,减少主业务数据的传递 CGO对于TLS0 码力 | 46 页 | 19.93 MB | 6 月前3
金融级云原生 PaaS 探索与实践面向站点级别输出7/20 PaaS 能力 • 面向多租户多环境; • 基础资源管控; • 应用发布运维体系; • 业务实时监控,日志收集; • 机房级和地域级容灾能力; 业务背景业务背景 CAFÉ API Server Aggregation Layer 异地多活架构 同城双活架构 K8S API Server 基础发布运维 跨集群应用 资源管理 IaaS层(Aliyun/OpenStack/VMWare/Bare Router/ENI) CSI Plugins (NAS/OSS/Cloud Disk/Ceph) 网络接入 (SLB/ALB) 容 器 层 跨集群管理 单元化能力 容器镜像管理 批次发布 原生资源管理 Pod伸缩管理 集群伸缩管理 变更管控 配额管理 运维原子操作 精细化调度 接入层流程调拨 应用层流量调拨 跨集群状态 分发/汇聚 数据层流量调拨 压测/灰度 流量管理 单元化 业务弹性建站管控统一; • 可扩展: 多租硬隔离; 体量(单集群内节点数 1w+,Pod 10w+),集群数量多; 多集群管控11/20 多集群管控 联邦核心能力 • 跨集群资源同步 Template,Override,Placement 模型; 状态回流; 扩展 CRD; • 跨集群发现12/20 联邦架构 • 关系型存储; 数据量 容灾 •0 码力 | 20 页 | 1.71 MB | 6 月前3
微博Service Mesh实践…… RestFul API 业务部⻔门 Motan ➢ 业务部⻔门语⾔言种类繁多 ➢ 微服务体系建设不不完善/重复 ➢ ⽹网络抖动,dns不不稳定 ➢ 4,7层冗⻓长调⽤用链及资源消耗 4,7层调度Service Mesh Meetup · BeiJing 趋势 �6 微博Service Mesh实践 - WeiboMesh 微服务 1 容器器化 2 DevOps Mesh实践 - WeiboMesh • 服务交互 • 服务发现 • 服务路路由 • 服务治理理 • 跨语⾔言序列列化 • 批量量请求 • 资源服务化 • 兜底逻辑 Mesh Light Client SM 功能 功能 强化 Go 并发 适配 不不同 语⾔言Service Mesh Meetup · BeiJing Weibo 1-跨语⾔言服务化 3-可靠的Transport 5-Http、Web⾃自动转RPC 2-服务治理理与业务逻辑解耦 6-适合⾮非云,混合云等,适配Registry⽀支持云原⽣生 4-节省资源Service Mesh Meetup · BeiJing Weibo Mesh在业务应⽤用中的效果 �35 微博Service Mesh实践 - WeiboMesh Mesh VS HTTP0 码力 | 43 页 | 1007.85 KB | 6 月前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践的探索和创新成为 可能 • ASI (k8s) + 容器 (runc / runv / kata / ..) + 神龙 = 阿里云原生化 的最佳组合 • 最大的电商平台之一,并池最佳化资源利用率 • 大规模混部、优先级差异化提升资源使用效率 • Alibaba Serverless Infrastructure (ASI) 的基石上云效率提升 物理机 (云下) 神龙裸金属 (云上) 交付周期 周 分钟级 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine Operator未来工作 • 稳定性、资源利用率、运维效率 • 基于安全容器的新混部架构 • 全业务上云、Serverless 演进 • 精细化观测和全链路诊断❖ No data, No BB ❖ Automate Everything0 码力 | 21 页 | 7.81 MB | 6 月前3
Service Mesh 高可用在企业级生产中的实践PS/QPS阀值, 如果超了阀值则系统就会不响应用户请求或响应的非常慢,因此我们最好进行过 载保护,防止大量请求涌入击垮系统。 • 服务限流其实是指当系统资源不够,不足以应对大量请求,即系统资源与访问量 出现矛盾的时候,我们为了保证有限的资源能够正常服务,因此对系统按照预设 的规则进行流量限制或功能限制的一种方法。 • 限流的目的是通过对并发访问/请求进行限速或者一个时间窗口内的的请求进行 限0 码力 | 38 页 | 1.38 MB | 6 月前3
严选 ServiceMesh 实践流量复制:不提供 × 故障转移:继承 Nginx 的 Failover 机制 √ 安全 访问控制:主要依靠中间件 × 中间件 治理控制 熔断降级:主要依靠中间件 中间件 限流:速率限制 √ 中间件 资源隔离:主要依靠中间件 中间件 故障注入:不提供 × 超时控制、重试、重写、重定向等:继承 Nginx 的 timeout 机制 √ 监控/故障诊断 链路追踪:主要依靠中间件 APM APM 负载均衡:支持 RR、权重、一致性 Hash 等 √ 流量复制:Envoy 自带 √ 故障转移 √ 安全 访问控制:RBAC vs Mixer √ 治理控制 熔断降级 √ 限流 √ 中间件 资源隔离 √ 故障注入 √ 超时控制、重试、重写、重定向等 √ 监控/故障诊断 链路追踪:主要依靠中间件 APM APM 性能监控:主要依靠中间件 APM APM 遥感数据:主要依靠中间件 APM 分析请求来源及去向 06.问题定位与诊断 • 服务元数据定义:服务等级、服务集群、服 务器规格及环境 • 服务地图:可视化的服务关系,如业务拓扑、 服务依赖拓扑,集群视图 01.服务定义 • 限流、资源隔离、熔断、降级等配置 • 负载均衡:流量调配、分流、切流量等 • 服务路由 • 访问控制配置 03.调用控制 • 不可变信息配置 • 动态配置、实时下发 • 支持环境、集群等区分维度0 码力 | 25 页 | 2.07 MB | 6 月前3
共 19 条
- 1
- 2













