资源约束 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统

落地，超过 90% 的资源通过 Kubernetes 分配，核心链路100%落地支撑大促。5/19 大促规模 Part 1：蚂蚁金服的Kubernetes现状数万台服务器和ECS 超一万单集群规模 90%+ 应用服务数十万应用 Pods业务 6/19 统一资源调度架构 Part 1：蚂蚁金服的Kubernetes现状非云资源云化资源基础服务蚂蚁极速交付分时复用弹性容量资源画像规模化调度高可用容灾可视化服务 Cluster Control Panel 在线应用计算型混部任务 CSI CNI Device Plugin runc nanovisor 日志服务云盘本地多盘弹性网卡网络安全组 GPU 安全可信数据库服务 OB serverless 平台 kata SOFAMesh 资源分时复用神龙裸金属 VPC Part 2：8/19 资源分时调度 Part 2：双十一 Kubernetes 实践快速腾挪的问题 1.实例上下线需要预热 2. 腾挪耗时不可控 3. 大规模腾挪的稳定性技术风险 9/19 资源分时链路切换 Part 2：资源分时调度 Kubernetes Node 分时调度 Agent Pod 资源 Node 分时调度 Agent Pod 资源 Node 分时调度

0 码力 | 19 页 | 2.18 MB | 6 月前
3
蚂蚁金服双十一 Service Mesh 超大规模落地揭秘

Mesh 为什么要 Service Mesh为什么要 Service Mesh-现状 5.客户端中间件版本的统一 9% 3.流量调度的诉求 18% 4.框架不断升级 14% 2.机器资源逐年增加 27% 1.业务和框架耦合 32%8 因为我们要解决在 SOA 下面，没有解决但亟待解决的：基础架构和业务研发的耦合，以及未来无限的对业务透明的稳定性与高可用相关诉求。为什么要产品层运维能力监控能力流量调控安全能力扩展能力 HTTP/RPC13 方案落地-拷问现有框架升级容器如何替换 MOSN 如何升级需要业务改代码吗能回滚吗？没资源给你做 buffer 能不能快一点升级过程不要影响我业务其他你随便 1问 2问 3问App 容器 14 方案落地-框架升级前应用代码 SOFABoot SOFABoot/SOFARPC 发布和订阅服务直接调用，关闭寻址功能其他16 方案落地-容器替换 Pod Pod Old Pod New With MOSN Pod New With MOSN 扩容缩容资源 Buffer Pod APP：4C8G Pod APP：4C8G MOSN：4C2G Operator 注入传统接入 VS 原地接入 4C2G？ Elastic

0 码力 | 26 页 | 2.71 MB | 6 月前
3
Service Mesh的实践分享

OSP client多语言客户端接入 • HTTP & TCP • Local & Remote • 根据接入对象的不同，制定不同的接入策略，达到 • 接入简单 • 保证性能 • 节省资源 Java App Local Proxy OSP Server Remote Proxy Cluster Thrift over TCP PHP App C/C++/Node JS 切换地址到remote proxy，轻易实现优雅退出和滚动升级 • 增强隔离性 • Local Proxy被pod共享 • 自保护，对来源方限流和流量转移 • 资源适配 • 根据宿主机的硬件配置定制不同资源配置的Daemonset Local Proxy Pod 写入地址监听变化宿主机 Proxy address File Pod Remote Proxy 容易。需依赖SDK 编码难度容易。IDL接口规范容易。IDL接口规范难。需要自行处理HTTP请求和响应（目前还没有生成HTTP sdk）应用侵入性侵入性大。复杂客户端会给应用造成负担，包括资源占用、依赖冲突等等侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能无侵入性。应用自行调用运维难度难度大。客户端的问题会对应用直接产生影响，耦合太重难度小。Sidecar故障可以将流量临时切到

0 码力 | 30 页 | 4.80 MB | 6 月前
3
陌陌Service Mesh架构实践

控制平面 • 轻量的Pilot Proxy • 向Istio的标准协议靠拢重点目标长期规划15/24 数据平面实践细节 • 部署方式 • 升级方式 • 容灾方式 • 性能问题 • 资源问题 • 兼容问题关键设计关键问题16/24 数据平面部署方式容器化运行方式 • sidecar模式 • 与业务进程相同Pod不同Container 陌陌微服务容器化部署比例在80%以上 Agent内部 • 对象池化：减少资源消耗与GC压力 • 响应等待机制：非阻塞等待两次请求转发小于0.2ms Agent外部 • 提升服务器性能（缩减耗时绝对值） API层接口耗时增长小于6%21/24 数据平面资源占用与业务容器共享CPU、内存资源配额为Agent JVM分配256M内存资源服务器消耗增加约10% 分配方式内存资源服务器资源维持现有内存使用率与服务器配置的最坏情况

0 码力 | 25 页 | 1.25 MB | 6 月前
3
蚂蚁金服网络代理演进之路

通用的框架能力（SOFAMosn/Envoy）无法直接满足复杂的、定制的业务能力，需要进行针对性的扩展实现 • 需要融合主站已有的应用体系，如注册中心、配置中心等，这些也需要扩展实现 • 大规模场景下需要面对的资源占用，自动化问题、性能问题，稳定性问题兼容问题 § 不同的应用，部分Mesh化 § 同一个应用，部分Mesh化 § 蚂蚁基础设施适配 § TLS加密链路平滑迁移 Localhost or Iptables 容器进行无损平滑升级，即“给奔跑的汽车换轮胎” l 支持 SOFARPC、HTTP/1.x、消息、TLS 等多种协议无损迁移资源问题 CPU • Cpuset模式，与业务App共享独占核 • Cpushare模式，与应用容器共享物理机Cpu资源 • 根据具体业务情况设置Cpu资源内存 • 使用应用内存的1/16 • 与业务Share内存，最大限制使用1G，存在超卖问题，触发Pod 级别的direct 级别的direct reclaim问题磁盘 • Sidecar与业务容器共享磁盘，并且不受容器启动顺序对磁盘分配的影响，单独mount配置文件 • 不同业务不同资源占用的精细化调配性能问题 GOMAXPROCS ：Cpu消耗与RT的tradeoff 优化GC策略升级1.12版本，MADV_FREE，MADV_DONTNEED带来的影响 Chan的吞吐极限，减少主业务数据的传递 CGO对于TLS

0 码力 | 46 页 | 19.93 MB | 6 月前
3
金融级云原生 PaaS 探索与实践

面向站点级别输出7/20 PaaS 能力 • 面向多租户多环境； • 基础资源管控； • 应用发布运维体系； • 业务实时监控，日志收集； • 机房级和地域级容灾能力; 业务背景业务背景 CAFÉ API Server Aggregation Layer 异地多活架构同城双活架构 K8S API Server 基础发布运维跨集群应用资源管理 IaaS层（Aliyun/OpenStack/VMWare/Bare Router/ENI) CSI Plugins (NAS/OSS/Cloud Disk/Ceph) 网络接入 (SLB/ALB) 容器层跨集群管理单元化能力容器镜像管理批次发布原生资源管理 Pod伸缩管理集群伸缩管理变更管控配额管理运维原子操作精细化调度接入层流程调拨应用层流量调拨跨集群状态分发/汇聚数据层流量调拨压测/灰度流量管理单元化  业务弹性建站管控统一； • 可扩展：  多租硬隔离；  体量（单集群内节点数 1w+，Pod 10w+），集群数量多；多集群管控11/20 多集群管控联邦核心能力 • 跨集群资源同步  Template,Override,Placement 模型;  状态回流；  扩展 CRD； • 跨集群发现12/20 联邦架构 • 关系型存储；  数据量  容灾 •

0 码力 | 20 页 | 1.71 MB | 6 月前
3
微博Service Mesh实践

…… RestFul API 业务部⻔门 Motan ➢ 业务部⻔门语⾔言种类繁多 ➢ 微服务体系建设不不完善/重复 ➢ ⽹网络抖动，dns不不稳定 ➢ 4，7层冗⻓长调⽤用链及资源消耗 4,7层调度Service Mesh Meetup · BeiJing 趋势 �6 微博Service Mesh实践 - WeiboMesh 微服务 1 容器器化 2 DevOps Mesh实践 - WeiboMesh • 服务交互 • 服务发现 • 服务路路由 • 服务治理理 • 跨语⾔言序列列化 • 批量量请求 • 资源服务化 • 兜底逻辑 Mesh Light Client SM 功能功能强化 Go 并发适配不不同语⾔言Service Mesh Meetup · BeiJing Weibo 1-跨语⾔言服务化 3-可靠的Transport 5-Http、Web⾃自动转RPC 2-服务治理理与业务逻辑解耦 6-适合⾮非云，混合云等，适配Registry⽀支持云原⽣生 4-节省资源Service Mesh Meetup · BeiJing Weibo Mesh在业务应⽤用中的效果 �35 微博Service Mesh实践 - WeiboMesh Mesh VS HTTP

0 码力 | 43 页 | 1007.85 KB | 6 月前
3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

的探索和创新成为可能 • ASI (k8s) + 容器 (runc / runv / kata / ..) + 神龙 = 阿里云原生化的最佳组合 • 最大的电商平台之一，并池最佳化资源利用率 • 大规模混部、优先级差异化提升资源使用效率 • Alibaba Serverless Infrastructure (ASI) 的基石上云效率提升物理机 (云下) 神龙裸金属 (云上) 交付周期周分钟级全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine Operator未来工作 • 稳定性、资源利用率、运维效率 • 基于安全容器的新混部架构 • 全业务上云、Serverless 演进 • 精细化观测和全链路诊断❖ No data, No BB ❖ Automate Everything

0 码力 | 21 页 | 7.81 MB | 6 月前
3
Service Mesh 高可用在企业级生产中的实践

PS/QPS阀值，如果超了阀值则系统就会不响应用户请求或响应的非常慢，因此我们最好进行过载保护，防止大量请求涌入击垮系统。 • 服务限流其实是指当系统资源不够，不足以应对大量请求，即系统资源与访问量出现矛盾的时候，我们为了保证有限的资源能够正常服务，因此对系统按照预设的规则进行流量限制或功能限制的一种方法。 • 限流的目的是通过对并发访问/请求进行限速或者一个时间窗口内的的请求进行限

0 码力 | 38 页 | 1.38 MB | 6 月前
3
严选 ServiceMesh 实践

流量复制：不提供 × 故障转移：继承 Nginx 的 Failover 机制 √ 安全访问控制：主要依靠中间件 × 中间件治理控制熔断降级：主要依靠中间件中间件限流：速率限制 √ 中间件资源隔离：主要依靠中间件中间件故障注入：不提供 × 超时控制、重试、重写、重定向等：继承 Nginx 的 timeout 机制 √ 监控/故障诊断链路追踪：主要依靠中间件 APM APM 负载均衡：支持 RR、权重、一致性 Hash 等 √ 流量复制：Envoy 自带 √ 故障转移 √ 安全访问控制：RBAC vs Mixer √ 治理控制熔断降级 √ 限流 √ 中间件资源隔离 √ 故障注入 √ 超时控制、重试、重写、重定向等 √ 监控/故障诊断链路追踪：主要依靠中间件 APM APM 性能监控：主要依靠中间件 APM APM 遥感数据：主要依靠中间件 APM 分析请求来源及去向 06.问题定位与诊断 • 服务元数据定义：服务等级、服务集群、服务器规格及环境 • 服务地图：可视化的服务关系，如业务拓扑、服务依赖拓扑，集群视图 01.服务定义 • 限流、资源隔离、熔断、降级等配置 • 负载均衡：流量调配、分流、切流量等 • 服务路由 • 访问控制配置 03.调用控制 • 不可变信息配置 • 动态配置、实时下发 • 支持环境、集群等区分维度

0 码力 | 25 页 | 2.07 MB | 6 月前
3

共 19 条前往

页

分类

语言

格式

深入 Kubernetes 的无人区-蚂蚁金服双十一的调度系统

蚂蚁金服双十一 Service Mesh 超大规模落地揭秘

Service Mesh的实践分享

陌陌Service Mesh架构实践

蚂蚁金服网络代理演进之路

金融级云原生 PaaS 探索与实践

微博Service Mesh实践

阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

Service Mesh 高可用在企业级生产中的实践

严选 ServiceMesh 实践