阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践全称:弹性裸金属服务器(神龙) • 阿里造“神龙”神龙 X-Dragon • 优势: • 性能 • 弹性 • 支持再虚拟化 2017/10 阿里云神龙正式商用 (AWS Nitro 2017/11)技术选型 • 全面上云为什么要用神龙? • 高性能:去掉了虚拟化带来的 8% 的性能损耗 • 支持二次虚拟化:使多样虚拟化技术 (Kata, Firecracker 等) 的探索和创新成为 可能 • Infrastructure (ASI) 的基石上云效率提升 物理机 (云下) 神龙裸金属 (云上) 交付周期 周 分钟级 弹性扩缩容 - 支持 性能 独占 独占 (优于普通ECS) 硬件故障率 硬盘1年故障率 2% 0.8%% (无本地盘) 硬件维修周期 [周, 月] [分钟,天]成本 效率 稳定云化架构 物理机 + 本地存储 + Underlay网 络 神龙/ECS + 远程存储 + Overlay网络 RedeployInstance (doc) 本盘数据不能 迁移运维实践 - 宕机率分析 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态0 码力 | 21 页 | 7.81 MB | 6 月前3
大规模微服务架构下的Service Mesh探索之路敖小剑6月初在深圳举行的GIAC全球互联网架构大会上,蚂蚁金服第一次对外 透露了开发中的Service Mesh产品——Sofa Mesh。 今天我们将展开更多细节,详细介绍蚂蚁金服Sofa Mesh的技术选型, 架构设计以及开源策略。 前言技术选型 Technical 1ü 性能要求 • 以蚂蚁金服的体量,性能不够好则难于接受 • 架构与性能之间的权衡和取舍需要谨慎考虑 ü 稳定性要求 • 以蚂蚁金服的标准,稳定性的要求自然是很高 非常有意思的轻量ServiceMesh实践 • 从Istio中剥离Pilot和Envoy • 去掉Mixer和Auth • 定制Pilot,实现ETCD Adapter • 脱离k8s运行Sofa Mesh在技术选型时考虑 Envoy • 数据平面:Envoy最符合要求 • XDS API的设计更是令人称道 • C++带来的技术栈选择问题 • 我们有太多的扩展和定制 • 而且,proxy不仅仅用于mesh0 码力 | 37 页 | 7.99 MB | 6 月前3
蚂蚁金服双十一 Service Mesh 超大规模落地揭秘Service Mesh 解耦了业务开发与基础团队之前的耦合 应用代码 业务应用开发 基础设施开发 Mesh 化10 三、方案落地 方案落地11 最终选型:自研数据面+轻量 SDK,我们给出的答案是 MOSN。 方案落地-选型 开源/自研:全部迁移到 envoy?不现实,自有协议+历史负担。 SDK/透明劫持:运维和可监控性不好,性能不高,风险不太可控。12 方案落地-目标架构0 码力 | 26 页 | 2.71 MB | 6 月前3
云原生开放智能网络代理 MOSNMEM 15M RT 0.2ms 极低消耗 100% 1~2 次/年 10+次 /月 快速迭代4/10 这两年,MOSN 如何走过 2017年底 开始调研 Service Mesh 技术选型以及接入层变革 的思考 2018年春节 第一行代码 2018年5月 以 SOFAMosn 项目名开源 2018年11月 内部正式启动落地 Service Mesh 2019年4月 落地第一个应用0 码力 | 12 页 | 1.39 MB | 6 月前3
陌陌Service Mesh架构实践是否有替代方案 是否可接受成本 是否能兑现价值 观察阶段 试验阶段 评估阶段 启动阶段 思考 行动12/24 实践 /03 Service Mesh架构在陌陌的落地实践13/24 方案选型 与现有架构的兼容性 现阶段的关键需求 技术储备与原则类因素 自研数据平面与 控制平面方案 使存量服务接入Mesh 方案 对接大量内部系统 关键收益均由数据平面产生 非完善的控制平面功能0 码力 | 25 页 | 1.25 MB | 6 月前3
蚂蚁金服网络代理演进之路高效接入 访问加速 容量 稳定性 高可用 灵活弹性 安全合规 防攻击蚂蚁金服网络接入十年变迁 2010年前部署商用设备 前世 01 2010 开始网络代理白盒 化,定制业务逻辑,软 硬件一体解决方案 自研 02 2015 年无线通道协议,安 全升级, 连接收编 All in 无线 03 PC时代 移动时代 万物互联云原生时代 2018 年协议,安全持续升 级(QUIC,MQTT,国密), Keycenter HTTP1 TLS1.2 MMTP Mtls MQTT HTTP2 TLS1.3 QUIC 国密 硬件加速 安全合规 Spanner LVS(四层负载) DNS LDC2 Spanner Spanner APP APP APP APP Keycenter 硬件加速 安全合规 亿级用户同时在线 千万级每秒RPC请求 百万级每秒推送Spanner 2010 • 自研,网络设备白盒化 自研,网络设备白盒化 • 全面实践全网https 2012 • 首次全流量支撑双十一大促 2013 • 支持蚂蚁LDC架构,三地五中心容灾架构 • 全面上线SSL加速卡,提供软硬件一体加速方案 2015 • All in 无线,通信通道全面升级(MMTP,MTLS协议) 2016 • 安全防护能力提升,WAF,流量镜像 2018至 今 • 通信协议,架构,安全再次升级(物联终端接入,QUIC协议,国密,可信计算,0 码力 | 46 页 | 19.93 MB | 6 月前3
Service Mesh 发展趋势(续) 蚂蚁金服 | 骑士到中盘路向何方?Director 官方文档如是说:“按您的节奏进行现代化改造”Part 3:ServiceMesh灵魂拷问三:要不要支持虚拟机? 托管式实例组:效仿容器和k8s的方式来管理虚拟机 容器的硬件配置 实例模版的硬件配置 硬件 镜像文件的基础镜像 实例模版的操作系统配置 操作系统 镜像文件 自动启动脚本 创建应用 启动业务容器 按照实例模版启动虚拟机+应用 启动应用 k8s replicaset 通过实例模版设置实例数0 码力 | 43 页 | 2.90 MB | 6 月前3
Service Mesh 高可用在企业级生产中的实践Hash) • 实例容错 • Fail-fast • Failover • Failresnd34/总页数 治理策略 & 高可用 – 总结 • 从手段看高可用 • 从架构看高可用 • 从硬件看高可用 • 从软件看高可用 • 从治理看高可用 本质35/总页数 写在最后 – 开源与社区 • 什么是开源? • 事物规划为可以公开访问的,因此人们可以修改并分享。 • 也泛指一组概念:开源的方式!0 码力 | 38 页 | 1.38 MB | 6 月前3
SOFAMOSN持续演进路径及实践分享Gateway MOSNG Serverless 高性能统一转发平面 下一代微服务体系 下一代网络接入系统 运维/流量调拨/监控/… 零信任 安全体 系 基于可靠沙箱的云原生运行时 异构硬件蚂蚁金服内部大规模落地 Ø覆盖核心链路应用 Ø 支撑第五代运维架构, 第五代微服务体系,新一代网络接入体 系,融合接入层、网关层、中间件技术体系,提供高性能、跨语 言的服务化通信能力 Ø 支撑零信任、微隔离的新一代安全防护体系0 码力 | 29 页 | 7.03 MB | 6 月前3
Service Mesh是下一代SDN吗:从通信角度看Service Mesh的发展Filter, 能否可以成为一个通用的接口协议? 是否会出现Envoy之外的大量数据面实现? • 建议:对xDS接口进行改进,去掉实现相关内容 Ø Service Mesh的发展 • 控制面对数据面软硬件的统一控制能力? • 通过控制面API接入各种丰富的应用场景 - 下一个热点?总体架构-高层视图 DexMesh控制面 MSB-SDClient MSB-Consul Jaeger DexMesh数据面0 码力 | 27 页 | 11.99 MB | 6 月前3
共 11 条
- 1
- 2













