逐灵&木苏-阿里巴巴 K8S 超大规模实践经验曾凡松、汪萌海 阿里云云原生应用平台 阿里巴巴 k8s 超大规模实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •曾凡松(逐灵),当前主要负责 k8s 在阿里巴巴场景中的规模化落地,将 k8s 应用于阿里最核心的业务,帮助客 户以云原生的方式管理应用并获得效率、 稳定性及成本的改善。 •汪萌海(木苏),经历了阿里巴巴集团 集群调度从自研 sigma 系统迁移到 Scheduler云原生应用管理演进路线云原生应用管理的特征 • 标准化 • 开放 • 一次定义,随处运行 https://openappmodel.io 联合推出 开放云原生应用模型OAM 的应用定义与架构模型Thank you ! fansong.cfs@alibaba-inc.com menghai.wmh@alibaba-inc.com 关注“阿里巴巴云原生”公众号 回复 11240 码力 | 33 页 | 8.67 MB | 6 月前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
云计算白皮书深度挖掘云计算产业价值。我国政策指引云计算应用创新,持续推 动云计算与实体经济融合走深。 二是全球云计算市场稳定增长,我国保持快速发展。2022 年, 全球云计算市场规模为 4,910 亿美元,增速 19%,预计在大模型、 算力等需求刺激下,市场仍将保持稳定增长,到 2026 年全球云计算 市场将突破万亿美元。2022 年,我国云计算市场规模达 4,550 亿元, 较 2021 年增长 40.91%。相比于全球 年同比下降 13.5%。虽然受通胀压力和 宏观经济下行的双重影响,2022 年云计算市场增速下降明显,但对 比全球整体经济仅 3.4%的增长,云计算仍然是新技术融合和业态发 展的重要手段。预计在大模型、算力等需求刺激下,市场仍将保持 稳定增长,到 2026 年全球云计算市场将突破万亿美元。 来源:Gartner,2023 年 4 月 图 1 全球云计算市场规模及增速(亿美元) 1《Gartner 84%以上,是全球所有地区中最高的。以印度为例,2022 年其云支 出增长了近 22%,与欧洲地区几乎持平。同时,印度有 91%的基础 云计算白皮书(2023 年) 6 设施决策者已至少使用一种云部署模型,有 46%的应用程序项目已 部署在云上,预计 2023 年这一比例将上涨到 58%。从供给侧来看, 目前,AWS、微软、谷歌等云服务商均有 1/3 以上的可用区部署在 亚太地区。以 AWS0 码力 | 47 页 | 1.22 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统等技术可做到计算安 全隔离,存储隔离且获得本地 磁盘同等IO能力 , 可以把整个集群像Docker 一样打包,一键交付 , 有轻量化、超高性能、极易管 理等特点 自研 负载均衡器, 可支撑超大规模数万节点 集群运行 ,运行速度全球领先,毫秒级发布 更高稳定性 实现安全隔离 轻量化 数万节点集群运行 运行速度 全球领先 超高性能 极易管理 使用场景 私有云 完全 离线 公有云 (InfoQ, 2019) 集群生命周期管理 创建集群 装其它应用 增删集群节点 离线交付 sealos build 轻量级负载均衡器 完全取代 Haproxy Keepalived 支撑超大规模 完全横向扩展 Sealos 绝大多数能力通过 CRD 扩展,以保持与 kubernetes API 完全兼容。 可以复用 k8s API 的强大能力, 而且生态的各种 SDK 可以直 接使用。0 码力 | 29 页 | 7.64 MB | 9 月前3
DaoCloud Enterprise 5.0
产品介绍云原生底座 提供云原生计算、网络、存储等能力,兼容各种集群接入,支持集群从部署、版本升 级、证书变更、配置变更、回收等全生命周期管理,突破 K8s API 性能瓶颈,实现企 业超大规模用户并发使用多集群。针对企业环境,提供场景化的网络方案,实现当前 企业网络基础设施复用的最大化,降低企业使用云原生应用门槛。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储 模块化搭建0 码力 | 18 页 | 1.32 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 互,例如 ChatGPT 或 Google Bard。生态中的主要竞争者(例如 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容 。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问 答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利用技术克服地理限制,但疫情的影响进一步推动了这一领域的创新,巩固了向 完全远程或混合工作演进的趋势。在本期技术雷达中,我们讨论了远程软件开发实践和工具的成熟,和团队们0 码力 | 43 页 | 2.76 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 部署与企业对接 AI Kubernetes 融合与架构解析 AI 云平台的价值 • 为 AI 工程师提供一体化的研发工作环境 • 为 AI 对于硬件资源需求提供弹性伸缩 • 为 AI 模型在生产环境中部署及运行提供保障 AI 模型实现工具及其框架举例 • 不同的框架和工具都有其优点长处。 AI 工程师工作流程 存储对接 • 存储通常都由云平台 通过SaaS服务提供 • 在 AI 平台中对于存 AI 工具及其研发框架的整合 模型训练资源池管理 • AI 模型训练会耗费巨大的资源并且长时间占用 • 多个用户在模型训练时需要通过队列的方式来解决资源短缺 问题 • 需要对不同用户进行资源池划分 模型管理与发布 • 模型发布: • 模型服务的负载均衡 • 硬件资源的规划 • 模型管理: • 模型的版本 • 模型的类型 研发环境与生产环境隔离0 码力 | 77 页 | 14.48 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练时间(hours) 单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开源项目由李浩源博士(Alluxio公司CEO)在加州大学Berkeley分校 AMPLab就读期间创立0 码力 | 22 页 | 11.79 MB | 1 年前3
Kubernetes 入門redis-master 1-42 Kubernetes 入門 1 1.4.9 小結 上述這些元件是 Kubernetes 系統的核心元件,它們共同構成 Kubernetes 系統的框 架和運算模型。透過對它們進行靈活組合,使用者就可快速、方便地對容器叢集進 行配置、建置和管理。 除了以上核心元件,在 Kubernetes 系統中還有許多可供配置的資源物件,例如 LimitRange、R 網路,通常有下列問題需要回答,如圖 2.17 所示。 有哪些開源的元件支援 Kubernetes 的網路模型? 外部如何存取 Kubernetes 的叢集? Kubernetes 的網路元件之間是如何通訊的? Docker 自身的網路模型和限制? Docker 背後的網路基礎是什麼? Kubernetes 的網路模型是什麼? 圖 2.17 Kubernetes 常見問題 在本節將分別回答這些問題, 在本節將分別回答這些問題,然後透過一個具體的試驗,將這些相關的知識串聯在 一起。 2.5.1 Kubernetes 網路模型 Kubernetes 網路模型設計的一個基礎原則是:每個 Pod 都擁有一個獨立的 IP 位址, 而且假設所有 Pod 都在一個可以直接連線的、扁平的網路空間中。所以不管它們是 否運行在同一個 Node(Host 主機)中,都要求它們可以直接透過對方的 IP 進行存 取。設計這個原則的0 码力 | 12 页 | 2.00 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites传统工业应用:SCADA, MES, ERP, SAP, ORACLE • 互联网类应用:顺逛,海尔商 城,巨商会,海尔服务,好空 气,海尔洗衣机,海尔优家, 嗨付,够花 • 应用:统一架构模型,统一服 务总线 • 体系:用户体系,产品体系, 流程体系 • 管理:服务集成,统一管理 应用互联互通 应用形态复杂 • KPI: 峰值CPU利用率不低 于30% • 资源申请:按峰值30%进 才云数据解决方案 Clever 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工 具;管理数据预处理批作业。 模型开发 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 边缘计算场景 1. 海尔在全球有许多工厂 2. 工厂里的机器不多 3. 这些机器上跑了一些容器服务 40 码力 | 33 页 | 4.41 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4













