基于 KUBERNETES 的 容器器 + AI 平台KUBERNETES 的 容器器 + AI 平台 如何助⼒力力企业数字化和智能化转型 xiaoqin@caicloud.io VP of R&D 提纲 构建集群与管理理资源 - 73s 视频演示 多集群和镜像仓库 多租户和旧系统的集成 运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - com/caicloud/cyclone Cyclone 技术架构 云原⽣生 CI/CD 引擎 设计 - 云原⽣生,k8s 亲和性 性能 - 为企业场景优化 扩展性 - ⽀支持 AI ⼯工作流 运⾏行行 AI 应⽤用 KUBEFLOW 的应⽤用 • Kubeflow 社区的联合创始⼈人 • kubeflow/tf-operator • 定义 TFJob Spec (CRD) ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理 • ⼯工作区隔离与共享 • 数据、模型、环境、应⽤用等 • 全⾯面⽀支持 AI ⼯工作流 • 探索开发 • 线上运⾏行行 关注并回复 kubecon18 P7 展台0 码力 | 19 页 | 3.55 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智Kubernetes 与 AI 相结合架构、 落地解析(从 0 到 1 赵慧智 技术总监 (才云科技 Kubernetes 介绍 Kubernetes 使用 Kubernetes 部署与企业对接 AI 技术介绍 AI 云平台介绍及构成 AI 与 Kubernetes 融合与架构解析 • 是一套集自动部署,弹性扩容,并且基于容器的集群管理工 具。 • 快速部署应用程序 上的软件架构:Kubernetes 与 container 通信,Node 的分类 Kubernetes 介绍 Kubernetes 使用 Kubernetes 部署与企业对接 AI 技术介绍 AI 云平台介绍及构成 AI 与 Kubernetes 融合与架构解析 Kubernetes 基本概念 - Pod • Pod 是 Kubernetes 中最小 的资源 • 一个 Pod 包含一个或多个 Controller • Volume • Kubectl Kubernetes 介绍 Kubernetes 使用 Kubernetes 部署与企业对接 AI 技术介绍 AI 云平台介绍及构成 AI 与 Kubernetes 融合与架构解析 Kubernetes 企业级架构 ���! OpenStack! �����! PAAS OpenAPI! ����0 码力 | 77 页 | 14.48 MB | 1 年前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛��AI�����K8S��! ���! ��������! AI�������! AI�����! ����K8S! ��K8S�AI��! ������! ������! AI����! AI����! AI�������! AI�����! ����K8S! ��K8S�AI��! ������! ������! AI�����-��! • ��������������� ��������������! AI�����-GPU! • �����! • GPU����������������! AI�����-��! • �����! • IOPS�������������������10T+�! • NFS������! • ����������! • ����������������! AI�����! ����K8S! AI�������! ��K8S�AI��! JOB��! • ����Job�����������������! �������! • ����Prometheus����! • ����ES����! ��K8S�AI��! AI�����! AI�������! ����K8S! ������! ������! �����! ������! Ceph�����! • �������10T+! • �����������0 码力 | 39 页 | 5.82 MB | 1 年前3
涂小刚-基于k8s的微服务实践k8s-service k8s-app-name app-name ai-test ai-dc-server ai-dc-server ai-dc-servedr ai-preview ai-dc-web ai-dc-web ai-dc-web ai-prod ai-dc-api ai-dc-api ai-dc-api 业务线名称 ai dt ad 现有环境名 test preview k8s-app-name 容器host应用名称,deployment 名,通过配置文件关键字关联业务线应用名称,保持应用和k8s之间的关联。 规范 范例 应用名称 ai-dc-server ai-dc-web ai-dc-api 镜像版本和git版本库规范 制定git版本规范,开发提交合并master代码,git版本库和业务版本进行关联,出了问题好定位问题。 采用docker容 仓库域名+路径 空间名 应用名称 日期-时间戳 git版本库 镜像完整地址 registry.hz.local/huize ai-test ai-dc-web 20190510-1033 v20 registry.hz.local/huize/ai-test_ai-dc-web:20190510-1033_v20 k8s镜像构建过程 domain/path namespaces app-name0 码力 | 19 页 | 1.34 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达Rights Reserved. 6 AI 辅助软件开发 毫无意外,本期技术雷达主要围绕 AI 相关话题展开讨论。这是有史以来第一次,我们需要一个可视化指南来 理清不同 AI 的类别和功能(即使在 JavaScript 生态系统十分混乱的时期,我们也从未采取过这样的做法)。作 为一家开创 CI、CD 等突破性工程实践历史的软件咨询公司,我们对于使用 AI 辅助软件开发特别感兴趣。因此, 本期技术雷达讨论了许多代码辅助工具,如 用于服务端渲染(SSR)web 应用的 web 组件 采纳 24. Colima 试验 25. CloudEvents 26. DataOps.live 27. Google Cloud Vertex AI 28. Immuta 29. Lokalise 30. Orca 31. Trino 32. Wiz 评估 33. ActivityPub 34. Azure Container Apps 35 个作为自主代理的客户服务聊天机器人。如 果机器人无法达成客户的目标,它会认识到自己的限制并将客户引导到人工处理。这种方法显然仍处于早期发 展阶段:自主代理通常存在高失败率和高昂的 AI 服务费用,至少有一家 AI 初创公司已经从代理为基础的方法转 向其他方向。 20. 平台编排 评估 随着平台工程的广泛采纳,我们看到了新一代的工具,它们超越了传统的平台即服务(PaaS)模型,为开发人0 码力 | 43 页 | 2.76 MB | 1 年前3
云计算白皮书竞争的下一个主战场。 来源:Gartner,2023 年 4 月 图 2 2022 年全球各区域云计算市场规模占比 从厂商层面来看,云计算巨头借助云+AI 等技术优势不断扩大 领先地位。AWS、微软凭借投入时间早、地区布局广、云+AI 等技 术优势,长期稳居全球云计算市场第一梯队。两家巨头厂商在体量 很大的情况下,仍保持快速增长。财报数据显示,2022 年 AWS 和 微软营收分别达到 全新的大数据、区块链、人工智能服务。2022 年谷歌提出开放、可 扩展的“数据云”愿景,构建信息统一化的“数据云”平台。百度 智能云践行“云智一体”发展路线,充分结合 AI 能力与自身云基础 设施能力,发布全栈自研的 AI 大底座。 安全防护方面,云原生安全成为厂商抢占市场的新赛道。近年 来,云原生采纳率大幅攀升,据 Gartner 预测,到 2025 年超过 95% 的应用将会采用云 架构层面,一云多芯既可以贴合多元算力新需求,又能够支撑 业务场景多形态。一云多芯作为云计算的全新技术架构,通常指用 一套云操作系统来管理不同类型芯片、架构、接口、技术栈等硬件 服务器集群。在如今算力需求爆炸的 AI 时代,一云多芯为各行各业 践行数字化转型提供了有力支持。一方面,它可以提供统一管理、 云计算白皮书(2023 年) 17 灵活便捷的算力资源,一定程度上解决了不同类型芯片的共存问题; 另0 码力 | 47 页 | 1.22 MB | 1 年前3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge边缘计算应⽤用场景——智慧园区� ➔ 基于边缘计算打造智慧园区,通过视频监控+AI分析实现从⼈人防到技防,提升园区运营效率,提⾼高园区住户体验。� ➔ 对监控视频智能分析,实时感知⼊入侵、⼈人流量量⼤大等异常事件,降低园区的⼈人⼒力力成本。� ➔ 端侧⼈人脸抓取,视频分析在边缘侧执⾏行行。云端管理理边缘应⽤用全⽣生命周期,⽆无缝升级。云端AI模型训练,边缘侧推理理。� 端� 边� 云� ⼈人脸 检测 模型� 边缘计算⾯面临的挑战� 当前的边缘计算领域主要⾯面临以下五个挑战:� ➔ 协同:AI/安全等业务在云和边的智能协同、弹性迁移。� ➔ ⽹网络:云和边缘之间的⽹网络可靠性和带宽限制。� ➔ 管理理:边缘节点的资源管理理与边缘应⽤用⽣生命周期管理理。� ➔ 扩展:⾼高度分布和⼤大规模的可扩展性。� ➔ 异构:边缘侧异构AI硬件接⼊入。� Why KubeEdge� KubeEdge通过更更 KubeEdge通过更更优的架构和技术实现,完美应对边缘计算遇到的挑战:� ➔ 通过将AI能⼒力力、⼤大数据能⼒力力等延伸到边缘,解决与云上服务的数据协同、任务协同、管理理协同、安全协同诉求。� ➔ 通过数据本地化处理理、边缘节点离线⾃自治,解决了了云和边缘之间的⽹网络可靠性和带宽限制的问题。� ➔ 通过⼤大幅优化边缘组件的资源占⽤用(⼆二进制⼤大⼩小约46MB,运⾏行行时内存占⽤用约10MB),解决了了边缘资源的约束问题。�0 码力 | 20 页 | 2.08 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio AMPLab就读期间创立 2013 2015 由硅谷著名投资公司Andreessen Horowitz投资,公司在2015年在 旧金山湾区成立,致力于推动开源项目和社区以及商业化 8 面向大数据和AI应用的内存级数据编排系统 数据编排层(Data Orchestration) Java File API HDFS Interface S3 Interface REST API POSIX Interface POSIX接口客户端 Alluxio 服务器 Alluxio 服务器 大数据查询 大数据ETL 模型训练 Alluxio核心功能三:统一的文件系统抽象 Alluxio 服务器 Alluxio在云端AI训练场景的性能好处 • 支持大规模的数据缓存 • 本地内存加速 • 支持数据预热 • LRU缓存管理 Object storage (Fuse) Worker (local) Worker0 码力 | 22 页 | 11.79 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production SitesKubeflow Chinese community initiator • 企业级产品与解决方案 • Compass: 打通业务与数据、从数字化到智能化转 型 • Clever: 基于容器的 AI PaaS 平台(AI Devops、资 源管理任务调度) 工业互联网平台 - 制造业大势所趋 • 全球工业互联网平台数量 > 150 国家 研究内容 代表成果 政策扶持 工业互联网综合平台,采用数据流打通与 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 Netflix Config Server (git based)0 码力 | 33 页 | 4.41 MB | 1 年前3
KubeCon2020/腾讯会议大规模使用Kubernetes的技术实践CI, Security Platform, etc. • Declarative application lifecycle management. • Support big data and AI jobs. • Optimize the isolation of resources, and improve resource utilization using hybrid deployment TKEx Architecture EKS (Elastic Kubernetes Service) TKE (Tencent Kubernetes Engine) TKEx AI Training Jobs Big Data Jobs Online Services NodeProblemDetector Dynamic Scheduler DynamicQuotaManager0 码力 | 19 页 | 10.94 MB | 1 年前3
共 17 条
- 1
- 2













