运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达© Thoughtworks, Inc. All Rights Reserved. 1 针对当今科技领域发展的前沿指南 技术雷达 第 29 期 | 2023 年 9 月 © Thoughtworks, Inc. All Rights Reserved. 2 关于技术雷达 3 雷达一览 4 贡献者 5 本期主题 6 本期雷达 8 技术 11 平台 19 工具 25 革命是 我们的使命,Thoughtworks 技术雷达就是为了 完成这一使命。它由 Thoughtworks 中一群资深 技术领导组成的技术顾问委员会,通过定期讨论 Thoughtworks 的全球技术战略以及对行业有重 大影响的技术趋势而创建。 技术雷达以独特的形式记录技术顾问委员会的讨 论结果,从首席技术官到开发人员,雷达将会为各 路利益相关方提供价值。这些内容只是简要的总结。 我们建议您探索雷达中提到的内容以了解更多细 节。技术雷达的本质是图形性质,把各种技术项目 归类为技术、工具、平台和语言和框架。如果技术 可以被归类到多个象限,我们选择看起来最合适的 一个。我们还进一步将这些技术分为四个环以反映 我们目前对其的态度。 想要了解更多技术雷达相关信息,请点击: thoughtworks.com/cn/radar/faq © Thoughtworks, Inc0 码力 | 43 页 | 2.76 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开0 码力 | 22 页 | 11.79 MB | 1 年前3
2.2.4 基于Kubernetes的私有云实战基于Kubernetes的私有云实战 ⾼川 P1 ⽬ 录 为什么要建设私有云 01 公司当前技术现状 02 私有云建设⽅案 03 私有云建设收益 04 遇到的问题 05 未来规划 06 为什么要做私有云? 公司规模扩⼤⾯临的常态问题 • ⾼速增⻓的业务和低下的资源利⽤率 • 需要⾼效的扩缩容和部署效率 • 复杂的业务场景带来了层出不穷的异构机型 • ⾼昂的机房成本投⼊ 公司当前的技术现状 公司当前的技术现状 微服务现状 •服务数量暴涨 •资源需求暴涨 •部署效率急需提高 •研发期望独占资源 服务治理现状 •Homebrew microservice •配置手工管理 •L7划分不清,耦合业务逻辑 •SDK能发现grpc发现不了http 部署环境现状 •复杂的环境管理和大量的AB服 务产生了复杂的部署系统 •AB服务是中短期资源消耗型服 务,要求交付快释放快 务,要求交付快释放快 上云前的现状 •大量物理机部署 •技术栈单一,90%为golang •最多时有200个AB服务,均单独部署 •研发有在机器上调试的需求 私有云建设⽅案 Kubernetes提供了什么 •Pods •Services •DNS •ConfigMaps 整体思路 • 容器能不能做无状态的“物理机”来用?不用它的服 务发现,不用它的负载均衡,不用它的配置中心。0 码力 | 47 页 | 10.67 MB | 1 年前3
基于 KUBERNETES 的 容器器 + AI 平台KUBERNETES 的 容器器 + AI 平台 如何助⼒力力企业数字化和智能化转型 xiaoqin@caicloud.io VP of R&D 提纲 构建集群与管理理资源 - 73s 视频演示 多集群和镜像仓库 多租户和旧系统的集成 运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多集群和镜像仓库 • 企业想要的 • 隔离性和安全性 • 容错性与混合云 • 功能多样性与上线流程 • 如何实现 • K8s - 单『控制集群』, 多『⽤用户集群』 • 镜像仓库 - 单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 • 其他企业需要的优化功能 企业典型的多租户模型 租户 Tenant User User group Namespace Deployment Registry project CI/CD0 码力 | 19 页 | 3.55 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production SitesCompass: 打通业务与数据、从数字化到智能化转 型 • Clever: 基于容器的 AI PaaS 平台(AI Devops、资 源管理任务调度) 工业互联网平台 - 制造业大势所趋 • 全球工业互联网平台数量 > 150 国家 研究内容 代表成果 政策扶持 工业互联网综合平台,采用数据流打通与 数据分析衍生价值的结构 Predix平台 GE联合AT&T, CISCO, IBM, INTEL等企业组建工业互联网 联盟(IIC), 发布参考架构IIRA. 基于云的开放式物联网操作系统,实现全 面的系统集成和数据融合,打破数据孤岛 Mindsphere平台 德国联邦政府支持相关行业协会建设工业4.0平台,负 责工业4.0国家战略的宣传推广,标准制定,人才培养 和技术研发。 以工业大数据为驱动,以云计算,大数据, 物联网技术为核心的工业互联网开放平台, 实现产品,机器,数据,人的全面互联互 通和综合集成 INDICS平台 INDICS平台 根云平台 COSMOPlat平台 … 2017年11月,国务院印发了《关于深化“互联网+先进 制造业”发展 工业互联网的指导意见》(以下简称: 《指导意见》),明确将打造平台 体系作为七大任务之 一,提出构建工业互联网标准体系,实施标准研制及 试验验证工程。 • GE 波音 罗克韦尔 IBM INTEL CISCO 微软 AT&T PTC HP DELL EMC • SAP 博士 SIEMENS0 码力 | 33 页 | 4.41 MB | 1 年前3
Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践扩展 K8s 的最佳实践 吴学强 ApeCloud KubeBlocks Maintainer & 研发总监 目 录 认识我们 00 什么是 Operator 01 Operator 基础模型 02 Operator 最佳实践 03 我们是谁 云猿生(ApeCloud)是一家提供数据库内核与管理平台的基 础软件开发商. KubeBlocks 基于 K8s 的多云、混合云DBPaaS管理平台 的多云、混合云DBPaaS管理平台 ,支持MySQL、 PostgreSQL、Redis、MongoDB、Kafka等开源数据库的自动化 运维。 云猿生于2022年5月份成立,总部坐落于杭州,并同期设立 北京分公司。公司是云原生计算基金会(CNCF)会员企业, 信通院数据库应用创新实验室成员,并入选杭州市2023准 独角兽企业榜单。 我是谁 毕业即创(shi)业 从被收购到卷王(si) 回到初(qi)心(dian) (ThirdPartyResource),首次尝 试解决 K8s API 的扩展性问题, 但存在诸多问题,Alpha 阶段既 夭折 CoreOS 提出 Operator 概念,用 于管理和运行基于应用程序领 域的复杂有状态应用程序。 给出了用 TPR + controller- runtime 早期版本的 sample: etcd operator K8s 1.9 版本发布,CRD进入0 码力 | 21 页 | 3.06 MB | 9 月前3
QCon北京2017/支撑海量业务的互联网架构/知乎基于 Kubernetes 的 Kafka 平台探索和实践Kubernetes 的 Kafka平台 探索和实践 知乎 ⽩白瑜庆 ⾃自我介绍 知乎技术平台⼯工程师 负责 Kafka 和数据库平台 曾在新浪和⾦金金⼭山云负责镜像流量量分析项⽬目 纲要 Kafka 在知乎的应⽤用 为什什么做基于 Kubernetes 的 Kafka 平台 基于 Kubernetes 的 Kafka 平台实践 Apache Kafka 分布式的流式数据平台 ⾼高吞吐 Topic Producer Consumer 平台承载知乎业务⽇日志、数据传输和消息队列列服务 平台线上稳定运⾏行行 基于 Kubernetes 的 Kafka 集群 13 个, 1000+ Topic 知乎技术平台重要的组件 Kafka 在知乎的应⽤用 平台概览 Kubernetes 多 Kafka 集群 监控 服务 注册 Kafka 客户端 平台 API • 多集群 • ⾼高可⽤用 Kafka 集群⽅方式 根据 Topic 类型划分集群 同⼀一类型 Topic 的集群细分 • Topic 服务等级、容量量和规模划分 资源规划 多变需求引发集群规模增⻓长 • Broker, Topic 规模 服务器器资源利利⽤用率 • 单机运⾏行行多 Broker ⽅方式 多集群问题 磁盘是不不得不不考虑的问题 • ⽇日志落盘,⽇日志失效 ⽅方案 • Broker 之间物理理磁盘隔离0 码力 | 34 页 | 2.64 MB | 1 年前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版开源的轻量量级 Kubernetes 发⾏行行版 2021 年年 6 ⽉月 1 2 企业在云原⽣生时代的挑战 3 KubeOperator 开源容器器平台的技术优势 KubeOperator 开源容器器平台企业版 云原⽣生(Cloud Native)正在吞噬世界 云原⽣生的三个维度 企业本地部署 公有云 + 物理理资源 虚拟化资源 容器器化资源 瀑布模型 敏敏捷开发 开发模式 3. 应⽤用架构 vs. 云原⽣生能⼒力力建设的两个选择 ALL IN ONE 解耦⽅方式 采纳⼀一站式 PaaS 平台,⽐比如 OpenShift 容器器平台、DevOps、微服务:三者分开建设 企业的云原⽣生之旅 集群 规划、部署和运营 1 多集群 统⼀一管理理 2 基于 K8S 的 PaaS 服务 3 微服务架构 4 DevOps 5 5 - 规划、部署和运营⽣生产级别的 Kubernetes 集群是企业踏上云原⽣生之旅的第⼀一步 - ? Kubernetes 集群规划、部署和运营中所⾯面临的问题 Day0 规划 Day1 部署 Day2 运营 a. 开发测试使⽤用,还是⽣生产使⽤用? b. 部署在物理理机上,还是 IaaS 上? c. ⽤用哪种⽹网络⽅方案,服务如何暴暴露露? d. ⽤用哪种持久化存储?0 码力 | 20 页 | 1.62 MB | 1 年前3
KubeCon2020/大型Kubernetes集群的资源编排优化0 码力 | 27 页 | 3.91 MB | 1 年前3
共 65 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













