KubeCon2020/大型Kubernetes集群的资源编排优化0 码力 | 27 页 | 3.91 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌0 码力 | 22 页 | 11.79 MB | 1 年前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智层面提供的 API 来达到上层可以容器化应 用程序。 Container VS VM (Virtual Machine) 由于采用系统当前的内核,Container会启动加载更快,更 轻量,并且更省资源。 Container Image 用来将需要容器化的应用程序及其环境进行打包后存储的镜像。 • 通常会有一个 Image 管理仓库来存储 Image。 • 同一个 Image 会有版本记录。 Docker/rkt • kubelet • kube-proxy Kubernetes 基本概念 - Master Master 节点是 Kubernetes 环境中的管理节点,负责整个集群 的资源管理/分配,容器编排。一个 Master 节点包含如下组件: • kube-controller-manager • kube-apiserver • kube-scheduler Kubernetes AI 技术介绍 AI 云平台介绍及构成 AI 与 Kubernetes 融合与架构解析 Kubernetes 基本概念 - Pod • Pod 是 Kubernetes 中最小 的资源 • 一个 Pod 包含一个或多个 Container • Pod 内的 Containers 可以 共享网络和存储 Kubernetes 基本概念 - Service • Service0 码力 | 77 页 | 14.48 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模 Actions。通过这种方式,可以避免存储长期的访问令牌来访问云资源,同时确保流水线无法直接访问机密信息。 然而,请务必谨慎地限制访问权限,以确保操作以最低权限运行。 8. 使用 Terraform 创建监控和告警 试验 基础设施及代码(IaC) 已经是一种被广泛采纳用于定义和创建托管环境的方法。尽管这个领域的工具和技术不 断发展,但 Terraform 仍然是 IaC 方式管理云原生资源的主要工具。然而,当下大多数托管环境都是云供应商 师通常会使用 Terraform 处理 云资源,又使用自定义脚本处理其他资源。这可能导致资源创建过程缺乏一致性和可重复性。事实上,在托管环 境中常用的许多第三方服务 Terraform 都提供了相应的支持程序,可以用来创建和配置这些服务,例如 Splunk、 Datadog、PagerDuty 和 New Relic。因此,我们建议团队除了云资源外,还应使用 Terraform 创建监控和告0 码力 | 43 页 | 2.76 MB | 1 年前3
云计算白皮书....................................................... 26 (一)数字应用方式与算力资源供给的变革,推动云计算作用转变.......... 26 (二)云计算管理方式不断革新,向下定义算力资源使用新方式.............. 27 (三)云计算持续发挥创新孵化效用,向上定义数字应用新界面.............. 30 四、云计算加速催生算力服务新范式 注重敏捷迭代,提升 效率。用户对加速创新,缩短研发周期,提高迭代效率的需求日益 增大,以 Serverless(服务器无感知)、低/无代码为代表的技术能够 屏蔽复杂的底层基础设施,让用户以最低学习成本、最小使用代价 最大化释放云的生产力,实现快速创新。AWS 贯彻全面 Serverless 化战略,提供计算、存储、数据库等全领域的 Serverless 服务。微软 发力低/无代码领域,其发布的 年 12 月,国务院发布《扩大内需战略规划纲要(2022-2035 年),提出 云计算白皮书(2023 年) 10 要加快建设信息基础设施,推动云计算广泛、深度应用,促进“云、 网、端”资源要素相互融合、智能配置。2023 年 1 月,工业和信息 化部等六部门出台《关于推动能源电子产业发展的指导意见》,明确 指出要加快云计算技术推广应用。2023 年 4 月,工业和信息化部等 八部门发布《关于推进0 码力 | 47 页 | 1.22 MB | 1 年前3
石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版通过租户体系保证租户 资源相互隔离,支撑多 租户场景 通过安全体系来保障 DevOps过程中的安全问 题 项⺫管理 快速迭代开发,更短的发布周期, 并统⼀流程,规范化管理 持续交付 提⾼部署的效率,降低部署的⻛ 险,提⾼部署的质量,消除部⻔ 壁垒,交付过程标准化, 透明化 持续构建与测试 保障代码质量,提升开发效率 知识共享 知识共享与积累,不断完善,持 续学习改进 认证与改进 认证与改进 持续优化, 形成闭环 运维监控 运⾏状态可视化,数据化,降低 部署⻛险,快速反馈 运营统计 全链路指标统计,为持续改进提 供数据⽀撑 学习培训 保障平台使⽤效果,快速实践落 地 DEVOPS⼯具 DEVOPS体系构成 企业级DEVOPS全景图 调度 ⺴络 存储 K8S 基础设施 租户管理与申请 ⼈员初始化 ⾓⾊权限职责 企业场景建设 配额管理 应⽤⺫录 DevOps⼯具链 流⽔线建设 规范 敏捷开发 规范 流程协作与最 佳实践 项⺫管理 进度 管理 范围 管理 质量 管理 ⼈⼒ 管理 ⻛险 管理 沟通 管理 知识共享 知识 库建 设 ⽂档 协作 学习培训体系 培训规划建设 平台培训 ⼯具培训 培训效果评估 LAB 环境建设 标准案例建设 知识库建设培训 成熟度评审 度量驱动改进 认证与改进体系 已选⽤⼯具 JIRA Confluen0 码力 | 33 页 | 7.49 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites应用互联互通 应用形态复杂 • KPI: 峰值CPU利用率不低 于30% • 资源申请:按峰值30%进 行申请 • 峰值:1000TPS, 平时: 100TPS • 做自己擅长的事情,合作 方式开发 • 产品迭代:如何持续演进 和优化 • 外包管理:如何标准化降 低管理成本,提高质量 外包开发模式 资源利用率KPI 01 04 02 03 海尔集团业务转型 - 架构演进 监控日志 基础服务 镜像仓库 认证鉴权 资源管理 面向业务开发 CI/CD 微服务 应用商店 面向业务管理 弹性伸缩 API Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工 具;管理数据预处理批作业。 模型开发 海尔工业互联网 – 才云数据解决方案0 码力 | 33 页 | 4.41 MB | 1 年前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
开源容器器平台的技术优势 KubeOperator 开源容器器平台企业版 云原⽣生(Cloud Native)正在吞噬世界 云原⽣生的三个维度 企业本地部署 公有云 + 物理理资源 虚拟化资源 容器器化资源 瀑布模型 敏敏捷开发 DevOps 统⼀一架构 多层级架构 微服务架构 1. 基础设施 2. 开发模式 3. 应⽤用架构 vs. 云原⽣生能⼒力力建设的两个选择 b. 部署在物理理机上,还是 IaaS 上? c. ⽤用哪种⽹网络⽅方案,服务如何暴暴露露? d. ⽤用哪种持久化存储? e. ⽤用哪种操作系统? a. 如何快速创建主机资源? b. 如何实现⾃自动化⼀一键部署? c. 怎么进⾏行行离线部署? d. 快速部署常⻅见应⽤用并确保兼容性? e. 是否可视化⻚页⾯面,部署⻔门槛? a. 集群如何⽆无缝升级? 集群, 提升资源使⽤用效率 按需修补 快速升级 K8S 集群,与社区版本同步 应⽤用商店 快速在 K8S 中部署和管理理 应⽤用程序 Multi-AZ ⽀支持 Master 节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能0 码力 | 20 页 | 1.62 MB | 1 年前3
基于 Kubernetes 构建标准可扩展的云原生应用管理平台-孙健波、周正喜构建一个具备“以应用为中心的 API 抽象”、“用户友好” 且“高度可扩展”的 K8s! 以应用为中心的 API 抽象 • 应用的工作负载和运维能力的抽象程度越高,用户体验越好 抽象程度 学习曲线 高 低 低 高 Deployment Pod Service Node … PodTemplate Configuration Revision Route $ heroku apps rio run $ rio scale $ rio weight/promote $ rio route $ rio up riofile 抽象程度 vs 可扩展性 • 随着抽象程度的增高可以显著降低学习曲线,但是却不得不在扩展性上妥协 抽象程度 可扩展性 高 低 低 高 CRD + Controllers = Everything 通过编写遵循严格限制 的 Buildpack 和 Addon WebService - image - replicas - port 抽象 Deployment - image - replicas Service - port 原始 k8s API 资源 Workload - image - replicas Rollout - canary ArgoRollout - image - replicas - rollout Deployment0 码力 | 27 页 | 3.60 MB | 9 月前3
共 47 条
- 1
- 2
- 3
- 4
- 5













