 k8s操作手册 2.3systemctl enable docker # systemctl start docker # docker info ★配置docker服务使用systemd去管理(以及信任本地镜像仓库) # vi /etc/docker/daemon.json { "data-root": "/docker_data", "registry-mirrors": [ "h�ps://cof-lee #先查看k8s版本 # GitVersion:"v1.19.4" # kubeadm config images list #查看k8s其他组件的docker镜像名,默认用 k8s.gcr.io/的镜像源地址 k8s.gcr.io/kube-apiserver:v1.19.4 k8s.gcr.io/kube-controller-manager:v1.19.4 k8s.gcr. io/pause:3.2 k8s.gcr.io/etcd:3.4.13-0 k8s.gcr.io/coredns:1.7.0 #可以先下载以上7个镜像,传到每台k8s服务器上,再docker load导入;或者使 用内部registry仓库(内部registry镜像仓库里要有以上7个镜像) ★直接使用命令行方式初始化集群 (以下是非HA模式的master初始化,如果要部署高可用集群,则参考第4章) kubeadm0 码力 | 126 页 | 4.33 MB | 1 年前3 k8s操作手册 2.3systemctl enable docker # systemctl start docker # docker info ★配置docker服务使用systemd去管理(以及信任本地镜像仓库) # vi /etc/docker/daemon.json { "data-root": "/docker_data", "registry-mirrors": [ "h�ps://cof-lee #先查看k8s版本 # GitVersion:"v1.19.4" # kubeadm config images list #查看k8s其他组件的docker镜像名,默认用 k8s.gcr.io/的镜像源地址 k8s.gcr.io/kube-apiserver:v1.19.4 k8s.gcr.io/kube-controller-manager:v1.19.4 k8s.gcr. io/pause:3.2 k8s.gcr.io/etcd:3.4.13-0 k8s.gcr.io/coredns:1.7.0 #可以先下载以上7个镜像,传到每台k8s服务器上,再docker load导入;或者使 用内部registry仓库(内部registry镜像仓库里要有以上7个镜像) ★直接使用命令行方式初始化集群 (以下是非HA模式的master初始化,如果要部署高可用集群,则参考第4章) kubeadm0 码力 | 126 页 | 4.33 MB | 1 年前3
 Kubernetes全栈容器技术剖析集群部署、运维监控增强 ,安全加固 CNCF & Kubenetes 社区  全球TOP3、国内TOP1贡献: 7个maintainer,commits 1200+  OCI 初创成员,是容器镜像格式的规范和实现的主导者  主导核心设计:动态资源调整,各种安全加固措施,增强各种资源 限制,增加ARM64支持,运维增强,容器重启策略 OCI & Docker 社区 CNCF/OCI基金会的初创会员、白金会员, 成员,12个 Maintainer 8 计算(ECS/BMS/ARM) 存储(EVS/OBS/SFS) 网络(VPC/EIP) 多样的生态接入 • 支持多语言多框架服务接入 • 支持第三方模板和镜像快速部署 完全开放的原生平台 • 紧跟Kubernetes和Docker社区,迅速同步最新版本 • 支持原生API调用和命令行操作 增强的商用化特性 • 通过自动化配置、构建、部署提升业务上线效率 级容器服务 开源原生平台 商业增强特性 控制面 HA 跨AZ高可用 容器优雅缩容 多策略弹性伸缩 镜像加速 滚动升级 配置模板化 自动化构建 自动化部署 节点自动伸缩 GUI/CLI/API 物理共享集群 多语言多框架 Java/Python/Go/Node.js 第三方模板&镜像部署 K8S Helm/Docker Hub 第三方服务&工具 Kafka/Nginx/APM/Monitor0 码力 | 26 页 | 3.29 MB | 1 年前3 Kubernetes全栈容器技术剖析集群部署、运维监控增强 ,安全加固 CNCF & Kubenetes 社区  全球TOP3、国内TOP1贡献: 7个maintainer,commits 1200+  OCI 初创成员,是容器镜像格式的规范和实现的主导者  主导核心设计:动态资源调整,各种安全加固措施,增强各种资源 限制,增加ARM64支持,运维增强,容器重启策略 OCI & Docker 社区 CNCF/OCI基金会的初创会员、白金会员, 成员,12个 Maintainer 8 计算(ECS/BMS/ARM) 存储(EVS/OBS/SFS) 网络(VPC/EIP) 多样的生态接入 • 支持多语言多框架服务接入 • 支持第三方模板和镜像快速部署 完全开放的原生平台 • 紧跟Kubernetes和Docker社区,迅速同步最新版本 • 支持原生API调用和命令行操作 增强的商用化特性 • 通过自动化配置、构建、部署提升业务上线效率 级容器服务 开源原生平台 商业增强特性 控制面 HA 跨AZ高可用 容器优雅缩容 多策略弹性伸缩 镜像加速 滚动升级 配置模板化 自动化构建 自动化部署 节点自动伸缩 GUI/CLI/API 物理共享集群 多语言多框架 Java/Python/Go/Node.js 第三方模板&镜像部署 K8S Helm/Docker Hub 第三方服务&工具 Kafka/Nginx/APM/Monitor0 码力 | 26 页 | 3.29 MB | 1 年前3
 Kubernetes开源书 -  周立底层基础架构和宿主机⽂件系统解耦了,可实现跨云、跨操作系统的移植。 由于容器⼩⽽快,因此可在每个容器镜像中包装⼀个应⽤程序。这种⼀对⼀的应⽤到镜像关系解锁了容器的全部优势。 使⽤容器,可以在构建/发布期间(⽽⾮部署期间)创建不可变的容器镜像,因为每个应⽤程序⽆需与其余的应⽤程序 栈组合,也⽆需与⽣产基础架构环境结合。 在构建/发布期间⽣成容器镜像使得从开发到⽣产都能够保持⼀致的环境。 同样,容器⽐虚拟机更加透明、便于 管理容器⽆异于管理应⽤程序的部署。 容器好处概要: 灵活的应⽤创建和部署 :与VM映像相⽐,容器镜像的创建更加容易、有效率。 持续开发,集成和部署 :通过快速轻松的回滚(由于镜像的不可变性)提供可靠且频繁的容器镜像构建和部署。 Dev和Ops分离问题 :在构建/发布期间⽽⾮部署期间创建镜像,从⽽将应⽤程序与基础架构分离。 开发、测试和⽣产环境⼀致 :在笔记本电脑运⾏与云中⼀样。 云和操作系统可移植性 shboard/ 02-安装单机版Kubernetes 9 使⽤Kubespray部署⽣产可⽤的Kubernetes集群 (1.11.2) 前提:科学上⽹,或⾃⾏将gcr.io的镜像转成其他镜像仓库的镜像。 Kubernetes的安装部署是难中之难,每个版本安装⽅式都略有区别。笔者⼀直想找⼀种 ⽀持多平台 、 相对简单 、 适⽤于 ⽣产环境 的部署⽅案。经过⼀段时间的调研,有如下⼏种解决⽅案进⼊笔者视野:0 码力 | 135 页 | 21.02 MB | 1 年前3 Kubernetes开源书 -  周立底层基础架构和宿主机⽂件系统解耦了,可实现跨云、跨操作系统的移植。 由于容器⼩⽽快,因此可在每个容器镜像中包装⼀个应⽤程序。这种⼀对⼀的应⽤到镜像关系解锁了容器的全部优势。 使⽤容器,可以在构建/发布期间(⽽⾮部署期间)创建不可变的容器镜像,因为每个应⽤程序⽆需与其余的应⽤程序 栈组合,也⽆需与⽣产基础架构环境结合。 在构建/发布期间⽣成容器镜像使得从开发到⽣产都能够保持⼀致的环境。 同样,容器⽐虚拟机更加透明、便于 管理容器⽆异于管理应⽤程序的部署。 容器好处概要: 灵活的应⽤创建和部署 :与VM映像相⽐,容器镜像的创建更加容易、有效率。 持续开发,集成和部署 :通过快速轻松的回滚(由于镜像的不可变性)提供可靠且频繁的容器镜像构建和部署。 Dev和Ops分离问题 :在构建/发布期间⽽⾮部署期间创建镜像,从⽽将应⽤程序与基础架构分离。 开发、测试和⽣产环境⼀致 :在笔记本电脑运⾏与云中⼀样。 云和操作系统可移植性 shboard/ 02-安装单机版Kubernetes 9 使⽤Kubespray部署⽣产可⽤的Kubernetes集群 (1.11.2) 前提:科学上⽹,或⾃⾏将gcr.io的镜像转成其他镜像仓库的镜像。 Kubernetes的安装部署是难中之难,每个版本安装⽅式都略有区别。笔者⼀直想找⼀种 ⽀持多平台 、 相对简单 、 适⽤于 ⽣产环境 的部署⽅案。经过⼀段时间的调研,有如下⼏种解决⽅案进⼊笔者视野:0 码力 | 135 页 | 21.02 MB | 1 年前3
 DaoCloud Enterprise 5.0
产品介绍模块化搭建 8 容器管理 9 全局管理 10 可观测性 10 应用工作台 11 多云编排 11 微服务引擎 12 服务网格 13 中间件 14 镜像仓库 14 云原生网络 15 存储 17 参考文档 18 版权 © 2023 DaoCloud 第 3 页 简介 DaoCloud Enterprise 并支持流水线高效并发执行流转,自动化完成应用的构建、部署,创新性引入 Gitops、渐进式交付能力体系,实现应用更精细的管理运维。 涉及的模块:全局管理、容器管理、应用工作台、云原生网络、云原生存储、镜像仓 库 版权 © 2023 DaoCloud 第 7 页 信创异构 采用信创云原生技术架构,兼容国产芯片及服务器,支持信创操作系统及信创应用生 态体系,屏蔽底层异构基础设 DaoCloud 第 9 页 中间件 RMQ, Kafka, ES, Kafka, MinIO, MySQL, Redis, PG, MongoDB 镜像仓库 基于 Harbor, Docker Hub 构建的镜像集成和托管服务 网络 多 CNI 融合方案 存储 容器化存储综合方案 容器管理 容器管理是基于 Kubernetes 开源技术构建的面向云原生应用的容器管理平台,0 码力 | 18 页 | 1.32 MB | 1 年前3 DaoCloud Enterprise 5.0
产品介绍模块化搭建 8 容器管理 9 全局管理 10 可观测性 10 应用工作台 11 多云编排 11 微服务引擎 12 服务网格 13 中间件 14 镜像仓库 14 云原生网络 15 存储 17 参考文档 18 版权 © 2023 DaoCloud 第 3 页 简介 DaoCloud Enterprise 并支持流水线高效并发执行流转,自动化完成应用的构建、部署,创新性引入 Gitops、渐进式交付能力体系,实现应用更精细的管理运维。 涉及的模块:全局管理、容器管理、应用工作台、云原生网络、云原生存储、镜像仓 库 版权 © 2023 DaoCloud 第 7 页 信创异构 采用信创云原生技术架构,兼容国产芯片及服务器,支持信创操作系统及信创应用生 态体系,屏蔽底层异构基础设 DaoCloud 第 9 页 中间件 RMQ, Kafka, ES, Kafka, MinIO, MySQL, Redis, PG, MongoDB 镜像仓库 基于 Harbor, Docker Hub 构建的镜像集成和托管服务 网络 多 CNI 融合方案 存储 容器化存储综合方案 容器管理 容器管理是基于 Kubernetes 开源技术构建的面向云原生应用的容器管理平台,0 码力 | 18 页 | 1.32 MB | 1 年前3
 涂小刚-基于k8s的微服务实践弹性伸缩 智能调度 配置管理 健康检查 服务发现 动态dns 负载均衡 容器监控 日志采集 应用监控 节点监控 动态存储 本地存储 网络存储 静态存储 代码检查 代码编译 镜像编译 服务发布 镜像同步 镜像上传 镜像下载 镜像安全 k8s tcp负载 https-http 虚拟主机 服务路由 traefik ingress-nginx nginx 流 量 入 口 k8s平台组件 k8s平台接入流程 范例 应用名称 ai-dc-server ai-dc-web ai-dc-api 镜像版本和git版本库规范 制定git版本规范,开发提交合并master代码,git版本库和业务版本进行关联,出了问题好定位问题。 采用docker容器化之后,ci-cd由运维平台集中控制,git版本和容器镜像必需保持一致关联性,方便问题回溯。 git master dev checkout v20 git版本库 镜像完整地址 registry.hz.local/huize ai-test ai-dc-web 20190510-1033 v20 registry.hz.local/huize/ai-test_ai-dc-web:20190510-1033_v20 k8s镜像构建过程 domain/path namespaces app-name date-time git-ver 镜像地址规范0 码力 | 19 页 | 1.34 MB | 1 年前3 涂小刚-基于k8s的微服务实践弹性伸缩 智能调度 配置管理 健康检查 服务发现 动态dns 负载均衡 容器监控 日志采集 应用监控 节点监控 动态存储 本地存储 网络存储 静态存储 代码检查 代码编译 镜像编译 服务发布 镜像同步 镜像上传 镜像下载 镜像安全 k8s tcp负载 https-http 虚拟主机 服务路由 traefik ingress-nginx nginx 流 量 入 口 k8s平台组件 k8s平台接入流程 范例 应用名称 ai-dc-server ai-dc-web ai-dc-api 镜像版本和git版本库规范 制定git版本规范,开发提交合并master代码,git版本库和业务版本进行关联,出了问题好定位问题。 采用docker容器化之后,ci-cd由运维平台集中控制,git版本和容器镜像必需保持一致关联性,方便问题回溯。 git master dev checkout v20 git版本库 镜像完整地址 registry.hz.local/huize ai-test ai-dc-web 20190510-1033 v20 registry.hz.local/huize/ai-test_ai-dc-web:20190510-1033_v20 k8s镜像构建过程 domain/path namespaces app-name date-time git-ver 镜像地址规范0 码力 | 19 页 | 1.34 MB | 1 年前3
 ⾸云容器产品Kubernetes操作指南下⼀步进⼊容器配置⻚⾯ 应⽤管理 1. 简介 2. 前提条件 3. 操作说明 22 c) 设置容器配置 i. 基本配置 镜像名称:填写所⽤镜像名称,本例中为hello-world。格式为domain/imagename。 镜像版本:填写所需镜像版本,如不指定,默认为latest。 最⼩申请:为该应⽤所需最⼩资源额度,包括 CPU 和内存两种资源。该资源由容器独占,以 防资源不 、命名空间、副本数量(即应⽤包含的 Pod 数量)、标签和注解。然后单击 下⼀步进⼊容器配置⻚⾯ c) 设置容器配置 i. 基本配置 镜像名称:填写所⽤镜像名称,本例中为mysql。格式为domain/imagename。 镜像版本:填写所需镜像版本,本例中为5.7。如不指定,默认为latest。 最⼩申请:为该应⽤所需最⼩资源额度,包括 CPU 和内存两种资源。该资源由容器独占,以 Running:该Pod被绑定⾄⼀个节点,且该Pod内的所有容器均成功创建。 Pending:K8s已经创建该Pod,但还没有进⼊运⾏状态,如Pod未完成调度,或正在拉 取镜像等。 Succeeded:Pod中所有容器都已成功终⽌,并且不会被重启。 Failed:Pod中所有容器都已经终⽌,且⾄少有⼀个容器异常终⽌。 Unknow:k8s的master节点与work0 码力 | 94 页 | 9.98 MB | 1 年前3 ⾸云容器产品Kubernetes操作指南下⼀步进⼊容器配置⻚⾯ 应⽤管理 1. 简介 2. 前提条件 3. 操作说明 22 c) 设置容器配置 i. 基本配置 镜像名称:填写所⽤镜像名称,本例中为hello-world。格式为domain/imagename。 镜像版本:填写所需镜像版本,如不指定,默认为latest。 最⼩申请:为该应⽤所需最⼩资源额度,包括 CPU 和内存两种资源。该资源由容器独占,以 防资源不 、命名空间、副本数量(即应⽤包含的 Pod 数量)、标签和注解。然后单击 下⼀步进⼊容器配置⻚⾯ c) 设置容器配置 i. 基本配置 镜像名称:填写所⽤镜像名称,本例中为mysql。格式为domain/imagename。 镜像版本:填写所需镜像版本,本例中为5.7。如不指定,默认为latest。 最⼩申请:为该应⽤所需最⼩资源额度,包括 CPU 和内存两种资源。该资源由容器独占,以 Running:该Pod被绑定⾄⼀个节点,且该Pod内的所有容器均成功创建。 Pending:K8s已经创建该Pod,但还没有进⼊运⾏状态,如Pod未完成调度,或正在拉 取镜像等。 Succeeded:Pod中所有容器都已成功终⽌,并且不会被重启。 Failed:Pod中所有容器都已经终⽌,且⾄少有⼀个容器异常终⽌。 Unknow:k8s的master节点与work0 码力 | 94 页 | 9.98 MB | 1 年前3
 石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版其他⼯ 具 DevOps ⼯具 初始化 ⼈员⾓⾊权限 初始化 配额管理 ⼯具链⽀撑体系 事务 跟踪 ⼯具 知识 库 代码托 管 制品仓 库 镜像仓 库 测试管 理平台 流⽔线编 排⼯具 代码质 量管控 镜像安 全扫描 运营统 计⼯具 XXXX 指标统计 XXXX 指标统计 XXXX 指标统计 XXXX 指标统计 运营统计 编译打 包 代码质量 集成 ü 代码变更管理任务 ü 本地代码扫描保证质量 ü 推荐Git 分⽀管理模型 ü 代码提交触发流⽔线 ü 流⽔线⾃动进⾏单元测 试 ü 流⽔线⾃动进⾏编译打 包 ü 流⽔线⾃动⽣成镜像 ü 流⽔线⾃动部署更新服 务 ü 事务管理⼯具跟踪状态 ü 跟踪团队开发进度 ü 测试case管理⼯具规范管 理 ü ⾃动化测试管理⼯具对测 试case进⾏图形化编排降 低⾃动化测试编写难度 丰富部署策略 ü 内置丰富监控指标 ü ⾃动化监控警报 ü 智能扩缩容 ü 容器云平台屏蔽部署 架构的复杂性。 ü 版本发布⾯板,跟踪版 本发布进度 接受发版⼯单 ü ⼀键同步镜像到⽣产环境 同步镜像 部署⽣产 带来的提升 过程中能⼒提升 通过瑞道平台进⾏需求到上线运维的管理,打通了需 求与开发,开发与测试,测试与运维之间的壁垒,提 供了⼤量业界经过⼤量验证的规则规范,增加了⼤量0 码力 | 33 页 | 7.49 MB | 1 年前3 石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版其他⼯ 具 DevOps ⼯具 初始化 ⼈员⾓⾊权限 初始化 配额管理 ⼯具链⽀撑体系 事务 跟踪 ⼯具 知识 库 代码托 管 制品仓 库 镜像仓 库 测试管 理平台 流⽔线编 排⼯具 代码质 量管控 镜像安 全扫描 运营统 计⼯具 XXXX 指标统计 XXXX 指标统计 XXXX 指标统计 XXXX 指标统计 运营统计 编译打 包 代码质量 集成 ü 代码变更管理任务 ü 本地代码扫描保证质量 ü 推荐Git 分⽀管理模型 ü 代码提交触发流⽔线 ü 流⽔线⾃动进⾏单元测 试 ü 流⽔线⾃动进⾏编译打 包 ü 流⽔线⾃动⽣成镜像 ü 流⽔线⾃动部署更新服 务 ü 事务管理⼯具跟踪状态 ü 跟踪团队开发进度 ü 测试case管理⼯具规范管 理 ü ⾃动化测试管理⼯具对测 试case进⾏图形化编排降 低⾃动化测试编写难度 丰富部署策略 ü 内置丰富监控指标 ü ⾃动化监控警报 ü 智能扩缩容 ü 容器云平台屏蔽部署 架构的复杂性。 ü 版本发布⾯板,跟踪版 本发布进度 接受发版⼯单 ü ⼀键同步镜像到⽣产环境 同步镜像 部署⽣产 带来的提升 过程中能⼒提升 通过瑞道平台进⾏需求到上线运维的管理,打通了需 求与开发,开发与测试,测试与运维之间的壁垒,提 供了⼤量业界经过⼤量验证的规则规范,增加了⼤量0 码力 | 33 页 | 7.49 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达无需代理,因此提供了良好的开发者 体验,并且易于设置。另一个显著的特点是它促进了安全的左移。我们的团队使用 Orca CLI 来扫描容器镜像 和 IaC 模板,以检测漏洞和配置错误,作为预提交钩子或 CI/CD 工作流的一部分。它还持续监控和扫描容器仓 库(如 AWS ECR),以查找已发布镜像中易受攻击的基础镜像或脆弱的操作系统依赖项。根据我们团队的经验, Orca 提供了从开发到生产的安全状态的统一视图,因此我们将其放入试验阶段。 project 。 32. Wiz 试验 Wiz 是日渐成熟的云安全平台领域里又一竞争者,它能让用户在一个平台上预防、检测和应对安全风险和威胁。 Wiz 能对尚未部署到生产环境的构建产物(容器镜像、基础设施代码)以及生产工作负载(容器、虚拟机和云 服务)的错误配置、漏洞和泄漏的机密数据进行检测并发出警报。 它还能将发现的问题置于特定客户的云环境 的上下文中,使响应团队能够更好地了解问题并确定修复优先级。我们的团队在使用 是 CCF 的重要贡献者。 53. 容器结构测试 试验 容器结构测试(CST)是由 Google 开发的一个工具,用于测试容器镜像的结构。CST 可以用于检查镜像文件系 统中某个文件的存在或缺失,验证文件的内容,检查容器中发出的特定命令的输出或错误,并检查容器镜像的 元数据(例如标签、入口点和命令),以确保符合 CIS Docker Benchmark 的规范。我们在使用 CST 方面有很0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达无需代理,因此提供了良好的开发者 体验,并且易于设置。另一个显著的特点是它促进了安全的左移。我们的团队使用 Orca CLI 来扫描容器镜像 和 IaC 模板,以检测漏洞和配置错误,作为预提交钩子或 CI/CD 工作流的一部分。它还持续监控和扫描容器仓 库(如 AWS ECR),以查找已发布镜像中易受攻击的基础镜像或脆弱的操作系统依赖项。根据我们团队的经验, Orca 提供了从开发到生产的安全状态的统一视图,因此我们将其放入试验阶段。 project 。 32. Wiz 试验 Wiz 是日渐成熟的云安全平台领域里又一竞争者,它能让用户在一个平台上预防、检测和应对安全风险和威胁。 Wiz 能对尚未部署到生产环境的构建产物(容器镜像、基础设施代码)以及生产工作负载(容器、虚拟机和云 服务)的错误配置、漏洞和泄漏的机密数据进行检测并发出警报。 它还能将发现的问题置于特定客户的云环境 的上下文中,使响应团队能够更好地了解问题并确定修复优先级。我们的团队在使用 是 CCF 的重要贡献者。 53. 容器结构测试 试验 容器结构测试(CST)是由 Google 开发的一个工具,用于测试容器镜像的结构。CST 可以用于检查镜像文件系 统中某个文件的存在或缺失,验证文件的内容,检查容器中发出的特定命令的输出或错误,并检查容器镜像的 元数据(例如标签、入口点和命令),以确保符合 CIS Docker Benchmark 的规范。我们在使用 CST 方面有很0 码力 | 43 页 | 2.76 MB | 1 年前3
 GPU Resource Management On JDOS常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供 tensorboard 任务列表 可以指定 git Serving 服务,只需用户指定模型,即可提供 grpc 和 rest 服务,同时使用 GPU 复用 +HPA 提高 GPU 利用率 创建 Serving 与训练集成 • 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器 IP 查询记录 , 便 于用户查看服务状态0 码力 | 11 页 | 13.40 MB | 1 年前3 GPU Resource Management On JDOS常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供 tensorboard 任务列表 可以指定 git Serving 服务,只需用户指定模型,即可提供 grpc 和 rest 服务,同时使用 GPU 复用 +HPA 提高 GPU 利用率 创建 Serving 与训练集成 • 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器 IP 查询记录 , 便 于用户查看服务状态0 码力 | 11 页 | 13.40 MB | 1 年前3
 基于 KUBERNETES 的 容器器 + AI 平台构建集群与管理理资源 - 73s 视频演示 多集群和镜像仓库 多租户和旧系统的集成 运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多集群和镜像仓库 • 企业想要的 • 隔离性和安全性 如何实现 • K8s - 单『控制集群』, 多『⽤用户集群』 • 镜像仓库 - 单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 • 其他企业需要的优化功能 企业典型的多租户模型 租户 Tenant User User group Namespace Deployment Registry project CI/CD workspace Pod … resources CPU quota MEM0 码力 | 19 页 | 3.55 MB | 1 年前3 基于 KUBERNETES 的 容器器 + AI 平台构建集群与管理理资源 - 73s 视频演示 多集群和镜像仓库 多租户和旧系统的集成 运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多集群和镜像仓库 • 企业想要的 • 隔离性和安全性 如何实现 • K8s - 单『控制集群』, 多『⽤用户集群』 • 镜像仓库 - 单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 • 其他企业需要的优化功能 企业典型的多租户模型 租户 Tenant User User group Namespace Deployment Registry project CI/CD workspace Pod … resources CPU quota MEM0 码力 | 19 页 | 3.55 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4














