GPU Resource Management On JDOSGPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 + 优先级) • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供0 码力 | 11 页 | 13.40 MB | 1 年前3
MySQL 8.0.17 调优指南(openEuler 20.09)在性能优化时,我们必须遵循一定的原则,否则,有可能得不到正确的调优结果。主 要有以下几个方面: ● 对性能进行分析时,要多方面分析系统的资源瓶颈所在,因为系统某一方面性能 低,也许并不是它自己造成的,而是其他方面造成的。如CPU利用率是100%时, 很可能是内存容量太小,因为CPU忙于处理内存调度。 ● 一次只对影响性能的某方面的一个参数进行调整,多个参数同时调整的话,很难 界定性能的影响是由哪个参数造成的。 ● 由于在进行 idle_balance定制特性 新增STEAL流程,如果idle_balance迁移线程失败会触 发,STEAL流程简化了判断逻辑,会从sd_llc上的任意 overload的cpu迁移进程过来,从而提升cpu利用率。 方法 kernel的优化在openEuler 20.09中默认是关闭的,需要用以下步骤开启: 步骤1 打开/etc/grub2-efi.cfg文件,在内核启动行增加参数sched_s0 码力 | 11 页 | 223.31 KB | 1 年前3
Kubernetes Operator 实践 - MySQL容器化计费 管理界面 项目 管理 CI&&CD 统一配 置中心 Cluster2 Node Node Node Node 商业云平台 BizCloud • 弹性伸缩能力不足 • 机器资源利用率不高 • 服务管理复杂 问题 有状态服务的需求越来越多 有状态服务容器化 1. 背景介绍 2. Operator 的基本原理 3. MySQL Operator 设计实践 4. 小结0 码力 | 42 页 | 4.77 MB | 1 年前3
MySQL高可用 - 多种方案有多个从服务器也是可以的, 只是要手工切换从服务器比较麻烦,后面会介绍的 MMM 能将从服务器自动切 换)并且还能实现数据库的读写分离的情况,这样 backup 机器也能用起来,提 高系统资源的利用率,减少 master 端的负载。应用中读数据库配置读 VIP,写数 据库配置写 VIP。这个方案也能够很方便的进行单台数据库的管理维护以及切换 工作。比如进行大表的表结构更改、数据库的升级等都是非常方便的。0 码力 | 31 页 | 874.28 KB | 1 年前3
A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetesdeployment, scaling, and management of containerized applications • Declarative • Can be a mix of GPU or CPU nodes • Massive Scale • OpenAI dedicates up to 10k cores for a single experiment • Autoscaling0 码力 | 21 页 | 68.69 MB | 1 年前3
基于 KUBERNETES 的 容器器 + AI 平台project CI/CD workspace Pod … resources CPU quota MEM quota Storage quota Device (GPU) quota …. quota Service Config group … k8s objects Application template ⽤用户场景 - OPENSTACK0 码力 | 19 页 | 3.55 MB | 1 年前3
共 6 条
- 1













