谭国富:深度学习在图像审核的应用提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合,用户可以灵活定义任务 • 支持配置 docker 镜像,完全自定义运行环 境 • 良好的用户体验 • 完善的客户端工具 • 任务进度微信提醒 SACC2017 proto model graph. pb 深度网络计算图 caffe0 码力 | 32 页 | 5.17 MB | 1 年前3
动手学深度学习 v2.0习相关的附加操作的狭窄的子集。每个流 式多处理器都由这样的四个块组成。 图12.4.7: NVIDIA Turing处理块(图片由英伟达提供) 接下来,将12个流式多处理器分组为图形处理集群,这些集群构成了高端TU102处理器。充足的内存通道和二 级缓存完善了配置。图12.4.8有相关的细节。设计这种设备的原因之一是可以根据需要独立地添加或删除模 块,从而满足设计更紧凑的芯片和处理良品率 我们有许多设计参数:带宽、成本、距离和灵活性。应用的末端有WiFi,它有非常好的使用范围,非常容易 使用(毕竟没有线缆),而且还便宜,但它提供的带宽和延迟相对一般。头脑正常的机器学习研究人员都不会 用它来构建服务器集群。接下来的内容中将重点关注适合深度学习的互连方式。 • PCIe,一种专用总线,用于每个通道点到点连接的高带宽需求(在16通道插槽中的PCIe4.0上高达32GB/s), 延迟时间为个位数的微秒 9中的例子,然后选择“Image”→“Create”以创 建该实例的镜像。完成后,选择“实例状态”→“终止”以终止实例。下次要使用此实例时,可以按照本节 中的步骤基于保存的镜像创建实例。唯一的区别是,在 图16.3.4所示的“1.选择AMI”中,你必须使用左侧 的“我的AMI”选项来选择你保存的镜像。创建的实例将保留镜像硬盘上存储的信息。例如,你不必重新安 装CUDA和其他运行时环境。 小结0 码力 | 797 页 | 29.45 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 4 算法/模型 计算 数据/特征 存储 基础/IDE 业务 调度 集群 2 平台架构 计算 机器学习平台 Feed排序 推荐流 文本分类/检测 Hadoop/Spark 集群 数据仓库集群 高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类 阿里云计算集群 实时计算集群 业务 Storm/Flink Yarn/K8s …… ……0 码力 | 36 页 | 16.69 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面:� Container所在的机器� 分配到的GPU物理设备号� tensorboard0 码力 | 32 页 | 4.06 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储) 实时模型,KB级,秒(Kafka) 分布式 Serving集群 推理节点 分布式 Serving集群 推理节点0 码力 | 22 页 | 6.76 MB | 1 年前3
《TensorFlow 2项目进阶实战》6-业务落地篇:实现货架洞察Web应⽤requirements.txt 为 AI SaaS 编写 Dockerfile 为 AI SaaS 构建 Docker 镜像(TF 容器外) $ docker build –t tf2-ai-saas -f ai_saas/Dockerfile . 为 AI SaaS 构建 Docker 镜像(TF 容器外) $ docker build –t tf2-ai-saas -f ai_saas/Dockerfile0 码力 | 54 页 | 6.30 MB | 1 年前3
亚马逊AWSAI Services Overviewcores MXNet TensorFlow Theano Caffe Torch 预配置的 CUDA 驱动 Anaconda, Python3 + CloudFormation 模版 + 容器镜像文件 全新的 EC2 P2 实例 | 高达16 块 GPUs ▪ 这款新实例类型包含了高达 8个 NVIDIA Tesla K80 Accelerators, 每个运行一对 NVIDIA GK2100 码力 | 56 页 | 4.97 MB | 1 年前3
阿里云上深度学习建模实践-程孟力PAI平台(Platform of Artificial Intelligence) • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管 • 分布式训练优化 • 超大资源池 智能标注 可视化建模(Designer) 分布式训练(DLC) 在线服务(EAS) 生态市场 开发者工具 • CLI0 码力 | 40 页 | 8.51 MB | 1 年前3
机器学习课程-温州大学-05机器学习-机器学习实践的很多值。 27 正则化 大部分的计算机视觉任务使用很多的数据 ,所以数据增强是经常使用的一种技巧来 提高计算机视觉系统的表现。计算机视觉 任务的数据增强通常以下方法实现: (1) 随意翻转、镜像。 (2) 随意裁剪。 (3) 扭曲变形图片。 (4) 颜色转换,然后给R、G和B三个通道上 加上不同的失真值。产生大量的样本,进 行数据增强。 28 偏差和方差 方差Variance:0 码力 | 33 页 | 2.14 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用并行化训练 并行化训练 诉求 加大数据量,提 升模型稳定性 加大数据量,提 升模型收益 方案 MxNet支持多机 多卡, 使用成本低 构 建 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状 已经实现LR+DNN融合模型的上线,收益较好 受限于线上计算资源,模型复杂度有限 线下训练流程有依赖,繁琐易出错 计划0 码力 | 22 页 | 1.60 MB | 1 年前3
共 12 条
- 1
- 2













