集群 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制特征映射 Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 算法/模型计算数据/特征存储基础/IDE 业务调度集群 2 平台架构计算机器学习平台 Feed排序推荐流文本分类/检测 Hadoop/Spark 集群数据仓库集群高性能GPU集群 Hdfs/Odps TensorFlow /Caffe 图像/视频分类阿里云计算集群实时计算集群业务 Storm/Flink Yarn/K8s …… ……

0 码力 | 36 页 | 16.69 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

分布式Serving集群副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点

0 码力 | 22 页 | 6.76 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以

0 码力 | 32 页 | 5.17 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

并行化训练并行化训练诉求  加大数据量，提升模型稳定性  加大数据量，提升模型收益方案  MxNet支持多机多卡, 使用成本低  构建多机多卡 GPU集群，优化训练效率，提高加速比现状和计划现状  已经实现LR+DNN融合模型的上线，收益较好  受限于线上计算资源，模型复杂度有限  线下训练流程有依赖，繁琐易出错计划

0 码力 | 22 页 | 1.60 MB | 1 年前
3
机器学习课程-温州大学-10机器学习-聚类

主要算法 K-means、密度聚类、层次聚类聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… 7 1.无监督学习方法概述聚类案例 1.医疗医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非

0 码力 | 48 页 | 2.59 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 • Keras 可以在 Spark（通过 CERN 的 Dist-Keras）和 Elephas 上运行。为什么选择 KERAS？ 7 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持

0 码力 | 257 页 | 1.19 MB | 1 年前
3
动手学深度学习 v2.0

习相关的附加操作的狭窄的子集。每个流式多处理器都由这样的四个块组成。图12.4.7: NVIDIA Turing处理块（图片由英伟达提供）接下来，将12个流式多处理器分组为图形处理集群，这些集群构成了高端TU102处理器。充足的内存通道和二级缓存完善了配置。图12.4.8有相关的细节。设计这种设备的原因之一是可以根据需要独立地添加或删除模块，从而满足设计更紧凑的芯片和处理良品率我们有许多设计参数：带宽、成本、距离和灵活性。应用的末端有WiFi，它有非常好的使用范围，非常容易使用（毕竟没有线缆），而且还便宜，但它提供的带宽和延迟相对一般。头脑正常的机器学习研究人员都不会用它来构建服务器集群。接下来的内容中将重点关注适合深度学习的互连方式。 • PCIe，一种专用总线，用于每个通道点到点连接的高带宽需求（在16通道插槽中的PCIe4.0上高达32GB/s），延迟时间为个位数的微秒

0 码力 | 797 页 | 29.45 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式