增量同步 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

阿里云上深度学习建模实践-程孟力

Conflict] 特征准入/淘汰 Adaptive Embedding 训练: 推理: Ring All-reduc同步训练 [HybridBackend/SOK] 特征选择 [VariationalDropout] 通信优化 [GRPC++] 实时训练 [增量更新] 混合精度 [bf16] 工程优化: 千亿特征优化模型蒸馏 AVX/SSE优化 Graph优化 [User Sequence Feature [side info] Op Fusion [hash + embedding] Overlap Execution [FG OP化] Item Feature增量更新 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大从FM到DeepFM rt 增加了10倍怎么优化？

0 码力 | 40 页 | 8.51 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

数据规模越大，效果越好 • 月级数据规模相比周级数据模型，效果相差5+% • 在线和离线模型效果对比 • 在线FM相比于离线FM，相关指标提升5+% • 完全在线初始化模型参数 • 增量在线FM相比于离线FM，相关指标提升8+% • 增量在线FM：即依托于离线模型初始化在线FM模型参数 3 在线机器学习-效果 • 深度化 • 特征深度化：特征embedding • 模型深度化：深度学习模型， Wide&Deep；DeepFM Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS：BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce：Horovod，使用 MPI替换grpc，同步通信模式；带宽优化，增加延时； • PS&MPI：DistributionStrategy API，统一分布式语义，解耦分布式架构与模型训练框架 • 使用FP16通信，使用FP32做计算，带宽压力降低一倍

0 码力 | 36 页 | 16.69 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

新增：GPU并⾏操作友好->CSR格式的显存数据访问 SSD磁盘 10TB 全部参数内存 1TB 即将⽤到的参数显存 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点，更少的分布式系统相关问题 � 更⾼的性价⽐ 1 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点召回索引服务业务服务 1. 获取⽤户向量

0 码力 | 22 页 | 6.76 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

页面提交： https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 本书主页，以及源代码，电子书下载，正式版也会在此同步更新： https://github.com/dragen1860/Deep-Learning-with-PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》： 24 现在来考虑不合理的视图变换。例如，如果定义新视图为[?, , ℎ, ?]，[?, ?, ℎ ∗ ]或者 [?, ?, ℎ, ]等时，依据逻辑需要调整张量的存储顺序，如果不同步更新张量的存储顺序，那么恢复出的数据将与新视图的逻辑不一致，从而导致数据错乱。合理性通常需要用户正确理解数据，才能判断操作是否合理，因此具有一定主观性，但是对于大部分逻辑变换操作而言，合理性都 “图片数量-行-列-通道”的顺序，视图维度顺序与存储维度顺序相悖，提取的数据将是错乱的。通过 reshape 改变视图时，必须始终记住张量的存储顺序，新视图的维度顺序不能与存储顺序相悖，否则需要通过交换维度操作将存储顺序同步过来。举个例子，对于 shape 为[4,3,32,32]的图片数据，通过 reshape 操作将 shape 调整为[4,3,1024]，此时视图的维度顺序为? − ? − pixel，张量的存储顺序为[

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

方差…… 30 高等数学-导数导数(Derivative)，也叫导函数值。又名微商，是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时，函数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在，?即为在?0处的导数，记作?′(?0)。 31 高等数学-函数的连续性设函数 y = ? ? 在点?0的某邻域内有定义，如果当自变量的改变量

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

方差…… 31 高等数学-导数导数(Derivative)，也叫导函数值。又名微商，是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时，函数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在，?即为在?0处的导数，记作?′(?0)。 32 高等数学-函数的连续性设函数 y = ? ? 在点?0的某邻域内有定义，如果当自变量的改变量

0 码力 | 80 页 | 5.38 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

Abacus、XPS， etc. • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样  支持推荐、搜索、广告场景常用的深度学习模型模型分片存储，支持超大规模模型  数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式  增量提供ACK机制，确保模型正确性 Parameter Server • 模型数据的统一管理  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致 

0 码力 | 41 页 | 5.96 MB | 1 年前
3
动手学深度学习 v2.0

简单网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 12.5.4 数据同步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 12.5.5 数据分发 7.1 数据并行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.7.2 环同步（Ring Synchronization） . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . xscale='linear', yscale='linear', fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1, figsize=(3.5, 2.5)): # 增量地绘制多条线 if legend is None: legend = [] d2l.use_svg_display() self.fig, self.axes = d2l.plt.subplots(nrows

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-02深度学习-神经网络的编程基础

Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 13梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) Descent）梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 15 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本 =batch_size，通常是2的指数倍，常见有32,64,128等。（小批量梯度下降,MBGD）参数更新 ??: = ?? − ? 1 ? ෍ ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ，(j=0,1,...,n )) 16 逻辑回归的梯度下降小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本

0 码力 | 27 页 | 1.54 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 15梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) Descent）梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 17 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本 =batch_size，通常是2的指数倍，常见有32,64,128等。（小批量梯度下降,MBGD）参数更新 ??: = ?? − ? 1 ? ෍ ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ，(j=0,1,...,n )) 18 梯度下降与最小二乘法比较梯度下降：需要选择学习率?，需要多次迭代，当特征数量?大时也能较好适用，适用于各种类型的模型。最小二乘法：不需要选择学习率

0 码力 | 33 页 | 1.50 MB | 1 年前
3

共 11 条前往

页

分类

语言

格式

阿里云上深度学习建模实践-程孟力

微博在线机器学习和深度学习实践-黄波

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

【PyTorch深度学习-龙龙老师】-测试版202112

机器学习课程-温州大学-01机器学习-引言

机器学习课程-温州大学-01深度学习-引言

超大规模深度学习在美团的应用-余建平

动手学深度学习 v2.0

机器学习课程-温州大学-02深度学习-神经网络的编程基础

机器学习课程-温州大学-02机器学习-回归