阿里云上深度学习建模实践-程孟力Conflict] 特征准入/淘汰 Adaptive Embedding 训练: 推理: Ring All-reduc同步训练 [HybridBackend/SOK] 特征选择 [VariationalDropout] 通信优化 [GRPC++] 实时训练 [增量更新] 混合精度 [bf16] 工程优化: 千亿特征优化 模型蒸馏 AVX/SSE优化 Graph优化 [User Sequence Feature [side info] Op Fusion [hash + embedding] Overlap Execution [FG OP化] Item Feature增量更新 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 从FM到DeepFM rt 增 加了10倍怎么优化?0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波数据规模越大,效果越好 • 月级数据规模相比周级数据模型,效果相差5+% • 在线和离线模型效果对比 • 在线FM相比于离线FM,相关指标提升5+% • 完全在线初始化模型参数 • 增量在线FM相比于离线FM,相关指标提升8+% • 增量在线FM:即依托于离线模型初始化在线FM模型参数 3 在线机器学习-效果 • 深度化 • 特征深度化:特征embedding • 模型深度化:深度学习模型, Wide&Deep;DeepFM Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS:BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce:Horovod,使用 MPI替换grpc,同步通信模式;带宽优化,增加延时; • PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍0 码力 | 36 页 | 16.69 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱新增:GPU并⾏操作友好->CSR格式的显存数据访问 SSD磁盘 10TB 全部参数 内存 1TB 即将⽤到的参数 显存 32/40/80GB 正在训练的参数 分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中, 只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储) 实时模型,KB级,秒(Kafka) 分布式 Serving集群 推理节点 分布式 Serving集群 推理节点 召回索引服务 业务服务 1. 获取⽤户向量0 码力 | 22 页 | 6.76 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112页面提交: https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 本书主页,以及源代码,电子书下载,正式版也会在此同步更新: https://github.com/dragen1860/Deep-Learning-with-PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》: 24 现在来考虑不合理的视图变换。例如,如果定义新视图为[?, , ℎ, ?],[?, ?, ℎ ∗ ]或者 [?, ?, ℎ, ]等时,依据逻辑需要调整张量的存储顺序,如果不同步更新张量的存储顺序,那 么恢复出的数据将与新视图的逻辑不一致,从而导致数据错乱。合理性通常需要用户正确 理解数据,才能判断操作是否合理,因此具有一定主观性,但是对于大部分逻辑变换操作 而言,合理性都 “图片数量-行-列-通道”的顺序,视图维度顺序与存储维度顺序相悖,提取的数据将是错 乱的。 通过 reshape 改变视图时,必须始终记住张量的存储顺序,新视图的维度顺序不能与 存储顺序相悖,否则需要通过交换维度操作将存储顺序同步过来。举个例子,对于 shape 为[4,3,32,32]的图片数据,通过 reshape 操作将 shape 调整为[4,3,1024],此时视图的维度顺 序为? − ? − pixel,张量的存储顺序为[0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言方差…… 30 高等数学-导数 导数(Derivative),也叫导函数值。又名微商, 是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时,函 数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在,?即为在?0处的 导数,记作?′(?0)。 31 高等数学-函数的连续性 设函数 y = ? ? 在点?0的某邻域内有定义,如果当自变量的改变量0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言方差…… 31 高等数学-导数 导数(Derivative),也叫导函数值。又名微商, 是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时,函 数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在,?即为在?0处的 导数,记作?′(?0)。 32 高等数学-函数的连续性 设函数 y = ? ? 在点?0的某邻域内有定义,如果当自变量的改变量0 码力 | 80 页 | 5.38 MB | 1 年前3
超大规模深度学习在美团的应用-余建平Abacus、XPS, etc. • Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能力 • 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式,模型结构灵活多样 支持推荐、搜索、广告场景常用的深度学习模型 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 Base + Delta方式 增量提供ACK机制,确保模型正确性 Parameter Server • 模型数据的统一管理 模型结构 模型参数 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 0 码力 | 41 页 | 5.96 MB | 1 年前3
动手学深度学习 v2.0简单网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 12.5.4 数据同步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 531 12.5.5 数据分发 7.1 数据并行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.7.2 环同步(Ring Synchronization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . xscale='linear', yscale='linear', fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1, figsize=(3.5, 2.5)): # 增量地绘制多条线 if legend is None: legend = [] d2l.use_svg_display() self.fig, self.axes = d2l.plt.subplots(nrows0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-02深度学习-神经网络的编程基础Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 13梯度下降的三种形式 随机梯度下降(Stochastic Gradient Descent) ? = ? − ? ⋅ ??(?) Descent) 梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不 需要首先将所有的训练集求和 参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ,(j=0,1,...,n )) 15 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 =batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??: = ?? − ? 1 ? ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 16 逻辑回归的梯度下降 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本0 码力 | 27 页 | 1.54 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 15梯度下降的三种形式 随机梯度下降(Stochastic Gradient Descent) ? = ? − ? ⋅ ??(?) Descent) 梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不 需要首先将所有的训练集求和 参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ,(j=0,1,...,n )) 17 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 =batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??: = ?? − ? 1 ? ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 18 梯度下降与最小二乘法比较 梯度下降:需要选择学习率?,需要多次迭代,当特征数量?大时也能较 好适用,适用于各种类型的模型。 最小二乘法:不需要选择学习率0 码力 | 33 页 | 1.50 MB | 1 年前3
共 11 条
- 1
- 2













