 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉 取 训练 参数更新 查询Sparse Table 查询Dense 缺点:⽅案b需要量化训练 ⽆量同时⽀持四种⽅法 百度 阿⾥ ⽆量 问题: CV/NLP低频上线,常⽤的模型 压缩算法不适应推荐场景 思考: 线上服务 成本 训练任务 成本 内存是主要瓶颈 > Embedding table可以设计得更⼩么?Double Hashing Embedding Table与第⼀层fc可以看作低秩矩阵分解 亿 亿 512 512 9 9 原始矩阵0 码力 | 22 页 | 6.76 MB | 1 年前3 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉 取 训练 参数更新 查询Sparse Table 查询Dense 缺点:⽅案b需要量化训练 ⽆量同时⽀持四种⽅法 百度 阿⾥ ⽆量 问题: CV/NLP低频上线,常⽤的模型 压缩算法不适应推荐场景 思考: 线上服务 成本 训练任务 成本 内存是主要瓶颈 > Embedding table可以设计得更⼩么?Double Hashing Embedding Table与第⼀层fc可以看作低秩矩阵分解 亿 亿 512 512 9 9 原始矩阵0 码力 | 22 页 | 6.76 MB | 1 年前3
 机器学习课程-温州大学-09深度学习-目标检测及所属类别(常使用YOLO、SSD、CornerNet等算法)。 14 1.目标检测概述 目标检测网络的常见结构 Backbone network,即主干网络,是目标检测网络最为核心的部分 Neck network,即瓶颈网络,Neck部分的主要作用就是将由backbone输出的 特征进行整合。 Detection head,即检测头,这一部分的作用就就是若干卷积层进行预测, 也有些工作里把head部分称为decoder(解码器)的。0 码力 | 43 页 | 4.12 MB | 1 年前3 机器学习课程-温州大学-09深度学习-目标检测及所属类别(常使用YOLO、SSD、CornerNet等算法)。 14 1.目标检测概述 目标检测网络的常见结构 Backbone network,即主干网络,是目标检测网络最为核心的部分 Neck network,即瓶颈网络,Neck部分的主要作用就是将由backbone输出的 特征进行整合。 Detection head,即检测头,这一部分的作用就就是若干卷积层进行预测, 也有些工作里把head部分称为decoder(解码器)的。0 码力 | 43 页 | 4.12 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练0 码力 | 36 页 | 16.69 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入在GPT-2阶段,尽管体系结构是任务无关的,但仍然需要任务特定的数据集和任务特定的微调:要在所需任务上实现强大的性能,通 常需要对特定于该任务的数千到数十万个示例的数据集进行微调。 图:GPT-2尚未解决诸多瓶颈问题 存在的问题02: GPT的发展 38 GPT-3(2020.5)取得突破性进展,任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ G0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入在GPT-2阶段,尽管体系结构是任务无关的,但仍然需要任务特定的数据集和任务特定的微调:要在所需任务上实现强大的性能,通 常需要对特定于该任务的数千到数十万个示例的数据集进行微调。 图:GPT-2尚未解决诸多瓶颈问题 存在的问题02: GPT的发展 38 GPT-3(2020.5)取得突破性进展,任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ G0 码力 | 44 页 | 2.36 MB | 1 年前3
 动手学深度学习 v2.0有10倍于CPU的带宽。 回到2012年的重大突破,当Alex Krizhevsky和Ilya Sutskever实现了可以在GPU硬件上运行的深度卷积神经 网络时,一个重大突破出现了。他们意识到卷积神经网络中的计算瓶颈:卷积和矩阵乘法,都是可以在硬 件上并行化的操作。于是,他们使用两个显存为3GB的NVIDIA GTX580 GPU实现了快速卷积运算。他们的创 新cuda‐convnet89几年来它一直是行业标准,并推动了深度学习热潮。 给定输入,调用编译好的程序执行。 这将允许进行大量的优化。首先,在大多数情况下,我们可以跳过Python解释器。从而消除因为多个更快 的GPU与单个CPU上的单个Python线程搭配使用时产生的性能瓶颈。其次,编译器可以将上述代码优化和重 写为print((1 + 2) + (3 + 4))甚至print(10)。因为编译器在将其转换为机器指令之前可以看到完整的代 码,所以这种优化是可以实现的 导致任何重大问题。另一方面,如果我们使用先进的8‐GPU服务器,比如AWS P3dn.24xlarge实例,Python将很 难让所有的GPU都保持忙碌。在这里,瓶颈是单线程的Python解释器。让我们看看如何通过将Sequential替 换为HybridSequential来解决代码中这个瓶颈。首先,我们定义一个简单的多层感知机。 import torch from torch import nn from d2l import0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0有10倍于CPU的带宽。 回到2012年的重大突破,当Alex Krizhevsky和Ilya Sutskever实现了可以在GPU硬件上运行的深度卷积神经 网络时,一个重大突破出现了。他们意识到卷积神经网络中的计算瓶颈:卷积和矩阵乘法,都是可以在硬 件上并行化的操作。于是,他们使用两个显存为3GB的NVIDIA GTX580 GPU实现了快速卷积运算。他们的创 新cuda‐convnet89几年来它一直是行业标准,并推动了深度学习热潮。 给定输入,调用编译好的程序执行。 这将允许进行大量的优化。首先,在大多数情况下,我们可以跳过Python解释器。从而消除因为多个更快 的GPU与单个CPU上的单个Python线程搭配使用时产生的性能瓶颈。其次,编译器可以将上述代码优化和重 写为print((1 + 2) + (3 + 4))甚至print(10)。因为编译器在将其转换为机器指令之前可以看到完整的代 码,所以这种优化是可以实现的 导致任何重大问题。另一方面,如果我们使用先进的8‐GPU服务器,比如AWS P3dn.24xlarge实例,Python将很 难让所有的GPU都保持忙碌。在这里,瓶颈是单线程的Python解释器。让我们看看如何通过将Sequential替 换为HybridSequential来解决代码中这个瓶颈。首先,我们定义一个简单的多层感知机。 import torch from torch import nn from d2l import0 码力 | 797 页 | 29.45 MB | 1 年前3
共 5 条
- 1













