瓶颈 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练参数更新查询Sparse Table 查询Dense 缺点：⽅案b需要量化训练⽆量同时⽀持四种⽅法百度阿⾥⽆量问题： CV/NLP低频上线，常⽤的模型压缩算法不适应推荐场景思考：线上服务成本训练任务成本内存是主要瓶颈 > Embedding table可以设计得更⼩么？Double Hashing Embedding Table与第⼀层fc可以看作低秩矩阵分解亿亿 512 512 9 9 原始矩阵

0 码力 | 22 页 | 6.76 MB | 1 年前
3
机器学习课程-温州大学-09深度学习-目标检测

及所属类别（常使用YOLO、SSD、CornerNet等算法）。 14 1.目标检测概述目标检测网络的常见结构 Backbone network，即主干网络，是目标检测网络最为核心的部分 Neck network，即瓶颈网络，Neck部分的主要作用就是将由backbone输出的特征进行整合。 Detection head，即检测头，这一部分的作用就就是若干卷积层进行预测，也有些工作里把head部分称为decoder（解码器）的。

0 码力 | 43 页 | 4.12 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 • 存储优化：自定义存储方式(ByRow&ByKey)，基于row进行矩阵压缩存储，参数内存占用减少90% 3 在线机器学习-参数服务器模型验证离线训练实时训练

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

在GPT-2阶段，尽管体系结构是任务无关的，但仍然需要任务特定的数据集和任务特定的微调：要在所需任务上实现强大的性能，通常需要对特定于该任务的数千到数十万个示例的数据集进行微调。图：GPT-2尚未解决诸多瓶颈问题存在的问题02： GPT的发展 38 GPT-3（2020.5）取得突破性进展，任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ G

0 码力 | 44 页 | 2.36 MB | 1 年前
3
动手学深度学习 v2.0

有10倍于CPU的带宽。回到2012年的重大突破，当Alex Krizhevsky和Ilya Sutskever实现了可以在GPU硬件上运行的深度卷积神经网络时，一个重大突破出现了。他们意识到卷积神经网络中的计算瓶颈：卷积和矩阵乘法，都是可以在硬件上并行化的操作。于是，他们使用两个显存为3GB的NVIDIA GTX580 GPU实现了快速卷积运算。他们的创新cuda‐convnet89几年来它一直是行业标准，并推动了深度学习热潮。给定输入，调用编译好的程序执行。这将允许进行大量的优化。首先，在大多数情况下，我们可以跳过Python解释器。从而消除因为多个更快的GPU与单个CPU上的单个Python线程搭配使用时产生的性能瓶颈。其次，编译器可以将上述代码优化和重写为print((1 + 2) + (3 + 4))甚至print(10)。因为编译器在将其转换为机器指令之前可以看到完整的代码，所以这种优化是可以实现的导致任何重大问题。另一方面，如果我们使用先进的8‐GPU服务器，比如AWS P3dn.24xlarge实例，Python将很难让所有的GPU都保持忙碌。在这里，瓶颈是单线程的Python解释器。让我们看看如何通过将Sequential替换为HybridSequential来解决代码中这个瓶颈。首先，我们定义一个简单的多层感知机。 import torch from torch import nn from d2l import

0 码力 | 797 页 | 29.45 MB | 1 年前
3

共 5 条前往

页

推荐模型基础特点大规规模大规模深度学习系统设计机器课程温州大学 09 目标检测微博在线实践黄波 12 自然语言自然语言处理嵌入动手 v2

分类

语言

格式

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

机器学习课程-温州大学-09深度学习-目标检测

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

动手学深度学习 v2.0

分类

语言

格式

从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱

机器学习课程-温州大学-09深度学习-目标检测

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

动手学深度学习 v2.0

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱