动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . . . . . . . . . . . . . . . . . . . . . . . . . . (Jia et al., 2018) ,将观察大小提高到64000个,将ResNet‐50模 型在ImageNet数据集上的训练时间减少到不到7分钟。作为比较——最初的训练时间是按天为单位的。 • 并行计算的能力也对强化学习的进步做出了相当关键的贡献。这导致了计算机在围棋、雅达里游戏、星 际争霸和物理模拟(例如,使用MuJoCo)中实现超人性能的重大进步。有关如何在AlphaGo中实现这 一点的说明,请参见如 features[batch_indices], labels[batch_indices] 通常,我们利用GPU并行运算的优势,处理合理大小的“小批量”。每个样本都可以并行地进行模型计算,且 每个样本损失函数的梯度也可以被并行计算。GPU可以在处理几百个样本时,所花费的时间不比处理一个样 96 3. 线性神经网络 本时多太多。 我们直观感受一下小批量运算:读取第一个小批量数据样本并打印。每个批量的特征维度显示批量大小和输0 码力 | 797 页 | 29.45 MB | 1 年前3
MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
的数据 ▪ 对tall数组(tall array)的编程方式与MATLAB 标准数组 编程方式一致 Single Machine Memory Process 8 ▪ MATLAB本地多核并行计算计 (PCT, Parallel Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算) Spark Core (Batch Processing) 12 MATLAB与Hadoop datastore map0 码力 | 17 页 | 1.64 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerLSTM/GRU等) 来 作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然 后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也 使得它不能够并行计算,模型效率十分低。 在没有transformer的时候,我们 都是用什么来完成这系列的任务 的呢? 5 1.Transformer介绍 Seq2Seq任务 Seq2Seq 任务指的是输入和输出都是 Transformer介绍 Attention的优点 1.参数少:相比于 CNN、RNN ,其复杂度更小,参数也更少。所以对算力的要求 也就更小。 2.速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信 息会0 码力 | 60 页 | 3.51 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112能,从而帮助我们理解框架在算法设计中扮演的角色。 1) 加速计算 神经网络本质上由大量的矩阵相乘、矩阵相加等基本数学运算构成,TensorFlow 的重 要功能就是利用 GPU 方便地实现并行计算加速功能。为了演示 GPU 的加速效果,我们通 过完成多次矩阵?和矩阵?的矩阵相乘运算,并测量其平均运算时间来比对。其中矩阵?的 shape 为[1,?],矩阵?的 shape 为[?, 1],通过调节 和 GPU 环境的运算时间绘制为曲线,如图 1.21 所示。可以看 到,在矩阵?和矩阵?较小时,CPU 和 GPU 时间非常接近,并不能体现出 GPU 并行计算 的优势;在矩阵较大时,CPU 的计算时间明显上升,而 GPU 能充分发挥并行计算优势, 运算时间几乎不变。 图 1.21 CPU/GPU 矩阵相乘时间 2) 自动梯度 在使用 PyTorch 构建前向计算过程的时候,除了能够获得数值结果,PyTorch 255]范围像素值归一化(Normalize)到[−1,1]区间,更有利于模 型的训练。 网络中每张图片的计算流程是通用的,因此在计算的过程中可以一次进行多张图片的 计算,充分利用 CPU 或 GPU 的并行计算能力。如果用形状为[ℎ, ?]的矩阵来表示一张图 片,对于多张图片来说,在前面添加一个数量维度(Dimension),使用形状为[?, ℎ, ?]的张量 来表示,其中?代表了批量大小(Batch Size),这里0 码力 | 439 页 | 29.91 MB | 1 年前3
Spark 简介以及与 Hadoop 的对比Hadoop 的对比 1 Spark 简介 1.1 Spark 概述 Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框 架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的 优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读0 码力 | 3 页 | 172.14 KB | 1 年前3
超大规模深度学习在美团的应用-余建平计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 Base + Delta方式 增量提供ACK机制,确保模型正确性0 码力 | 41 页 | 5.96 MB | 1 年前3
Volcano加速金融行业大数据分析平台云原生化改造的应用实践reservation,backfill • 不支持CPU/IO topology based scheduling 领域框架支持不足 • 1:1的operator部署运维复杂 • 不同框架对作业管理、并行计算等要求不通 • 计算密集,资源波动大,需要高级调度能力 资源规划复用、异构计算支持不足 • 缺少队列概念 • 不支持集群资源的动态规划以及资源复用 • 对异构资源支持不足 传统服务 大数据0 码力 | 18 页 | 1.82 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用• 基于现有状况、订单增速、消 化速度、天气、当前手段等多 维特征,使用XGBoost模型回 归预测未来五分钟进单的平均 配送时长 • 分商圈、分时段、多模型的精 细化预估 • 分布式、多线程、并行计算最 佳分割点,满足海量数据的实 时性要求 • 在供需失衡之前,即实施调控 手段 5 供需平衡 14 5.2 单量调控模型 • 通过价格平衡未来的进单量 和系统可承载的单量 • 基于GBRT对未来进入单量的0 码力 | 28 页 | 6.86 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言2016年 C轮融资 估值20亿美元 9 机器学习的范围 10 • 给定数据的预测问题 ✓ 数据清洗/特征选择 ✓ 确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人 机器学习可以解决什么问题 11 机器学习发展史 总的来说,人工智能经历了逻辑推理、知识工程、机器 学习三个阶段。 机器学习伴随着人工智能的发展而诞生,它是人工智能0 码力 | 78 页 | 3.69 MB | 1 年前3
云计算白皮书向上来看,数字应用呈现出分布式、多模态、超大量级的特点。 以 ChatGPT 为例,ChatGPT 的模型参数已达千亿,且模型训练数据 涉及文本、图片、音视频等多个模态,基于分布式训练框架实现了 超大规模量级的并行计算,这对部署模型的云计算平台提出新的需 求。云计算的焦点不仅仅在提升单点应用的研运效能,更要发挥出 面向大规模分布式应用协调、分发、部署的中枢管控能力。模型构 建的复杂性限制了技术的普惠发展,基于云计算构建开箱即用的大0 码力 | 47 页 | 1.22 MB | 1 年前3
共 10 条
- 1













