内存块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.5 节省内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.1.6 转换为其他Python对象 . . . . . . . . . 188 5 深度学习计算 191 5.1 层和块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.1.1 自定义块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.1.2 顺序块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

12 年， Alex Krizhevsky 提出了 8 层的深层神经网络 AlexNet，它采用了 ReLU 激活函数，并使用 Dropout 技术来防止过拟合，同时抛弃了逐层预训练的方式，直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩，比第二名在 Top-5 错误率上降低了惊人的 10.9%。自 AlexNet 1.11 数据集大小趋势 1.3.2 计算力计算能力的提升是第三次人工智能复兴的一个重要因素。实际上，现代深度学习的基础理论在 1980 年代就已经被提出，但直到 2012 年，基于两块 GTX580 GPU 训练的 AlexNet 发布后，深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络这样对数据量和计算能力有严苛的要求，通常在 CPU 上串行训练即可得到满意结果。但是经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本；自动网络结构搜索算法使用了 800 块 GPU 同时训练才能优化出较好的网络结构。目前普通消费者能够使用的深度学习加速硬件设备主要来自 NVIDIA 的 GPU 显卡，图

0 码力 | 439 页 | 29.91 MB | 1 年前
3
亚马逊AWSAI Services Overview

的人工智能&深度学习围绕数据的“飞轮” 机器学习深度学习人工智能更多的用户更好的产品更多的数据更好的分析对象存储数据库数据仓库数据流分析商业智能 Map/Reduce 内存数据库数据检索点击流用户活动内容生成购买点击喜好传感器数据机器学习& 人工智能大数据更多的用户更好的产品更多的数据更好的分析围绕数据的“飞轮” 算法数据 CloudFormation 模版 + 容器镜像文件全新的 EC2 P2 实例 | 高达16 块 GPUs ▪ 这款新实例类型包含了高达 8个 NVIDIA Tesla K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 内存 (内存存取带宽达到240 GB/秒), 以及 2,496 个并行处理核心 Instance Name 16xlarge 16 64 732 GiB 39,936 192 GiB 20 Gigabit 深度学习框架 – MXNet 概述 MXNet • 节省以及资源效率 • 工程中廉价的GPUs、较小的内存以及网络的限制 • 速度 • 线性的扩展能力 • 简单 • 混合了声明式（declarative）和命令式()代码的特点为什么选择 MXNet ？ MXNet: 可扩展的深度学习框架

0 码力 | 56 页 | 4.97 MB | 1 年前
3
AI大模型千问 qwen 中文文档

一个纯 C/C++ 实现，不依赖任何外部库，并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此外，它还提供了 2、3、4、5、6 以及 8 位量化功能，以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型，该库还支持 CPU+GPU 混合推理模式进行部分加速。本质上，llama.cpp 的用途在于运行 GGUF（由 GPT 生成的统一格式）模型。欲了解更多详情，请参阅官方即激活感知权重量化，是一种针对 LLM 的低比特权重量化的硬件友好方法。而 AutoAWQ 是一个易于使用的工具包，专门用于 4 比特量化模型。相较于 FP16，AutoAWQ 能够将模型的运行速度提升 3 倍，并将内存需求降低至原来的 1/3。AutoAWQ 实现了激活感知权重量化（AWQ）算法，可用于 LLM 的量化处理。在本文档中，我们将向您展示如何在 Transformers 框架下使用量化模型，以及如何对您自己的模型进行量化。、q6_k 和 q8_0 。欲了解更多信息，请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过 PagedAttention 实现）、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息，请参阅论文和文档。 1.10.1 安装默认情况下，你可以通过

0 码力 | 56 页 | 835.78 KB | 1 年前
3
Keras: 基于 Python 的深度学习库

3.3.8 如何获取中间层的输出？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.9 如何用 Keras 处理超过内存的数据集？ . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时，如何中断训练？ . . . . . . . . . . . “sample”, “batch”, “epoch” 分别是什么？ • 如何保存 Keras 模型？ • 为什么训练误差比测试误差高很多？ • 如何获取中间层的输出？ • 如何用 Keras 处理超过内存的数据集？ • 在验证集的误差不再下降时，如何中断训练？ • 验证集划分是如何计算的？ • 在训练过程中数据是否会混洗？ • 如何在每个 epoch 后记录训练集和验证集的误差和准确率？ • get_3rd_layer_output([x, 0])[0] # 测试模式 = 1 时的输出 layer_output = get_3rd_layer_output([x, 1])[0] 3.3.9 如何用 Keras 处理超过内存的数据集？你可以使用 model.train_on_batch(x，y) 和 model.test_on_batch(x，y) 进行批量训练与测试。请参阅模型文档。或者，你可以

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-numpy使用总结

C++，Fortran 或 Matlab 等所做的任务。 NumPy是什么？ 6 标准的Python中用list（列表）保存值，可以当做数组使用，但因为列表中的元素可以是任何对象，所以浪费了CPU运算时间和内存。 NumPy诞生为了弥补这些缺陷。它提供了两种基本的对象： ndarray：全称（n-dimensional array object）是储存单一数据类型的多维数组。 ufunc：全称（universal 3.16227766, 10., 31.6227766 , 100.]) 16 ndarray的创建 np.empty((2,3), np.int) 创建2*3的整形型空矩阵，只分配内存 np.zeros(4, np.int) 创建长度为4，值为全部为0的矩阵 np.full(4, np.pi) 创建长度为4，值为全部为pi的矩阵 > def func(i): return array([ 0, 1, 100, 101, 4, 5, 6, 7, 8, 9]) 19 ndarray的切片 ndarray通过切片产生一个新的数组b，b和a共享同一块数据存储空间。 > b = a[3:7] > b[2] = -10 b a

0 码力 | 49 页 | 1.52 MB | 1 年前
3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

为什么需要用transformer Transformer原本是用来做 NLP的工作的，所以ViT的首要任务是将图转换成词的结构，这里采取的方法是如上图左下角所示，将图片分割成小块，每个小块就相当于句子里的一个词。这里把每个小块称作 Patch，而Patch Embedding 就是把每个Patch再经过一个全连接网络压缩成一定维度的向量。 1.背景知识 7 为什么需要用transformer 位置embedding和tokensembedding相加 4.输入到Transformer模型 5.CLS输出做多分类任务 10 先将图片分成NxN的patch块(原始论文是16x16) patch块可以重叠(上图没有重叠，是9x9的patch块) 2.模型介绍 11 将patch打平，对每个 patch 进行线性映射，提取特征 2.模型介绍 12 提取特征 2.模型介绍 13 1 输入分类层 encoder 会输出多个上下文向量，对于图像分类，只需要 ?0。 19 模型框架最简洁的Vision Transformer模型，先将图片分成 16x16的patch块，送入transformer encoder，第一个 cls token的输出送入mlp head得到预测结果。 2.模型介绍 20 来自输入空间的注意力表达输入输入输入

0 码力 | 34 页 | 2.78 MB | 1 年前
3
机器学习课程-温州大学-08深度学习-深度卷积神经网络

经典网络 02 深度残差网络 03 其它现代网络 04 卷积神经网络使用技巧 4 经典网络-LeNet-5 • LeNet 分为两个部分组成： • 卷积层块：由两个卷积层块组成; • 全连接层块：由三个全连接层组成。 5 ? = 5 ? = 1 6 filter CONV1 POOL1 ? = 2 ? = 2 ? = 5 ? = 1 16 filter ? =

0 码力 | 32 页 | 2.42 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练 Batch⼊队列 Batch⼊队列 � 效果： � 在不影响训练效果的情况下，降低参数准备与更新耗时，提⾼训练速度。训练耗时下降超50% � 异步storage线程，⽀持基于冷热数据的多级存储。内存消耗下降30%-70% 磁盘训练 Lookup+ pooling 算⼦融合 Unique keys Storage 近期训练参数管理需保持顺序，以保证训练效果样本读取显存（A100最⼤80GB）放不下TB级的模型 � GPU多线程并⾏计算能⼒对稀疏数据不友好 � ⽅案 � 原有：内存能够存储的参数->对应的样本量Group � 新增：显存能够存储的参数->对应的样本量Pass � 新增：GPU并⾏操作友好->CSR格式的显存数据访问 SSD磁盘 10TB 全部参数内存 1TB 即将⽤到的参数显存 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题

0 码力 | 22 页 | 6.76 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� --worker-memory 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数� Spark解决⽅案� • Coordinator负责协调生成ClusterSpec（扩展的TensorFlow gRPC server） • Worker通过读取RDD获取训练样本 • RDD的数据cache到内存或者磁盘供多次迭代训练使用 SparkFlow介绍 SparkFlow与TensorFlow on Yarn对比：� SparkFlow TensorFlow on Yarn 通过RDD读取训练样本数据，关心

0 码力 | 32 页 | 4.06 MB | 1 年前
3

共 30 条前往

页

分类

语言

格式