数仓层 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

MLP网络层

全军出击：全连接层主讲人：龙良曲 I know nothing Be practical nn.Linear relu? concisely ▪ inherit from nn.Module ▪ init layer in __init__ ▪ implement forward() Step1. Step2. Step3. nn.ReLU v.s. F.relu()

0 码力 | 13 页 | 992.88 KB | 1 年前
3
动手学深度学习 v2.0

网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.4 softmax运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.1.1 隐藏层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.1.2 激活函数提交Kaggle预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 5 深度学习计算 191 5.1 层和块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

6.1 感知机 6.2 全连接层 6.3 神经网络 6.4 激活函数 6.5 输出层设计 6.6 误差计算 6.7 神经网络类型 6.8 油耗预测实战 6.9 参考文献第 7 章反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度预览版202112 全连接网络的问题 10.2 卷积神经网络 10.3 卷积层实现 10.4 LeNet-5 实战 10.5 表示学习 10.6 梯度传播 10.7 池化层 10.8 BatchNorm 层预览版202112 10.9 经典卷积网络 10.10 CIFAR10 与 VGG13 实战 10.11 卷积层变种 10.12 深度残差网络 10.13 DenseNet 循环神经网络 11.1 序列表示方法 11.2 循环神经网络 11.3 梯度传播 11.4 RNN 层使用方法 11.5 RNN 情感分类问题实战 11.6 梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . 17 3.2.3 所有的模型都可调用，就像网络层一样 . . . . . . . . . . . . . . . . . . . . 17 3.2.4 多输入多输出模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.5 共享网络层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2.6 层「节点」的概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 目录 II 3.2.7 更多的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.7.1 Inception 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.7.2 卷积层上的残差连接 . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.7.3 共享视觉模型 . . . . . . . . . . .

0 码力 | 257 页 | 1.19 MB | 1 年前
3
全连接神经网络实战. pytorch 版

train=True , #用来训练的数据 8 1.2. 导入样本数据 download=True , #如果根目录没有就下载 transform=ToTensor () ) test_data = datasets . FashionMNIST( root=” data ” , train=False , #用来测试的数据 download=True , #如果根目录没有就下载 transform=ToTensor () ) #把数据显示一下 labels_map = { 0: ”T−Shirt ” , 1: ” Trouser ” , 2: ” Pullover ” , 3: ” Dress ” , 4: ”Coat” , 5: ” Sandal ” , 6: ” Shirt ” , 7: ” Sneaker e = plt . f i g u r e () # 抽取索引为 100 的数据来显示 img , l a b e l = training_data [ 1 0 0 ] plt . t i t l e ( labels_map [ l a b e l ] ) #squeeze 函数把为1 的维度去掉 plt . imshow ( img . squeeze

0 码力 | 29 页 | 1.40 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

的属性为 True 定义函数 ( L) 使用函数的求导方法（L. b a c kwa rd( ) ）对标量求导对非标量求导直接使用 L.backward()函数配置 backward()函数中 g r a d i e n t 参数，使其形状与函数 L形状一样，其权重一般为1（也可小于1）（）使用 t e n s o r.grad.zero_() 清除张量梯度如果要保留计算图，可通过设置 b a c kw a r d（）中参数 retain_graph=True 释放计算图具体实例可参考书中2.7小节内容 2. Autograd自动求导 18 18  PyTorch 1.x的Tensor不参与求导的几种方式训练一个分类器 27 3. 神经网络可以使用torch.nn包来构建神经网络. 你已知道autograd包,nn包依赖autograd 包来定义模型并求导.一个nn.Module包含各个层和一个forward(input)方法,该方法返回output。典型的神经网络 28  神经网络关键组件及相互关系 3. 神经网络 29  PyTorch构建网络工具 torch

0 码力 | 40 页 | 1.64 MB | 1 年前
3
pytorch 入门笔记-03- 神经网络

上一讲已经讲过了 autograd，nn 包依赖 autograd 包来定义模型并求导。一个 nn.Module 包含各个层和一个 forward(input) 方法，该方法返回 output。例如：它是一个简单的前馈神经网络，它接受一个输入，然后一层接着一层地传递，最后输出计算的结果。神经网络的典型训练过程如下： 1. 定义包含一些可学习的参数(或者叫权重)神经网络模型； 2 ): super(Net, self).__init__() # 输入图片通道数为 1，输出通道数为 6，卷积核大小为 (5, 5) self.conv1 = nn.Conv2d(1, 6, 5) # 输入图片通道数为 6，输出通道数为 16，卷积核大小为 (5, 5) self.conv2 = nn.Conv2d(6, 16 nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): # 最大池化层，池化层窗口大小为 (2, 2) x = F.max_pool2d(F.relu(self.conv1(x)), 2) x = F.max_pool2d(F.relu(self

0 码力 | 7 页 | 370.53 KB | 1 年前
3
AI大模型千问 qwen 中文文档

5-7B-Chat", torch_dtype="auto", device_map="auto", attn_implementation="flash_attention_2", ) 请注意，原 Qwen 仓库中的旧方法 chat() 现在已被 generate() 方法替代。这里使用了 apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 FlashAttention-2 ，请确保你的 CUDA 版本在 11.6 以上。准备数据 LLaMA-Factory 在 data 文件夹中提供了多个训练数据集，您可以直接使用它们。如果您打算使用自定义数据集，请按照以下方式准备您的数据集。 1. 请将您的数据以 json 格式进行组织，并将数据放入 data 文件夹中。LLaMA-Factory 支持以 alpaca 或 sharegpt 格式的数据集。

0 码力 | 56 页 | 835.78 KB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

的，但它们没有共享参数。每个解码器都可以分解成两个子层。 18 2.Transformer的工作流程从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全一样（译注：另一种解读就是一层窗口为一个单词的一维卷积神经网络）。）。解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意力层，用来关注输入句子的相关部分（和seq2seq模型的注意力作用相似）。 19 2.Transformer的工作流程各种向量或张量是怎样在模型的不同部分中，将输入转化为输出的。像大部分NLP应用一样，我们首先将每个输入单词通过词嵌入算法转换为词向量。编码器中，它就是下一层编码器的输出（也是一个向量列表）。向量列表大小是我们可以设置的超参数:一般是我们训练集中最长句子的长度。 20 2.Transformer的工作流程将输入序列进行词嵌入之后，每个单词都会流经编码器中的两个子层。 Transformer的一个核心特性，在这里输入序列中每个位置的单词都有自己独特的路径流入编码器。在自注意力层中，这些路径之间存在依赖关系。

0 码力 | 60 页 | 3.51 MB | 1 年前
3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

将位置编码信息加入提取的特征 2.模型介绍 14 位置编码信息对准确率的影响 2.模型介绍结论:编码有用,但是怎么编码影响不大,干脆用简单的得了 2D(分别计算行和列的编码,然后求和)的效果还不如1D的每一层都加共享的位置编码也没啥太大用 15 位置编码 2.模型介绍 16 将 3) 的结果喂入标准 Transformer 的 encoder 中作者将类别作为一个可学习的 attention 的输入。可以叠加多层encoder： 2.模型介绍 17 将encoder得到的结果输入分类层 encoder 会输出多个上下文向量，对于图像分类，只需要 ?0。 2.模型介绍 18 1.背景知识将encoder得到的结果输入分类层 encoder 会输出多个上下文向量，对于图像分类，只需要 ?0。 19 模型框架最简洁的Vision Transformer模型注意力注意力注意力 2.模型介绍 21 左图展示了模型学习到的图嵌入，中图展示了学习到的位置嵌入，右图展示了不同层注意力的平均距离。 2.模型介绍 22 加入位置信息的原因如下图所示，将左图的patch打乱，则两个图是不同的，但对于Transformer的最后一层来说会得到相同的特征(认为是一个图)，为了让其能够识别是两个图，加入位置信息(使两个图不一样)。 2.模型介绍

0 码力 | 34 页 | 2.78 MB | 1 年前
3

共 67 条前往

页

分类

语言

格式