MLP网络层全军出击:全连接层 主讲人:龙良曲 I know nothing Be practical nn.Linear relu? concisely ▪ inherit from nn.Module ▪ init layer in __init__ ▪ implement forward() Step1. Step2. Step3. nn.ReLU v.s. F.relu()0 码力 | 13 页 | 992.88 KB | 1 年前3
动手学深度学习 v2.0网络架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.3 全连接层的参数开销 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.4 softmax运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.1.1 隐藏层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.1.2 激活函数 提交Kaggle预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 5 深度学习计算 191 5.1 层和块 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1910 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021126.1 感知机 6.2 全连接层 6.3 神经网络 6.4 激活函数 6.5 输出层设计 6.6 误差计算 6.7 神经网络类型 6.8 油耗预测实战 6.9 参考文献 第 7 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 全连接网络的问题 10.2 卷积神经网络 10.3 卷积层实现 10.4 LeNet-5 实战 10.5 表示学习 10.6 梯度传播 10.7 池化层 10.8 BatchNorm 层 预览版202112 10.9 经典卷积网络 10.10 CIFAR10 与 VGG13 实战 10.11 卷积层变种 10.12 深度残差网络 10.13 DenseNet 循环神经网络 11.1 序列表示方法 11.2 循环神经网络 11.3 梯度传播 11.4 RNN 层使用方法 11.5 RNN 情感分类问题实战 11.6 梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . 17 3.2.3 所有的模型都可调用,就像网络层一样 . . . . . . . . . . . . . . . . . . . . 17 3.2.4 多输入多输出模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.5 共享网络层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2.6 层「节点」的概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 目录 II 3.2.7 更多的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.7.1 Inception 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.7.2 卷积层上的残差连接 . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.7.3 共享视觉模型 . . . . . . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3
全连接神经网络实战. pytorch 版train=True , #用 来 训 练 的 数 据 8 1.2. 导入样本数据 download=True , #如 果 根 目 录 没 有 就 下 载 transform=ToTensor () ) test_data = datasets . FashionMNIST( root=” data ” , train=False , #用 来 测 试 的 数 据 download=True , #如 果 根 目 录 没 有 就 下 载 transform=ToTensor () ) #把 数 据 显 示 一 下 labels_map = { 0: ”T−Shirt ” , 1: ” Trouser ” , 2: ” Pullover ” , 3: ” Dress ” , 4: ”Coat” , 5: ” Sandal ” , 6: ” Shirt ” , 7: ” Sneaker e = plt . f i g u r e () # 抽 取 索 引 为 100 的 数 据 来 显 示 img , l a b e l = training_data [ 1 0 0 ] plt . t i t l e ( labels_map [ l a b e l ] ) #squeeze 函 数 把 为1 的 维 度 去 掉 plt . imshow ( img . squeeze0 码力 | 29 页 | 1.40 MB | 1 年前3
机器学习课程-温州大学-03深度学习-PyTorch入门的 属 性 为 True 定 义 函 数 ( L) 使 用 函 数 的 求 导 方 法 (L. b a c kwa rd( ) ) 对 标 量 求 导 对 非 标 量 求 导 直 接 使 用 L.backward()函 数 配 置 backward()函 数 中 g r a d i e n t 参 数 , 使 其 形 状 与 函 数 L形状一样,其权重一般为1(也可 小于1) () 使 用 t e n s o r.grad.zero_() 清 除 张 量 梯 度 如 果 要 保 留 计 算 图 , 可 通 过 设 置 b a c kw a r d( ) 中 参 数 retain_graph=True 释 放 计 算 图 具体实例可参考书中2.7小节内容 2. Autograd自动求导 18 18 PyTorch 1.x的Tensor不参与求导的几种方式 训练一个分类器 27 3. 神经网络 可以使用torch.nn包来构建神经网络. 你已知道autograd包,nn包依赖autograd 包来定义模型并求导.一个nn.Module包含各个层和一个forward(input)方法,该 方法返回output。 典型的神经网络 28 神经网络关键组件及相互关系 3. 神经网络 29 PyTorch构建网络工具 torch0 码力 | 40 页 | 1.64 MB | 1 年前3
pytorch 入门笔记-03- 神经网络上一讲已经讲过了 autograd,nn 包依赖 autograd 包来定义模型并求导。 一个 nn.Module 包含各个层和一个 forward(input) 方法,该方法返回 output。 例如: 它是一个简单的前馈神经网络,它接受一个输入,然后一层接着一层地传递,最后输出计算的结果。 神经网络的典型训练过程如下: 1. 定义包含一些可学习的参数(或者叫权重)神经网络模型; 2 ): super(Net, self).__init__() # 输入图片通道数为 1,输出通道数为 6,卷积核大小为 (5, 5) self.conv1 = nn.Conv2d(1, 6, 5) # 输入图片通道数为 6,输出通道数为 16,卷积核大小为 (5, 5) self.conv2 = nn.Conv2d(6, 16 nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): # 最大池化层,池化层窗口大小为 (2, 2) x = F.max_pool2d(F.relu(self.conv1(x)), 2) x = F.max_pool2d(F.relu(self0 码力 | 7 页 | 370.53 KB | 1 年前3
AI大模型千问 qwen 中文文档5-7B-Chat", torch_dtype="auto", device_map="auto", attn_implementation="flash_attention_2", ) 请 注 意, 原 Qwen 仓 库 中 的 旧 方 法 chat() 现 在 已 被 generate() 方 法 替 代。 这 里 使 用 了 apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 FlashAttention-2 ,请确保你的 CUDA 版本在 11.6 以上。 准备数据 LLaMA-Factory 在 data 文件夹中提供了多个训练数据集,您可以直接使用它们。如果您打算使用自定义数 据集,请按照以下方式准备您的数据集。 1. 请将您的数据以 json 格式进行组织,并将数据放入 data 文件夹中。LLaMA-Factory 支持以 alpaca 或 sharegpt 格式的数据集。0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer的,但它们没有共享参数。每个 解码器都可以分解成两个子层。 18 2.Transformer的工作流程 从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每 个单词编码时关注输入句子的其他单词。 自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈 神经网络都完全一样(译注:另一种解读就是一层窗口为一个单词的一维卷积神经网络)。 )。 解码器中也有编码器的自注意力(self-attention)层和前馈(feed-forward)层。除此之外, 这两个层之间还有一个注意力层,用来关注输入句子的相关部分(和seq2seq模型的注意力 作用相似)。 19 2.Transformer的工作流程 各种向量或张量是怎样在模型的不同部分中,将输入转化为输出的。 像大部分NLP应用一样,我们首先将每个输入单词通过词嵌入算法转换为词向量。 编码器中 ,它就是下一层编码器的输出(也是一个向量列表)。 向量列表大小是我们可以设置的超参数:一般是我们训练集中最长句子的长度。 20 2.Transformer的工作流程 将输入序列进行词嵌入之后,每个单词都会流经编码器中的两个子层。 Transformer的一个核心特性,在这里 输入序列中每个位置的单词都有自己 独特的路径流入编码器。在自注意力 层中,这些路径之间存在依赖关系。0 码力 | 60 页 | 3.51 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 将位置编码信息加入提取的特征 2.模型介绍 14 位置编码信息对准确率的影响 2.模型介绍 结论:编码有用,但是怎么编码影响不大,干脆用简单的得了 2D(分别计算行和列的编码,然后求和)的效果还不如1D的每一层都加共享的 位置编码也没啥太大用 15 位置编码 2.模型介绍 16 将 3) 的 结 果 喂 入 标 准 Transformer 的 encoder 中 作 者将类别作为一个可学习的 attention 的输入。 可以叠加多层encoder: 2.模型介绍 17 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 2.模型介绍 18 1.背景知识 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 19 模型框架 最简洁的Vision Transformer模型 注意力 注意力 注意力 2.模型介绍 21 左图展示了模型学习到的图嵌入,中图展示了学习到的位置嵌入,右图展示了不同层注意 力的平均距离。 2.模型介绍 22 加入位置信息的原因 如下图所示,将左图的patch打乱,则两个图是不同的,但 对于Transformer的最后一层来说会得到相同的特征(认为是 一个图),为了让其能够识别是两个图,加入位置信息(使 两个图不一样)。 2.模型介绍0 码力 | 34 页 | 2.78 MB | 1 年前3
共 67 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













