RNN训练难题RNN训练难题 主讲人:龙良曲 Simple Yet? ▪ Nothing is straightforward. Gradient Exploding and Gradient Vanishing Why https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html Step 1. Gradient Exploding0 码力 | 12 页 | 967.80 KB | 1 年前3
《TensorFlow 2项目进阶实战》2-快速上手篇:动⼿训练模型和部署服务项目进阶实战》视频课程 快速上手篇:动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍 • 使用 TensorFlow 2 训练分类网络 目录 TensorFlow 2 Model • Class tf.keras.models.Model 使用 tf.keras.Model 构建模型 使用 tf.keras.Model 构建模型 使用 tf.keras.Model 训练模型 保存和加载 h5 模型 保存和加载 SavedModel 模型 Fashion MNIST 数据集介绍 Original MNIST dataset The MNIST database original MNIST Benchmark on Fashion MNIST Benchmark Side-by-side Fashion MNIST dataset 使用 TensorFlow 2 训练分类网络 Get Fashion MNIST dataset from tensorflow I mport keras import tensorflow as tf fashion_mnist0 码力 | 52 页 | 7.99 MB | 1 年前3
动手学深度学习 v2.03.2.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.7 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.3 线性回归的简洁实现 3.3.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.7 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.4 softmax回归 5 分类精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 3.6.6 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 3.6.7 预测0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . . 3.1.3 编译 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.4 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.5 例子 . . . . . . . . . . . . . . . . . . . . . 29 3.3.6.4 处理已保存模型中的自定义层(或其他自定义对象) . . . . . . . 30 3.3.7 为什么训练误差比测试误差高很多? . . . . . . . . . . . . . . . . . . . . . . 31 3.3.8 如何获取中间层的输出? . . . . . . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你 可以用更低维度的特征向量代替原来的10000维的one-hot向量,现在你可以用 一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少 量的标记数据集上,你可以自己选择要不要继续微调,用新的数据调整词嵌入。 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram) CBOW对小型 表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示: 这被称为连续词袋结构,并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。0 码力 | 44 页 | 2.36 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021127.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第 12 章 自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12 生成对抗网络 13.1 博弈学习实例 13.2 GAN 原理 13.3 DCGAN 实战 13.4 GAN 变种 预览版202112 13.5 纳什均衡 13.6 GAN 训练难题 13.7 WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献 第 14 章 强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树C4.5算法 04 CART算法 4 长相 能 帅 不帅 家庭背景 好 能 不好 人品 好 上进心 能 不能 有 无 不能 不好 1.决策树原理 ⚫ 决策树:从训练数据中学习得出一个树状 结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 (代表测试条件,对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。 ⚫ 决策树归纳的基本算法是贪心算法 ,自顶向下来构建决策树。 ⚫ 贪心算法:在每一步选择中都采取 为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这 样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据 都具有的一般性质,从而导致过拟合。 剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning) 通过剪枝处理去掉一些分支来降低过拟合的风险。 20 C4.5的剪枝 预剪枝(prepruning) 预剪枝不仅可以降低过拟合的风险而且还可以0 码力 | 39 页 | 1.84 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 2023年06月 深度学习-Vision Transformer (ViT) 黄海广 副教授 2 03 模型训练策略 本章目录 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 3 1.背景知识 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 CNN(如ResNet)是图像分类的最 佳解决方案。 如果预训练的数据集足够大(至少一 亿张图像),则Vision Transformer (ViT)将击败CNN(小幅度) Vision Transformer(ViT)实际上就 是Transformer的encode网络。 1.背景知识 8 2.模型介绍 03 模型训练策略 01 背景知识 02 模型介绍 04 2.模型介绍 24 3.模型训练策略 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 25 3.模型训练策略 训练策略 模型在Dataset A上预训练,在Dataset B上精调,在Dataset B上评估 26 数据集介绍 在ImageNet(small)预训练,ViT的效果低于Resnet。0 码力 | 34 页 | 2.78 MB | 1 年前3
阿里云上深度学习建模实践-程孟力加了10倍怎么优化? 2.模型效果优 化困难 1.方案复杂 Data Model Compute Platform 要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 排 序 模 型 模型训练评估 PAI-EAS – 模型推理 model1 model2 … PAI-ABTest A/B流量划分 PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序 粗排 精排 重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 count (1) group by col1,col2 特征组合 + 特征选择 特征选择 • Proxy task: GBDT特征选择 • Variational Dropout: 边训练边选择(NAS) 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 ✗ 海量参数 ✗ 海量数据 手里面只有5张图片,0 码力 | 40 页 | 8.51 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer深度学习-Transformer 黄海广 副教授 2 03 Transformer的训练 本章目录 01 Transformer介绍 02 Transformer的工作流程 04 BERT 3 1.Transformer介绍 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT Transformer摆脱了人工标注数据集的缺陷,模型在质 量上更优、更易于并行化,所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训 练数据的分析,可以很好地推广到其他任务 ◼ Transformer,它完全基于注意力机制, 完全不用重复 和卷积,因而这些模型在质量上更优,同时更易于并 行化,并且需要的训练时间明显更少。 ◼ Transformer出现以后,迅速取代了RNN系列变种,跻 性,这有力地丰富了大模型的应用场景。 参数少 速度快 效果好 13 2.Transformer的工作流程 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 14 2.Transformer的工作流程 从宏观的视角开始 首先将这个模型看成是一个黑箱操作。在机器翻译中,就 是输入一种语言,输出另一种语言。0 码力 | 60 页 | 3.51 MB | 1 年前3
共 65 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













