预训练 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

RNN训练难题

RNN训练难题主讲人：龙良曲 Simple Yet? ▪ Nothing is straightforward. Gradient Exploding and Gradient Vanishing Why https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html Step 1. Gradient Exploding

0 码力 | 12 页 | 967.80 KB | 1 年前
3
《TensorFlow 2项目进阶实战》2-快速上手篇：动⼿训练模型和部署服务

项目进阶实战》视频课程快速上手篇：动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍 • 使用 TensorFlow 2 训练分类网络目录 TensorFlow 2 Model • Class tf.keras.models.Model 使用 tf.keras.Model 构建模型使用 tf.keras.Model 构建模型使用 tf.keras.Model 训练模型保存和加载 h5 模型保存和加载 SavedModel 模型 Fashion MNIST 数据集介绍 Original MNIST dataset The MNIST database original MNIST Benchmark on Fashion MNIST Benchmark Side-by-side Fashion MNIST dataset 使用 TensorFlow 2 训练分类网络 Get Fashion MNIST dataset from tensorflow I mport keras import tensorflow as tf fashion_mnist

0 码力 | 52 页 | 7.99 MB | 1 年前
3
动手学深度学习 v2.0

3.2.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.7 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.3 线性回归的简洁实现 3.3.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.7 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.4 softmax回归 5 分类精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 3.6.6 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 3.6.7 预测

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . 6 2.4 Keras 支持多个后端引擎，并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . . 3.1.3 编译 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.4 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.5 例子 . . . . . . . . . . . . . . . . . . . . . 29 3.3.6.4 处理已保存模型中的自定义层（或其他自定义对象） . . . . . . . 30 3.3.7 为什么训练误差比测试误差高很多？ . . . . . . . . . . . . . . . . . . . . . . 31 3.3.8 如何获取中间层的输出？ . . . . . . . . . . .

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

第一步，先从大量的文本集中学习词嵌入。第二步，你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中，比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以自己选择要不要继续微调，用新的数据调整词嵌入。 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec （下图左边为CBOW，右边为Skip-Gram） CBOW对小型表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示：这被称为连续词袋结构，并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献第 9 章过拟合 9.1 模型的容量 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献第 12 章自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12 生成对抗网络 13.1 博弈学习实例 13.2 GAN 原理 13.3 DCGAN 实战 13.4 GAN 变种预览版202112 13.5 纳什均衡 13.6 GAN 训练难题 13.7 WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献第 14 章强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

C4.5算法 04 CART算法 4 长相能帅不帅家庭背景好能不好人品好上进心能不能有无不能不好 1.决策树原理 ⚫ 决策树：从训练数据中学习得出一个树状结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始，测 (代表测试条件，对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新数据进行预测。 ⚫ 决策树算法属于监督学习方法。 ⚫ 决策树归纳的基本算法是贪心算法，自顶向下来构建决策树。 ⚫ 贪心算法：在每一步选择中都采取为了尽可能正确分类训练样本，节点的划分过程会不断重复直到不能再分，这样就可能对训练样本学习的“太好”了，把训练样本的一些特点当做所有数据都具有的一般性质，从而导致过拟合。剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）通过剪枝处理去掉一些分支来降低过拟合的风险。 20 C4.5的剪枝预剪枝（prepruning）预剪枝不仅可以降低过拟合的风险而且还可以

0 码力 | 39 页 | 1.84 MB | 1 年前
3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)

2023年06月深度学习-Vision Transformer (ViT) 黄海广副教授 2 03 模型训练策略本章目录 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 3 1.背景知识 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 CNN（如ResNet）是图像分类的最佳解决方案。如果预训练的数据集足够大（至少一亿张图像），则Vision Transformer （ViT）将击败CNN（小幅度） Vision Transformer（ViT）实际上就是Transformer的encode网络。 1.背景知识 8 2.模型介绍 03 模型训练策略 01 背景知识 02 模型介绍 04 2.模型介绍 24 3.模型训练策略 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 25 3.模型训练策略训练策略模型在Dataset A上预训练，在Dataset B上精调，在Dataset B上评估 26 数据集介绍在ImageNet(small)预训练，ViT的效果低于Resnet。

0 码力 | 34 页 | 2.78 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

加了10倍怎么优化？ 2.模型效果优化困难 1.方案复杂 Data Model Compute Platform 要求:  准确: 低噪声  全面: 同分布模型选型:  容量大  计算量小训练推理:  高qps, 低rt  支持超大模型  性价比流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测排序模型模型训练评估 PAI-EAS – 模型推理 model1 model2 … PAI-ABTest A/B流量划分 PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序粗排精排重排 MaxCompute Datahub 离线特征样本构造实时特征 Flink 训练数据推荐日志模型发布 count (1) group by col1,col2 特征组合 + 特征选择  特征选择 • Proxy task: GBDT特征选择 • Variational Dropout: 边训练边选择(NAS) 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 ✗ 海量参数 ✗ 海量数据手里面只有5张图片，

0 码力 | 40 页 | 8.51 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

深度学习-Transformer 黄海广副教授 2 03 Transformer的训练本章目录 01 Transformer介绍 02 Transformer的工作流程 04 BERT 3 1.Transformer介绍 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT Transformer摆脱了人工标注数据集的缺陷，模型在质量上更优、更易于并行化，所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训练数据的分析，可以很好地推广到其他任务 ◼ Transformer，它完全基于注意力机制，完全不用重复和卷积，因而这些模型在质量上更优，同时更易于并行化，并且需要的训练时间明显更少。 ◼ Transformer出现以后，迅速取代了RNN系列变种，跻性，这有力地丰富了大模型的应用场景。参数少速度快效果好 13 2.Transformer的工作流程 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 14 2.Transformer的工作流程从宏观的视角开始首先将这个模型看成是一个黑箱操作。在机器翻译中，就是输入一种语言，输出另一种语言。

0 码力 | 60 页 | 3.51 MB | 1 年前
3

共 65 条前往

页

分类

语言

格式