 【PyTorch深度学习-龙龙老师】-测试版202112测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9.7 数据增强 9.8 过拟合问题实战 9.9 参考文献 第 10 章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络 10.3 欠拟合 我们来考虑欠拟合的现象。如图 9.6 中所示,黑色圆点和绿色矩形点均独立采样自某 抛物线函数的分布,在已知数据的真实模型的条件下,如果用模型容量小于真实模型的线 性函数去回归这些数据,会发现很难找到一条线性函数较好地逼近训练集数据的模态,具 体表现为学习到的线性模型在训练集上的误差(如均方误差)较大,同时在测试集上面的误 差也较大。 图 9.6 典型的欠拟合模型 当我们发现当 13 -0.1104 0.0785 0 预览版202112 9.6 Dropout 13 图 9.20 正则化系数:0.00001 图 9.21 正则化系数:0.001 图 9.22 正则化系数:0.1 图 9.23 正则化系数:0.13 9.6 Dropout 2012 年,Hinton 等人在其论文《Improving0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9.7 数据增强 9.8 过拟合问题实战 9.9 参考文献 第 10 章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络 10.3 欠拟合 我们来考虑欠拟合的现象。如图 9.6 中所示,黑色圆点和绿色矩形点均独立采样自某 抛物线函数的分布,在已知数据的真实模型的条件下,如果用模型容量小于真实模型的线 性函数去回归这些数据,会发现很难找到一条线性函数较好地逼近训练集数据的模态,具 体表现为学习到的线性模型在训练集上的误差(如均方误差)较大,同时在测试集上面的误 差也较大。 图 9.6 典型的欠拟合模型 当我们发现当 13 -0.1104 0.0785 0 预览版202112 9.6 Dropout 13 图 9.20 正则化系数:0.00001 图 9.21 正则化系数:0.001 图 9.22 正则化系数:0.1 图 9.23 正则化系数:0.13 9.6 Dropout 2012 年,Hinton 等人在其论文《Improving0 码力 | 439 页 | 29.91 MB | 1 年前3
 动手学深度学习 v2.09.5.5 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6 这种情况,单词级词元化 仍然是个好主意吗?为什么? Discussions114 114 https://discuss.d2l.ai/t/2776 9.5. 机器翻译与数据集 363 9.6 编码器-解码器架构 正如我们在 9.5节中所讨论的,机器翻译是序列转换模型的一个核心问题,其输入和输出都是长度可变的序 列。为了处理这种类型的输入和输出,我们可以设计一个包含两个主要组件的架构:第一个组件是一个编码器 dec_state) “编码器-解码器”体系架构中的术语状态会启发人们使用具有状态的神经网络来实现该架构。在下一节中, 我们将学习如何应用循环神经网络,来设计基于“编码器-解码器”架构的序列转换模型。 9.6. 编码器-解码器架构 365 小结 • “编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问 题。 • 编码器将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.09.5.5 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6 这种情况,单词级词元化 仍然是个好主意吗?为什么? Discussions114 114 https://discuss.d2l.ai/t/2776 9.5. 机器翻译与数据集 363 9.6 编码器-解码器架构 正如我们在 9.5节中所讨论的,机器翻译是序列转换模型的一个核心问题,其输入和输出都是长度可变的序 列。为了处理这种类型的输入和输出,我们可以设计一个包含两个主要组件的架构:第一个组件是一个编码器 dec_state) “编码器-解码器”体系架构中的术语状态会启发人们使用具有状态的神经网络来实现该架构。在下一节中, 我们将学习如何应用循环神经网络,来设计基于“编码器-解码器”架构的序列转换模型。 9.6. 编码器-解码器架构 365 小结 • “编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问 题。 • 编码器将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。0 码力 | 797 页 | 29.45 MB | 1 年前3
共 2 条
- 1













