反斜杠灾难 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

max(ok)具有较大的负值。由于精度受限，exp(oj − max(ok))将有接近零的值，即下溢（underflow）。这些值可能会四舍五入为零，使ˆyj为零，并且使得log(ˆyj)的值为-inf。反向传播几步后，我们可能会发现自己面对一屏幕可怕的nan结果。尽管我们要计算指数函数，但我们最终在计算交叉熵损失时会取它们的对数。通过将softmax和交叉熵结合在一起，可以避免反向传播过程急于开发模型，而不关注这些基本问题。许多失败的机器学习部署（即实际应用）都可以追究到这种方式。有时，根据测试集的精度衡量，模型表现得非常出色。但是当数据分布突然改变时，模型在部署中会出现灾难性的失败。更隐蔽的是，有时模型的部署本身就是扰乱数据分布的催化剂。举一个有点荒谬却可能真实存在的例子。假设我们训练了一个贷款申请人违约风险模型，用来预测谁将偿还贷款或违约。这个模型发现申请人的鞋子与违约风险相关（穿牛津鞋申的鞋子与违约风险相关（穿牛津鞋申请人会偿还，穿运动鞋申请人会违约）。此后，这个模型可能倾向于向所有穿着牛津鞋的申请人发放贷款，并拒绝所有穿着运动鞋的申请人。这种情况可能会带来灾难性的后果。首先，一旦模型开始根据鞋类做出决定，顾客就会理解并改变他们的行为。不久，所有的申请者都会穿牛津鞋，而信用度却没有相应的提高。总而言之，机器学习的许多应用中都存在类似的问题：通过将基于模型的决策引入环境，我们可能会破坏模型。

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述维数灾难维数灾难涉及数字

0 码力 | 51 页 | 3.14 MB | 1 年前
3
华为云深度学习在文本分类中的实践-李明磊

神经网络语言模型 2003  神经网络NLP里程碑： Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难预训练+微调注意力机制端到端训练符号-向量 8 预训练+微调大规模语料训练通用语言模型在目标语料上微调语言模型在目标语料上训练分类器 … … BERT E[

0 码力 | 23 页 | 1.80 MB | 1 年前
3
机器学习课程-温州大学-特征工程

selection)：从给定的特征集合中选出相关特征子集的过程。相关特征 • 对当前学习任务有用的属性或者特征无关特征 • 对当前学习任务没用的属性或者特征原因：维数灾难问题；去除无关特征可以降低学习任务的难度，简化模型，降低计算复杂度目的：确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究

0 码力 | 38 页 | 1.28 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

1982 年，随着 John Hopfild 的循环连接的 Hopfield 网络的提出，开启了 1982 年~1995 年的第二次人工智能复兴的大潮，这段期间相继提出了卷积神经网络、循环神经网络、反向传播算法等算法模型。1986 年，David Rumelhart 和 Geoffrey Hinton 等人将 BP 算法应用在多层感知机上；1989 年 Yann LeCun 等人将 BP 算法应用在手写数字图片识别上，取得什么特征，使得层数越深，网络的表达能力越强呢？ 2014 年，Matthew D. Zeiler 等人 [5]尝试利用可视化的方法去理解卷积神经网络到底学到了什么。通过将每层的特征图利用“反卷积”网络(Deconvolutional Network)映射回输入图片，即可查看学到的特征分布，如图 10.32 所示。可以观察到，第二层的特征对应到边、角、色彩等底层图像提取；第三层开始捕获到纹理这些中层特征；第四、五层呈现了转置卷积(Transposed Convolution，或 Fractionally Strided Convolution，部分资料也称之为反卷积/Deconvolution，实际上反卷积在数学上定义为卷积的逆过程，但转置卷积并不能恢复出原卷积的输入，因此称为反卷积并不妥当)通过在输入之间填充大量的 padding 来实现输出高宽大于输入高宽的效果，从而实现向上采样的目的，如图 10.54 所示。我们先

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

支持，①对变量求导示例 v=tf.Variable([3.2, 4.3], dtype=tf.float16)， #TensorFlow一般使用梯度磁带tf.GradientTape来记录正向运算过程，然后反播磁带自动得到梯度值。 ②对常量也可求导，需要增加 watch。 ③对tf.Variable可以通过参数 trainable 控制是否可学习，缺省是True。是否支持GPU 不支持支持支持

0 码力 | 40 页 | 1.64 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

这个数据用来联合监督学习，对GPT-3进行微调对这个prompt训练的数据集和若干模型的结果进行抽样 Labeler(标记者)从最优到最差将输出结果进行排序这个数据用来训练反馈模型新的prompt从数据集中抽样借助模型生成输出反馈模型为输出计算一个反馈结果反馈结果用来优化策略 41 ChatGPT得益于通用（基础）模型所构建 AI

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None) 转置卷积层 (有时被成为反卷积)。对转置卷积的需求一般来自希望使用与正常卷积相反方向的变换，即，将具有卷积输出尺寸的东西转换为具有卷积输入尺寸的东西，同时保持与所述卷积相容的连通性模式。当使用该层作为模型第一层时，需要提供 conv2d_transpose(x, kernel, output_shape, strides=(1, 1), padding='valid', data_format=None) 后端 BACKEND 217 2D 反卷积 (即转置卷积)。参数 • x: 张量或变量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整型张量。 • strides: 步长元组。 • padding: conv3d_transpose(x, kernel, output_shape, strides=(1, 1, 1), padding='valid', data_format=None) 3D 反卷积 (即转置卷积)。参数 • x: 输入张量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整数张量。 • strides: 步长元组。 • padding:

0 码力 | 257 页 | 1.19 MB | 1 年前
3

共 8 条前往

页

动手深度学习 v2 机器课程温州大学 11 降维华为文本分类实践李明磊特征工程 PyTorch 深度学习 03 入门 12 自然语言自然语言处理嵌入 Keras 基于 Python

分类

语言

格式