 动手学深度学习 v2.0max(ok)具有较大的负值。由于精度受限,exp(oj − max(ok))将有 接近零的值,即下溢(underflow)。这些值可能会四舍五入为零,使ˆyj为零,并且使得log(ˆyj)的值为-inf。反 向传播几步后,我们可能会发现自己面对一屏幕可怕的nan结果。 尽管我们要计算指数函数,但我们最终在计算交叉熵损失时会取它们的对数。通过将softmax和交叉熵结 合在一起,可以避免反向传播过程 急于开发模型,而 不关注这些基本问题。 许多失败的机器学习部署(即实际应用)都可以追究到这种方式。有时,根据测试集的精度衡量,模型表现 得非常出色。但是当数据分布突然改变时,模型在部署中会出现灾难性的失败。更隐蔽的是,有时模型的部 署本身就是扰乱数据分布的催化剂。举一个有点荒谬却可能真实存在的例子。假设我们训练了一个贷款申请 人违约风险模型,用来预测谁将偿还贷款或违约。这个模型发现申请人的鞋子与违约风险相关(穿牛津鞋申 的鞋子与违约风险相关(穿牛津鞋申 请人会偿还,穿运动鞋申请人会违约)。此后,这个模型可能倾向于向所有穿着牛津鞋的申请人发放贷款,并 拒绝所有穿着运动鞋的申请人。 这种情况可能会带来灾难性的后果。首先,一旦模型开始根据鞋类做出决定,顾客就会理解并改变他们的行 为。不久,所有的申请者都会穿牛津鞋,而信用度却没有相应的提高。总而言之,机器学习的许多应用中都 存在类似的问题:通过将基于模型的决策引入环境,我们可能会破坏模型。0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0max(ok)具有较大的负值。由于精度受限,exp(oj − max(ok))将有 接近零的值,即下溢(underflow)。这些值可能会四舍五入为零,使ˆyj为零,并且使得log(ˆyj)的值为-inf。反 向传播几步后,我们可能会发现自己面对一屏幕可怕的nan结果。 尽管我们要计算指数函数,但我们最终在计算交叉熵损失时会取它们的对数。通过将softmax和交叉熵结 合在一起,可以避免反向传播过程 急于开发模型,而 不关注这些基本问题。 许多失败的机器学习部署(即实际应用)都可以追究到这种方式。有时,根据测试集的精度衡量,模型表现 得非常出色。但是当数据分布突然改变时,模型在部署中会出现灾难性的失败。更隐蔽的是,有时模型的部 署本身就是扰乱数据分布的催化剂。举一个有点荒谬却可能真实存在的例子。假设我们训练了一个贷款申请 人违约风险模型,用来预测谁将偿还贷款或违约。这个模型发现申请人的鞋子与违约风险相关(穿牛津鞋申 的鞋子与违约风险相关(穿牛津鞋申 请人会偿还,穿运动鞋申请人会违约)。此后,这个模型可能倾向于向所有穿着牛津鞋的申请人发放贷款,并 拒绝所有穿着运动鞋的申请人。 这种情况可能会带来灾难性的后果。首先,一旦模型开始根据鞋类做出决定,顾客就会理解并改变他们的行 为。不久,所有的申请者都会穿牛津鞋,而信用度却没有相应的提高。总而言之,机器学习的许多应用中都 存在类似的问题:通过将基于模型的决策引入环境,我们可能会破坏模型。0 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-11机器学习-降维维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 中,随着维数的增加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万 个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增 加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述 维数灾难 维数灾难涉及数字0 码力 | 51 页 | 3.14 MB | 1 年前3 机器学习课程-温州大学-11机器学习-降维维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 中,随着维数的增加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万 个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增 加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述 维数灾难 维数灾难涉及数字0 码力 | 51 页 | 3.14 MB | 1 年前3
 华为云深度学习在文本分类中的实践-李明磊神经网络 语言模型 2003  神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难 预训练+微调 注意力机制 端到端训练 符号-向量 8 预训练+微调 大规模语料训练通 用语言模型 在目标语料上微调 语言模型 在目标语料上训练 分类器 … … BERT E[0 码力 | 23 页 | 1.80 MB | 1 年前3 华为云深度学习在文本分类中的实践-李明磊神经网络 语言模型 2003  神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难 预训练+微调 注意力机制 端到端训练 符号-向量 8 预训练+微调 大规模语料训练通 用语言模型 在目标语料上微调 语言模型 在目标语料上训练 分类器 … … BERT E[0 码力 | 23 页 | 1.80 MB | 1 年前3
 机器学习课程-温州大学-特征工程selection):从给 定的特征集合中选出相关特征子集的 过程。 相关特征 • 对当前学习任务有用 的属性或者特征 无关特征 • 对当前学习任务没用 的属性或者特征 原因:维数灾难问题;去除无关特征可 以降低学习任务的难度,简化模型,降 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程selection):从给 定的特征集合中选出相关特征子集的 过程。 相关特征 • 对当前学习任务有用 的属性或者特征 无关特征 • 对当前学习任务没用 的属性或者特征 原因:维数灾难问题;去除无关特征可 以降低学习任务的难度,简化模型,降 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究0 码力 | 38 页 | 1.28 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版2021121982 年,随着 John Hopfild 的循环连接的 Hopfield 网络的提出,开启了 1982 年~1995 年的第二次人工智能复兴的大潮,这段期间相继提出了卷积神经网络、循环神经网络、反 向传播算法等算法模型。1986 年,David Rumelhart 和 Geoffrey Hinton 等人将 BP 算法应用 在多层感知机上;1989 年 Yann LeCun 等人将 BP 算法应用在手写数字图片识别上,取得 什么 特征,使得层数越深,网络的表达能力越强呢? 2014 年,Matthew D. Zeiler 等人 [5]尝试利用可视化的方法去理解卷积神经网络到底 学到了什么。通过将每层的特征图利用“反卷积”网络(Deconvolutional Network)映射回输 入图片,即可查看学到的特征分布,如图 10.32 所示。可以观察到,第二层的特征对应到 边、角、色彩等底层图像提取;第三层开始捕获到纹理这些中层特征;第四、五层呈现了 转置卷积(Transposed Convolution,或 Fractionally Strided Convolution,部分资料也称 之为反卷积/Deconvolution,实际上反卷积在数学上定义为卷积的逆过程,但转置卷积并不 能恢复出原卷积的输入,因此称为反卷积并不妥当)通过在输入之间填充大量的 padding 来 实现输出高宽大于输入高宽的效果,从而实现向上采样的目的,如图 10.54 所示。我们先0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版2021121982 年,随着 John Hopfild 的循环连接的 Hopfield 网络的提出,开启了 1982 年~1995 年的第二次人工智能复兴的大潮,这段期间相继提出了卷积神经网络、循环神经网络、反 向传播算法等算法模型。1986 年,David Rumelhart 和 Geoffrey Hinton 等人将 BP 算法应用 在多层感知机上;1989 年 Yann LeCun 等人将 BP 算法应用在手写数字图片识别上,取得 什么 特征,使得层数越深,网络的表达能力越强呢? 2014 年,Matthew D. Zeiler 等人 [5]尝试利用可视化的方法去理解卷积神经网络到底 学到了什么。通过将每层的特征图利用“反卷积”网络(Deconvolutional Network)映射回输 入图片,即可查看学到的特征分布,如图 10.32 所示。可以观察到,第二层的特征对应到 边、角、色彩等底层图像提取;第三层开始捕获到纹理这些中层特征;第四、五层呈现了 转置卷积(Transposed Convolution,或 Fractionally Strided Convolution,部分资料也称 之为反卷积/Deconvolution,实际上反卷积在数学上定义为卷积的逆过程,但转置卷积并不 能恢复出原卷积的输入,因此称为反卷积并不妥当)通过在输入之间填充大量的 padding 来 实现输出高宽大于输入高宽的效果,从而实现向上采样的目的,如图 10.54 所示。我们先0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-03深度学习-PyTorch入门支持,①对变量求导示例 v=tf.Variable([3.2, 4.3], dtype=tf.float16), #TensorFlow一 般使用梯度磁 带tf.GradientTape来记 录正向 运算过程,然后反播磁带自动 得到梯度值。 ②对常量也可求导,需要增加 watch。 ③对tf.Variable可以通过参数 trainable 控制是否可学习,缺 省是True。 是否支持GPU 不支持 支持 支持0 码力 | 40 页 | 1.64 MB | 1 年前3 机器学习课程-温州大学-03深度学习-PyTorch入门支持,①对变量求导示例 v=tf.Variable([3.2, 4.3], dtype=tf.float16), #TensorFlow一 般使用梯度磁 带tf.GradientTape来记 录正向 运算过程,然后反播磁带自动 得到梯度值。 ②对常量也可求导,需要增加 watch。 ③对tf.Variable可以通过参数 trainable 控制是否可学习,缺 省是True。 是否支持GPU 不支持 支持 支持0 码力 | 40 页 | 1.64 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入这个数据用来联合监 督学习,对GPT-3进 行微调 对这个prompt训练的数据集 和若干模型的结果进行抽样 Labeler(标记者)从 最优到最差将输出 结果进行排序 这个数据用来训练反 馈模型 新的prompt从 数据集中抽样 借助模型生成输出 反馈模型为输出计算 一个反馈结果 反馈结果用来优化策 略 41 ChatGPT得益于通用(基础)模型所构建 AI0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入这个数据用来联合监 督学习,对GPT-3进 行微调 对这个prompt训练的数据集 和若干模型的结果进行抽样 Labeler(标记者)从 最优到最差将输出 结果进行排序 这个数据用来训练反 馈模型 新的prompt从 数据集中抽样 借助模型生成输出 反馈模型为输出计算 一个反馈结果 反馈结果用来优化策 略 41 ChatGPT得益于通用(基础)模型所构建 AI0 码力 | 44 页 | 2.36 MB | 1 年前3
 Keras: 基于 Python 的深度学习库bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None) 转置卷积层 (有时被成为反卷积)。 对转置卷积的需求一般来自希望使用与正常卷积相反方向的变换,即,将具有卷积输出尺 寸的东西转换为具有卷积输入尺寸的东西,同时保持与所述卷积相容的连通性模式。 当使用该层作为模型第一层时,需要提供 conv2d_transpose(x, kernel, output_shape, strides=(1, 1), padding='valid', data_format=None) 后端 BACKEND 217 2D 反卷积 (即转置卷积)。 参数 • x: 张量或变量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整型张量。 • strides: 步长元组。 • padding: conv3d_transpose(x, kernel, output_shape, strides=(1, 1, 1), padding='valid', data_format=None) 3D 反卷积 (即转置卷积)。 参数 • x: 输入张量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整数张量。 • strides: 步长元组。 • padding:0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None) 转置卷积层 (有时被成为反卷积)。 对转置卷积的需求一般来自希望使用与正常卷积相反方向的变换,即,将具有卷积输出尺 寸的东西转换为具有卷积输入尺寸的东西,同时保持与所述卷积相容的连通性模式。 当使用该层作为模型第一层时,需要提供 conv2d_transpose(x, kernel, output_shape, strides=(1, 1), padding='valid', data_format=None) 后端 BACKEND 217 2D 反卷积 (即转置卷积)。 参数 • x: 张量或变量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整型张量。 • strides: 步长元组。 • padding: conv3d_transpose(x, kernel, output_shape, strides=(1, 1, 1), padding='valid', data_format=None) 3D 反卷积 (即转置卷积)。 参数 • x: 输入张量。 • kernel: 核张量。 • output_shape: 表示输出尺寸的 1D 整数张量。 • strides: 步长元组。 • padding:0 码力 | 257 页 | 1.19 MB | 1 年前3
共 8 条
- 1













