更新丢失 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

000个二分类问题，每个都很容易计算，每次迭代我们要做的只是训练它们其中的5个，一般而言就是? + 1个，其中?个负样本和1个正样本。这也是为什么这个算法计算成本更低，因为只需更新? + 1个逻辑单元， ? + 1个二分类问题，相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? ?? = ? ?? 3 4 σ?=1 10,000 ? ?? 3 4 20 3.Word2Vec 实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型，比之前的任何非稀疏语言模型多10倍。对于所有任务（在few-shot设置下测试其性能），GPT-3都是在没有任何梯度更新或微调的情况下应用的，仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多NLP数据集上都有很强的性能（包括翻译、问题解答和完形填空任务），以及一些需要动态推理或领域适应的任务（如解更好的模型，吸引更多用户，从而产生更多用户数据用于训练，形成良性循环）。 ✓ 研究发现，每增加参数都带来了文本合成和/或下游NLP任务的改进，有证据表明，日志丢失与许多下游任务密切相关，随着规模的增长，日志丢失呈现平稳的改善趋势。资料来源：《On the Opportunities and Risks of Foundation Models 》论文图：基础模型可以集中来自各种模态的所有数据的信息，

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

/ LSTM原理 Ref: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 1，单元状态丢弃 2，新信息选择 3，单元状态更新 4，确定输出使用深度学习解决NLP问题 03 深度学习用于各类型文本应用的实践方法文本挖掘各种类型应用的处理框架文本数据结果预处理输出层表示层隐层不同深度学习模型智能文档审阅平台错误智能纠正功能文档智能比对功能常见应用场景智能文档审阅系统：抽取核心算法智能文档审阅系统：段落分析 PDF格式文本数据丢失段落信息使用深度学习进行段落分析生成式摘要生成式摘要的深度学习网络基本结构 l 编码器/解码器结构，都是神经网络结构 l 输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息，组合成生成式摘要 Rouge指标优化 Reward 文本摘要候选集生成更新模型反馈增强学习优化深度学习模型评分强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布：MLE（最大似然），有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价：不可导，无法采用梯度下降的方式训练，考虑强化学习，鼓励reward高的模型，通过给与反馈来更新模型。最终训练得到表现最好的模型。生成式摘要

0 码力 | 46 页 | 25.61 MB | 1 年前
3
动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.1 随机梯度更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.2 动态学习率 . . 16.2.3 运行和停止实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 749 16.2.4 更新Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 749 16.3 使用Amazon 我们着手创建的资源可以：（1）每个人都可以免费获得；（2）提供足够的技术深度，为真正成为一名应用机器学习科学家提供起步；（3）包括可运行的代码，向读者展示如何解决实践中的问题；（4）允许我们和社区的快速更新;（5）由一个论坛2作为补充，用于技术细节的互动讨论和回答问题。这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页原生是HTML和Jav

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 本书主页，以及源代码，电子书下载，正式版也会在此同步更新： https://github.com/dragen1860/Deep-Learning-with-PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》：则指向函数值减少的方向。利用这一性质，只需要按照 ?′ = ? − ? ∙ ∇? (2.1) 来迭代更新?′，就能获得越来越小的函数值，其中?用来缩放梯度向量，一般设置为某较小的值，如 0.01、0.001 等。特别地，对于一维函数，上述向量形式可以退化成标量形式： ?′ = ? − ? ∙ d? d? 通过上式迭代更新?′若干次，这样得到的?′处的函数值?′，总是更有可能比在?处的函数值? 小。通过式(2 通过式(2.1)方式优化参数的方法称为梯度下降算法，它通过循环计算函数的梯度∇?并更新待优化参数?，从而得到函数?获得极小值时参数?的最优数值解?∗。值得注意的是，在深度学习中，一般?表示模型输入，模型的待优化参数一般用?、?、?等符号表示。现在利用速学的梯度下降算法来求解?∗和?∗参数。这里要最小化的目标是均方误差函数ℒ： ℒ = 1 ? ∑(??(?) + ? − ?(

0 码力 | 439 页 | 29.91 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

• PS快速failover  Compaction机制，降低load数据量 • Online Learning对数据流的要求  不重不丢：重复的数据会使模型有偏，数据的缺失会使模型丢失重要信息  数据有序性：数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架，通过组合方式支持多流拼接  基于Event Time的Window机制拼接方式  基于Low

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-特征工程

对当前学习任务有用的属性或者特征无关特征 • 对当前学习任务没用的属性或者特征原因：维数灾难问题；去除无关特征可以降低学习任务的难度，简化模型，降低计算复杂度目的：确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征，模型的性能会提升 •

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

通过减少特征的维数，数据集存储所需的空间也相应减少，减少了特征维数所需的计算训练时间； • 数据集特征的降维有助于快速可视化数据； • 通过处理多重共线性消除冗余特征。降维的缺点： • 由于降维可能会丢失一些数据； • 在主成分分析(PCA)降维技术中，有时需要考虑多少主成分是难以确定的，往往使用经验法则 12 1.降维概述 13 2.SVD(奇异值分解) 01 降维概述 02

0 码力 | 51 页 | 3.14 MB | 1 年前
3
机器学习课程-温州大学-02深度学习-神经网络的编程基础

梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和小批量梯度下降（Mini-Batch Gradient Descent,MBGD）梯度下降的每一步中，用到了一定批量的训练样本 12 梯度下降的三种形式批量梯度下降（Batch Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 13梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 15 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本每计算常数?次训练实例，便更新一次参数 ? ?=1（随机梯度下降

0 码力 | 27 页 | 1.54 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

N 个样本的集合。每一个 batch 的样本都是独立并行处理的。在训练时，一个 batch 的结果只会用来更新一次模型。 - 一个 batch 的样本通常比单个输入更接近于总体输入数据的分布，batch 越大就越近似。然而，每个 batch 将花费更长的时间来处理，并且仍然只更新模型一次。在推理（评估/预测）时，建议条件允许的情况下选择一个尽可能大的 batch，（因为较大的 batch validation_split=0.2) print(hist.history) 快速开始 33 3.3.14 如何「冻结」网络层？「冻结」一个层意味着将其排除在训练之外，即其权重将永远不会更新。这在微调模型或使用固定的词向量进行文本输入中很有用。您可以将 trainable 参数（布尔值）传递给一个层的构造器，以将该层设置为不可训练的： frozen_layer = Dense(32 Model(x, y) # 在下面的模型中，训练期间不会更新层的权重 frozen_model.compile(optimizer='rmsprop', loss='mse') layer.trainable = True trainable_model = Model(x, y) # 使用这个模型，训练期间 `layer` 的权重将被更新 # (这也会影响上面的模型，因为它使用了同一个网络层实例)

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和小批量梯度下降（Mini-Batch Gradient Descent,MBGD）梯度下降的每一步中，用到了一定批量的训练样本 14 梯度下降的三种形式批量梯度下降（Batch Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 15梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 17 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本每计算常数?次训练实例，便更新一次参数 ? ?=1（随机梯度下降

0 码力 | 33 页 | 1.50 MB | 1 年前
3

共 33 条前往

页

分类

语言

格式