 动手学深度学习 v2.0运算符 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.1.3 广播机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.1.4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.4.1 隐马尔可夫模型中的动态规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.4.2 双向模型 . . . . . . . . . . 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 10 注意力机制 381 10.1 注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0运算符 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.1.3 广播机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.1.4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.4.1 隐马尔可夫模型中的动态规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.4.2 双向模型 . . . . . . . . . . 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 10 注意力机制 381 10.1 注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
 超大规模深度学习在美团的应用-余建平数据并行计算,加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式  增量提供ACK机制,确保模型正确性 Parameter Server • 模型数据的统一管理  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致  NN网络矩阵按行切分,解决请求包不均衡问题 PS快速failover  Compaction机制,降低load数据量 • Online Learning对数据流的要求  不重不丢:重复的数据会使模型有偏,数据的缺失 会使模型丢失重要信息  数据有序性:数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架,通过组合方式支持多流拼接  基于Event Time的Window机制拼接方式  基于Low Watermark解决流乱序、流延迟等流式常 Watermark解决流乱序、流延迟等流式常 见问题 流式拼接框架 • Low Watermark机制  定义了流式数据的时钟,不可逆性  Smooth low watermark:异常数据时间跳变 流式拼接 • Checkpoint解决不重不丢问题  外存解决大数据量性能问题  在引擎中流转log key,特征数据在外存 • 分业务场景支持  轻量级predictor:仅支0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平数据并行计算,加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式  增量提供ACK机制,确保模型正确性 Parameter Server • 模型数据的统一管理  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致  NN网络矩阵按行切分,解决请求包不均衡问题 PS快速failover  Compaction机制,降低load数据量 • Online Learning对数据流的要求  不重不丢:重复的数据会使模型有偏,数据的缺失 会使模型丢失重要信息  数据有序性:数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架,通过组合方式支持多流拼接  基于Event Time的Window机制拼接方式  基于Low Watermark解决流乱序、流延迟等流式常 Watermark解决流乱序、流延迟等流式常 见问题 流式拼接框架 • Low Watermark机制  定义了流式数据的时钟,不可逆性  Smooth low watermark:异常数据时间跳变 流式拼接 • Checkpoint解决不重不丢问题  外存解决大数据量性能问题  在引擎中流转log key,特征数据在外存 • 分业务场景支持  轻量级predictor:仅支0 码力 | 41 页 | 5.96 MB | 1 年前3
 Keras: 基于 Python 的深度学习库实现这个目标的一种方法是建立一个模型,将两条推文编码成两个向量,连接向量,然后 添加逻辑回归层;这将输出两条推文来自同一作者的概率。模型将接收一对对正负表示的推特 数据。 由于这个问题是对称的,编码第一条推文的机制应该被完全重用来编码第二条推文。这里 我们使用一个共享的 LSTM 层来编码推文。 让我们使用函数式 API 来构建它。首先我们将一条推特转换为一个尺寸为 (140, 256) 的 矩阵,即每条推特 by_name=True) 3.3.6.4 处理已保存模型中的自定义层(或其他自定义对象) 如果要加载的模型包含自定义层或其他自定义类或函数,则可以通过 custom_objects 参数将 它们传递给加载机制: from keras.models import load_model # 假设你的模型包含一个 AttentionLayer 类的实例 model = load_model('my_model custom_objects={'AttentionLayer': AttentionLayer}) 3.3.7 为什么训练误差比测试误差高很多? Keras 模型有两种模式:训练和测试。正则化机制,如 Dropout 和 L1/L2 权重正则化,在测 试时是关闭的。 此外,训练误差是每批训练数据的平均误差。由于你的模型是随着时间而变化的,一个 epoch 中的第一批数据的误差通常比最后0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库实现这个目标的一种方法是建立一个模型,将两条推文编码成两个向量,连接向量,然后 添加逻辑回归层;这将输出两条推文来自同一作者的概率。模型将接收一对对正负表示的推特 数据。 由于这个问题是对称的,编码第一条推文的机制应该被完全重用来编码第二条推文。这里 我们使用一个共享的 LSTM 层来编码推文。 让我们使用函数式 API 来构建它。首先我们将一条推特转换为一个尺寸为 (140, 256) 的 矩阵,即每条推特 by_name=True) 3.3.6.4 处理已保存模型中的自定义层(或其他自定义对象) 如果要加载的模型包含自定义层或其他自定义类或函数,则可以通过 custom_objects 参数将 它们传递给加载机制: from keras.models import load_model # 假设你的模型包含一个 AttentionLayer 类的实例 model = load_model('my_model custom_objects={'AttentionLayer': AttentionLayer}) 3.3.7 为什么训练误差比测试误差高很多? Keras 模型有两种模式:训练和测试。正则化机制,如 Dropout 和 L1/L2 权重正则化,在测 试时是关闭的。 此外,训练误差是每批训练数据的平均误差。由于你的模型是随着时间而变化的,一个 epoch 中的第一批数据的误差通常比最后0 码力 | 257 页 | 1.19 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 PyTorch 框架在学术圈广受好评,绝大多数 最新算法是基于 PyTorch 实现的,众多的第三方 AI 框架应用,例如 mmdetection、mmaction2、 transformer、speechbrain 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出 现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 些具体任务场景强相 关的,一旦场景发生了变动,这些依靠人工设计的特征和先验设定无法自适应新场景,因 此需要重新设计算法模型,模型的通用性不强。 设计一种像人脑一样可以自动学习、自我调整的通用智能机制一直是人类的共同愿 景。从目前来看,深度学习是最接近通用智能的算法之一。在计算机视觉领域,过去需要 针对具体的任务设计特征、添加先验假设的做法,已经被深度学习算法彻底抛弃了,目前 在图片识别、目标0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 PyTorch 框架在学术圈广受好评,绝大多数 最新算法是基于 PyTorch 实现的,众多的第三方 AI 框架应用,例如 mmdetection、mmaction2、 transformer、speechbrain 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出 现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 些具体任务场景强相 关的,一旦场景发生了变动,这些依靠人工设计的特征和先验设定无法自适应新场景,因 此需要重新设计算法模型,模型的通用性不强。 设计一种像人脑一样可以自动学习、自我调整的通用智能机制一直是人类的共同愿 景。从目前来看,深度学习是最接近通用智能的算法之一。在计算机视觉领域,过去需要 针对具体的任务设计特征、添加先验假设的做法,已经被深度学习算法彻底抛弃了,目前 在图片识别、目标0 码力 | 439 页 | 29.91 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参 模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(B0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参 模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(B0 码力 | 36 页 | 16.69 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, 完全不用重复和卷积,因而这些模型在质量上更优,同时更易于并行化,并 且需要的训练时间明显更少。 生成对抗方式,即通过GAN实现目标属性和 文本量性完全由不同的编码控制的状态。 对话式文本生成适用于智能客服等任务型和闲聊型机器人等 非任务型人机交互场景,可分类为管道模式及端对端模式。 结构性的文本生成,首先通过注意力机制、多层感知器等系 统进行语句内容预选,对数值、时间等类型数据进行推理。 增强数据间的结构信息。其次通过Transformer等模式结合 上下文进行推导,生成最终文本。 ◼ Transform0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, 完全不用重复和卷积,因而这些模型在质量上更优,同时更易于并行化,并 且需要的训练时间明显更少。 生成对抗方式,即通过GAN实现目标属性和 文本量性完全由不同的编码控制的状态。 对话式文本生成适用于智能客服等任务型和闲聊型机器人等 非任务型人机交互场景,可分类为管道模式及端对端模式。 结构性的文本生成,首先通过注意力机制、多层感知器等系 统进行语句内容预选,对数值、时间等类型数据进行推理。 增强数据间的结构信息。其次通过Transformer等模式结合 上下文进行推导,生成最终文本。 ◼ Transform0 码力 | 44 页 | 2.36 MB | 1 年前3
 PyTorch OpenVINO 开发实战系列教程第一篇节点之间流动,最终输出,因此计算图又被称为数据流图。 根据构建计算图的方式不同还可以分为静态图与动态图, Pytorch 默认是基于动态图的方式构建计算图,动态图采用类 似 python 语法,可以随时运行,灵活修改调整;而静态图则 是效率优先,但是在图构建完成之前无法直接运行。可以看出 动态图更加趋向于开发者平时接触的面向对象的编程方式,也 更容易被开发者理解与接受。下图是一个简单的计算图示例: 然后我们可以通过下面的公式来更新 k、b 两个参数: 更新参数 (k, b)= 参数 (k, b)- 学习率 * 对应参数梯度(公式 1-3) 其中学习率通常用 η 表示,对应的每个参数梯度则根据深度学 习框架的自动微分机制得到的,这样就实现了线性回归模型模 型的构建与训练过程,最终根据输入的迭代次数运行输出就获 取了回归直线的两个参数。完成了线性回归的求解。 1.5.2 线性回归代码演示 通过前面一小节的学习读者应该了什么是线性回归、线性回归0 码力 | 13 页 | 5.99 MB | 1 年前3 PyTorch OpenVINO 开发实战系列教程第一篇节点之间流动,最终输出,因此计算图又被称为数据流图。 根据构建计算图的方式不同还可以分为静态图与动态图, Pytorch 默认是基于动态图的方式构建计算图,动态图采用类 似 python 语法,可以随时运行,灵活修改调整;而静态图则 是效率优先,但是在图构建完成之前无法直接运行。可以看出 动态图更加趋向于开发者平时接触的面向对象的编程方式,也 更容易被开发者理解与接受。下图是一个简单的计算图示例: 然后我们可以通过下面的公式来更新 k、b 两个参数: 更新参数 (k, b)= 参数 (k, b)- 学习率 * 对应参数梯度(公式 1-3) 其中学习率通常用 η 表示,对应的每个参数梯度则根据深度学 习框架的自动微分机制得到的,这样就实现了线性回归模型模 型的构建与训练过程,最终根据输入的迭代次数运行输出就获 取了回归直线的两个参数。完成了线性回归的求解。 1.5.2 线性回归代码演示 通过前面一小节的学习读者应该了什么是线性回归、线性回归0 码力 | 13 页 | 5.99 MB | 1 年前3
 机器学习课程-温州大学-03深度学习-PyTorch入门Autograd自动求导 01 Tensors张量 02 Autograd自动求导 03 神经网络 04 训练一个分类器 17  PyTorch 1.x的自动微分机制 构 建 计 算 图 创 建 设 置 张 量 (tensor) 设 置 t e n s o r的 requires_ g r a d 的 属 性 为 True 定 义 函 数 ( L) 的 requires_grad也会是False。在反向传播的过程中,该节点所在的子图会被 排除在外。 21 2. Autograd自动求导 Function类 我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节 点是Function对象,边表示数据依赖,从输出指向输入。因此Function类 在PyTorch自动求导中位居核心地位,但是用户通常不会直接去使用。0 码力 | 40 页 | 1.64 MB | 1 年前3 机器学习课程-温州大学-03深度学习-PyTorch入门Autograd自动求导 01 Tensors张量 02 Autograd自动求导 03 神经网络 04 训练一个分类器 17  PyTorch 1.x的自动微分机制 构 建 计 算 图 创 建 设 置 张 量 (tensor) 设 置 t e n s o r的 requires_ g r a d 的 属 性 为 True 定 义 函 数 ( L) 的 requires_grad也会是False。在反向传播的过程中,该节点所在的子图会被 排除在外。 21 2. Autograd自动求导 Function类 我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节 点是Function对象,边表示数据依赖,从输出指向输入。因此Function类 在PyTorch自动求导中位居核心地位,但是用户通常不会直接去使用。0 码力 | 40 页 | 1.64 MB | 1 年前3
 机器学习课程-温州大学-13深度学习-Transformer列编码成一个上下文矩阵,在使用Decoder来解码。当然,我们仅仅把context vector作为编码器到解码器的输入。 7 1.Transformer介绍 Attention注意力机制 在介绍什么是注意力机制之前, 先让大家看一张图片。当大家看 到下面图片,会首先看到什么内 容?当过载信息映入眼帘时,我 们的大脑会把注意力放在主要的 信息上,这就是大脑的注意力机 制。 8 1 速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信 息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention 量上更优、更易于并行化,所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训 练数据的分析,可以很好地推广到其他任务 ◼ Transformer,它完全基于注意力机制, 完全不用重复 和卷积,因而这些模型在质量上更优,同时更易于并 行化,并且需要的训练时间明显更少。 ◼ Transformer出现以后,迅速取代了RNN系列变种,跻 身主流模型架构基础。(RNN缺陷正在于流水线式的0 码力 | 60 页 | 3.51 MB | 1 年前3 机器学习课程-温州大学-13深度学习-Transformer列编码成一个上下文矩阵,在使用Decoder来解码。当然,我们仅仅把context vector作为编码器到解码器的输入。 7 1.Transformer介绍 Attention注意力机制 在介绍什么是注意力机制之前, 先让大家看一张图片。当大家看 到下面图片,会首先看到什么内 容?当过载信息映入眼帘时,我 们的大脑会把注意力放在主要的 信息上,这就是大脑的注意力机 制。 8 1 速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信 息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention 量上更优、更易于并行化,所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训 练数据的分析,可以很好地推广到其他任务 ◼ Transformer,它完全基于注意力机制, 完全不用重复 和卷积,因而这些模型在质量上更优,同时更易于并 行化,并且需要的训练时间明显更少。 ◼ Transformer出现以后,迅速取代了RNN系列变种,跻 身主流模型架构基础。(RNN缺陷正在于流水线式的0 码力 | 60 页 | 3.51 MB | 1 年前3
 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息,组合成生成式摘要 深度学习内部注意力机制的引入 l 内部注意力机制在解码器里面做 l 关注已生成词,解决长序列摘要生成时,个别字词重复出现的问题 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN 解码器内部注意力机制 输入序列 输入序列 输入序列。。。 编码器 解码器 摘要序列。。。 摘要序列 Rouge指标优化 给与反馈来更新模型。最终训练得到表现最好的模型。 生成式摘要 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN Rouge指标优化 Reward 文本摘要候选集 生成 解码器内部注意力机制 编码器 解码器 深度学习摘要生成式模型 输入序列 输入序列 输入序列。。。 摘要序列。。。 摘要序列 更新模型 评分 返回 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法0 码力 | 46 页 | 25.61 MB | 1 年前3 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息,组合成生成式摘要 深度学习内部注意力机制的引入 l 内部注意力机制在解码器里面做 l 关注已生成词,解决长序列摘要生成时,个别字词重复出现的问题 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN 解码器内部注意力机制 输入序列 输入序列 输入序列。。。 编码器 解码器 摘要序列。。。 摘要序列 Rouge指标优化 给与反馈来更新模型。最终训练得到表现最好的模型。 生成式摘要 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN Rouge指标优化 Reward 文本摘要候选集 生成 解码器内部注意力机制 编码器 解码器 深度学习摘要生成式模型 输入序列 输入序列 输入序列。。。 摘要序列。。。 摘要序列 更新模型 评分 返回 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法0 码力 | 46 页 | 25.61 MB | 1 年前3
共 22 条
- 1
- 2
- 3













