 动手学深度学习 v2.0深度循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 9.3.1 函数依赖关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 9.3.2 简洁实现 . . . 这些的细节通常会被深度学习 框架的高级抽象隐藏起来。特别是在基础教程中,我们希望读者了解在给定层或优化器中发生的一切。在这 些情况下,我们通常会提供两个版本的示例:一个是我们从零开始实现一切,仅依赖张量操作和自动微分; 另一个是更实际的示例,我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如 何工作的,我们就可以在随后的教程中使用高级API了。 内容和结构 全书大致可分为三个部分,在 要保存到包 中的任何代码块,比如一个函数、一个类或者多个导入,我们都会标记为#@save。我们在 16.6节 中提供了这 些函数和类的详细描述。d2l软件包是轻量级的,仅需要以下软件包和模块作为依赖项: #@save import collections import hashlib import math import os import random import re import0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0深度循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 9.3.1 函数依赖关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 9.3.2 简洁实现 . . . 这些的细节通常会被深度学习 框架的高级抽象隐藏起来。特别是在基础教程中,我们希望读者了解在给定层或优化器中发生的一切。在这 些情况下,我们通常会提供两个版本的示例:一个是我们从零开始实现一切,仅依赖张量操作和自动微分; 另一个是更实际的示例,我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如 何工作的,我们就可以在随后的教程中使用高级API了。 内容和结构 全书大致可分为三个部分,在 要保存到包 中的任何代码块,比如一个函数、一个类或者多个导入,我们都会标记为#@save。我们在 16.6节 中提供了这 些函数和类的详细描述。d2l软件包是轻量级的,仅需要以下软件包和模块作为依赖项: #@save import collections import hashlib import math import os import random import re import0 码力 | 797 页 | 29.45 MB | 1 年前3
 13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用对单个维度历史信息进行 预测 ⚫ 捕获简单线性关系,模型 简单 ⚫ 代表算法有AR, ARIMA 基于深度学习的 时间序列预测 ⚫ 利用多维时间序列之间的 信息 ⚫ 对变周期序列,多维空间 依赖序列预测较弱 ⚫ 代表算法有RNN,LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and Recurrent-skip layer 捕捉长期宏观依赖和周期性信息 ⚫ Autoregresssive 叠加线性比例关系 Modeling Long- and Short-Term Temporal Patterns with0 码力 | 17 页 | 2.49 MB | 1 年前3 13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用对单个维度历史信息进行 预测 ⚫ 捕获简单线性关系,模型 简单 ⚫ 代表算法有AR, ARIMA 基于深度学习的 时间序列预测 ⚫ 利用多维时间序列之间的 信息 ⚫ 对变周期序列,多维空间 依赖序列预测较弱 ⚫ 代表算法有RNN,LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and Recurrent-skip layer 捕捉长期宏观依赖和周期性信息 ⚫ Autoregresssive 叠加线性比例关系 Modeling Long- and Short-Term Temporal Patterns with0 码力 | 17 页 | 2.49 MB | 1 年前3
 机器学习课程-温州大学-13深度学习-Transformer其实在之前我们使用的是RNN(或者是其的单向或者双向变种LSTM/GRU等) 来 作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然 后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也 使得它不能够并行计算,模型效率十分低。 在没有transformer的时候,我们 都是用什么来完成这系列的任务 的呢? 5 1.Transformer介绍 Seq2Seq任务 参数少:相比于 CNN、RNN ,其复杂度更小,参数也更少。所以对算力的要求 也就更小。 2.速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信 息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention Add0 码力 | 60 页 | 3.51 MB | 1 年前3 机器学习课程-温州大学-13深度学习-Transformer其实在之前我们使用的是RNN(或者是其的单向或者双向变种LSTM/GRU等) 来 作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然 后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也 使得它不能够并行计算,模型效率十分低。 在没有transformer的时候,我们 都是用什么来完成这系列的任务 的呢? 5 1.Transformer介绍 Seq2Seq任务 参数少:相比于 CNN、RNN ,其复杂度更小,参数也更少。所以对算力的要求 也就更小。 2.速度快:Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机 制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。 3.效果好:在Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信 息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention Add0 码力 | 60 页 | 3.51 MB | 1 年前3
 机器学习课程-温州大学-特征工程3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 有最多的数据! 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 有最多的数据! 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的0 码力 | 38 页 | 1.28 MB | 1 年前3
 搜狗深度学习技术在广告推荐领域的应用Regression 非线性  能够学习特征间 非线性关系  模型复杂、计算 耗时  DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均 • 实现方法简单,模型之间不产生耦合 • 可调参数有限,改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂,模型之间有依赖关系 • 实验方案较多,改进空间较大 模型融合 模型融合的工程实现 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作,减少时间复杂度 目标 • 模型本身也看做一个抽象特征 • 模型特征依赖于其它特征,通过计算得到新的特征 • 模型特征输出可作为CTR,也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序,即可实现bagging/模型交叉等功能 解决方案(引入ModelFeature的概念) 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状  已经实现LR+DNN融合模型的上线,收益较好  受限于线上计算资源,模型复杂度有限  线下训练流程有依赖,繁琐易出错 计划  线上服务拆分,独立出深度学习计算模块,采用低功耗GPU加速  支撑更宽、更深、更复杂的网络结构  采用Wide & Deep,线下训练流程解耦 Wide & Deep0 码力 | 22 页 | 1.60 MB | 1 年前3 搜狗深度学习技术在广告推荐领域的应用Regression 非线性  能够学习特征间 非线性关系  模型复杂、计算 耗时  DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均 • 实现方法简单,模型之间不产生耦合 • 可调参数有限,改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂,模型之间有依赖关系 • 实验方案较多,改进空间较大 模型融合 模型融合的工程实现 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作,减少时间复杂度 目标 • 模型本身也看做一个抽象特征 • 模型特征依赖于其它特征,通过计算得到新的特征 • 模型特征输出可作为CTR,也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序,即可实现bagging/模型交叉等功能 解决方案(引入ModelFeature的概念) 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状  已经实现LR+DNN融合模型的上线,收益较好  受限于线上计算资源,模型复杂度有限  线下训练流程有依赖,繁琐易出错 计划  线上服务拆分,独立出深度学习计算模块,采用低功耗GPU加速  支撑更宽、更深、更复杂的网络结构  采用Wide & Deep,线下训练流程解耦 Wide & Deep0 码力 | 22 页 | 1.60 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 第三次复兴。深层 神经网络也有了一个新名字,叫作深度学习。一般来讲,神经网络和深度学习的区别并不 大,深度学习特指基于深层神经网络实现的模型或算法。人工智能、机器学习、神经网络 和深度学习四者之间的关系如图 1.1 所示。 人工智能 机器学习 神经网络 深度学习 图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习 机器学习可以分为有监督学习(Supervised RL),如图 1.2 所示。 机器学习 有监督学习 无监督学习 强化学习 图 1.2 机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 第三次复兴。深层 神经网络也有了一个新名字,叫作深度学习。一般来讲,神经网络和深度学习的区别并不 大,深度学习特指基于深层神经网络实现的模型或算法。人工智能、机器学习、神经网络 和深度学习四者之间的关系如图 1.1 所示。 人工智能 机器学习 神经网络 深度学习 图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习 机器学习可以分为有监督学习(Supervised RL),如图 1.2 所示。 机器学习 有监督学习 无监督学习 强化学习 图 1.2 机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-03深度学习-PyTorch入门requires_grad属性 requires_grad属性默认为False,也就是Tensor变量默认是不需要求导的。 如果一个节点的requires_grad是True,那么所有依赖它的节点 requires_grad也会是True。 换言之,如果一个节点依赖的所有节点都不需要求导,那么它的 requires_grad也会是False。在反向传播的过程中,该节点所在的子图会被 排除在外。 21 2. Autograd自动求导 Autograd自动求导 Function类 我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节 点是Function对象,边表示数据依赖,从输出指向输入。因此Function类 在PyTorch自动求导中位居核心地位,但是用户通常不会直接去使用。 每当对Tensor施加一个运算的时候,就会产生一个Function对象,它产生 运算的结果,记录运算的发生,并且记录运算的输入。Tensor使用 27 3. 神经网络 可以使用torch.nn包来构建神经网络. 你已知道autograd包,nn包依赖autograd 包来定义模型并求导.一个nn.Module包含各个层和一个forward(input)方法,该 方法返回output。 典型的神经网络 28  神经网络关键组件及相互关系 3. 神经网络 29  PyTorch构建网络工具 torch.nn Module Linear0 码力 | 40 页 | 1.64 MB | 1 年前3 机器学习课程-温州大学-03深度学习-PyTorch入门requires_grad属性 requires_grad属性默认为False,也就是Tensor变量默认是不需要求导的。 如果一个节点的requires_grad是True,那么所有依赖它的节点 requires_grad也会是True。 换言之,如果一个节点依赖的所有节点都不需要求导,那么它的 requires_grad也会是False。在反向传播的过程中,该节点所在的子图会被 排除在外。 21 2. Autograd自动求导 Autograd自动求导 Function类 我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节 点是Function对象,边表示数据依赖,从输出指向输入。因此Function类 在PyTorch自动求导中位居核心地位,但是用户通常不会直接去使用。 每当对Tensor施加一个运算的时候,就会产生一个Function对象,它产生 运算的结果,记录运算的发生,并且记录运算的输入。Tensor使用 27 3. 神经网络 可以使用torch.nn包来构建神经网络. 你已知道autograd包,nn包依赖autograd 包来定义模型并求导.一个nn.Module包含各个层和一个forward(input)方法,该 方法返回output。 典型的神经网络 28  神经网络关键组件及相互关系 3. 神经网络 29  PyTorch构建网络工具 torch.nn Module Linear0 码力 | 40 页 | 1.64 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波• 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 大规模机器学习 深度学习平台 2018年 在线机器学习 2019年 在线深度学习 1 微博技术里程碑 关注/兴趣 分发/推荐 生产/传播 优质内容 普通用户 优质用户 潜力 挖掘 关系 拓展 内容 理解 兴趣 挖掘 内容 生产 内容 组织 AI 2 微博业务生态 以微博之力,让世界更美 谢谢!0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波• 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 大规模机器学习 深度学习平台 2018年 在线机器学习 2019年 在线深度学习 1 微博技术里程碑 关注/兴趣 分发/推荐 生产/传播 优质内容 普通用户 优质用户 潜力 挖掘 关系 拓展 内容 理解 兴趣 挖掘 内容 生产 内容 组织 AI 2 微博业务生态 以微博之力,让世界更美 谢谢!0 码力 | 36 页 | 16.69 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob0次投掷 中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。 更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中 隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 联合概率和边缘概率质量函数 如果 和 是离散随机变量,那么联合概率质量函数 由下式定义: 这里, 对于任意 , , , 并且 两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系?事实上: 对于 类似。在这种情况下,我们称 为 的边际概率质量函数。在统计学中,将一个变量相 加形成另一个变量的边缘分布的过程通常称为“边缘化”。 3.3 联合概率和边缘概率密度函数 假设 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 , ,类似的表达式是: 我们可以用期望的概念来研究两个随机变量之间的关系。特别地,两个随机变量的协方差定义为: 使用类似于方差的推导,我们可以将它重写为: 在这里,说明两种协方差形式相等的关键步骤是第三个等号,在这里我们使用了这样一个事实,即 和 实际上是常数,可以被提出来。当0 码力 | 12 页 | 1.17 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob0次投掷 中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。 更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中 隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 联合概率和边缘概率质量函数 如果 和 是离散随机变量,那么联合概率质量函数 由下式定义: 这里, 对于任意 , , , 并且 两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系?事实上: 对于 类似。在这种情况下,我们称 为 的边际概率质量函数。在统计学中,将一个变量相 加形成另一个变量的边缘分布的过程通常称为“边缘化”。 3.3 联合概率和边缘概率密度函数 假设 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 , ,类似的表达式是: 我们可以用期望的概念来研究两个随机变量之间的关系。特别地,两个随机变量的协方差定义为: 使用类似于方差的推导,我们可以将它重写为: 在这里,说明两种协方差形式相等的关键步骤是第三个等号,在这里我们使用了这样一个事实,即 和 实际上是常数,可以被提出来。当0 码力 | 12 页 | 1.17 MB | 1 年前3
 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文更新模型 评分 返回 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法 输入句子 命名实体识别 和关系分类 输出 美国总统特朗普将访问中国。 难点:结构复杂 美国 总统 特朗普 将 访问 中国。 地名 人名 地名 国家-总统 (美国,国家-总统,特朗普) 知识图谱关系抽取:基于深度学习 基于参数共享的方法 对于输入句子通过共用的 word embedding (NER)和一个 CNN 来进行关系分类(RC)。 基于联合标注的方法 把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序 列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体 三元组。 知识图谱关系抽取:基于联合标注 将抽取问题转换成标注任务 训练一个端到端标注模型来抽取关系 输入句子 标注框架 抽取结果 端到端标注模型 知识图谱关系抽取:基于联合标注 三类标签 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类 型的关系,那么就采用就近原则来进行配对。 目前这套标签并不支持实体关系重叠的情况。 B-CP-1 O B-CP-2 E-CP-2 O B-CF-10 码力 | 46 页 | 25.61 MB | 1 年前3 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文更新模型 评分 返回 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法 输入句子 命名实体识别 和关系分类 输出 美国总统特朗普将访问中国。 难点:结构复杂 美国 总统 特朗普 将 访问 中国。 地名 人名 地名 国家-总统 (美国,国家-总统,特朗普) 知识图谱关系抽取:基于深度学习 基于参数共享的方法 对于输入句子通过共用的 word embedding (NER)和一个 CNN 来进行关系分类(RC)。 基于联合标注的方法 把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序 列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体 三元组。 知识图谱关系抽取:基于联合标注 将抽取问题转换成标注任务 训练一个端到端标注模型来抽取关系 输入句子 标注框架 抽取结果 端到端标注模型 知识图谱关系抽取:基于联合标注 三类标签 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类 型的关系,那么就采用就近原则来进行配对。 目前这套标签并不支持实体关系重叠的情况。 B-CP-1 O B-CP-2 E-CP-2 O B-CF-10 码力 | 46 页 | 25.61 MB | 1 年前3
共 44 条
- 1
- 2
- 3
- 4
- 5













