依赖关系 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

深度循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 9.3.1 函数依赖关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 9.3.2 简洁实现 . . . 这些的细节通常会被深度学习框架的高级抽象隐藏起来。特别是在基础教程中，我们希望读者了解在给定层或优化器中发生的一切。在这些情况下，我们通常会提供两个版本的示例：一个是我们从零开始实现一切，仅依赖张量操作和自动微分；另一个是更实际的示例，我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如何工作的，我们就可以在随后的教程中使用高级API了。内容和结构全书大致可分为三个部分，在要保存到包中的任何代码块，比如一个函数、一个类或者多个导入，我们都会标记为#@save。我们在 16.6节中提供了这些函数和类的详细描述。d2l软件包是轻量级的，仅需要以下软件包和模块作为依赖项： #@save import collections import hashlib import math import os import random import re import

0 码力 | 797 页 | 29.45 MB | 1 年前
3
13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

对单个维度历史信息进行预测 ⚫ 捕获简单线性关系，模型简单 ⚫ 代表算法有AR， ARIMA 基于深度学习的时间序列预测 ⚫ 利用多维时间序列之间的信息 ⚫ 对变周期序列，多维空间依赖序列预测较弱 ⚫ 代表算法有RNN，LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and Recurrent-skip layer 捕捉长期宏观依赖和周期性信息 ⚫ Autoregresssive 叠加线性比例关系 Modeling Long- and Short-Term Temporal Patterns with

0 码力 | 17 页 | 2.49 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

其实在之前我们使用的是RNN（或者是其的单向或者双向变种LSTM/GRU等）来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态，然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系，但是这也使得它不能够并行计算，模型效率十分低。在没有transformer的时候，我们都是用什么来完成这系列的任务的呢？ 5 1.Transformer介绍 Seq2Seq任务参数少：相比于 CNN、RNN ，其复杂度更小，参数也更少。所以对算力的要求也就更小。 2.速度快：Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。 3.效果好：在Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章，开创性地提出了在序列转录领域，完全抛弃 CNN和RNN，只依赖Attention-注意力结构的简单的网络架构，名为Transformer；论文实现的任务是机器翻译。 Transformer结构 Multi-Head Attention Add

0 码力 | 60 页 | 3.51 MB | 1 年前
3
机器学习课程-温州大学-特征工程

3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限 ➢ 使模型的性能得到提升度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！数据决定一切数据大小准确率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目特征提取特征选择共同点都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别 ➢ 强调通过特征转换的方式得到一组具有明显物理或统计特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建：是指从原始数据中人工的找出一些具有物理意义的特征。方法：经验、属性分割和结合操作：使用混合属性或者组合属性来创建新的特征，或是分解或切分原有的

0 码力 | 38 页 | 1.28 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

Regression 非线性  能够学习特征间非线性关系  模型复杂、计算耗时  DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均 • 实现方法简单，模型之间不产生耦合 • 可调参数有限，改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂，模型之间有依赖关系 • 实验方案较多，改进空间较大模型融合模型融合的工程实现可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作，减少时间复杂度目标 • 模型本身也看做一个抽象特征 • 模型特征依赖于其它特征，通过计算得到新的特征 • 模型特征输出可作为CTR，也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序，即可实现bagging/模型交叉等功能解决方案（引入ModelFeature的概念）多机多卡 GPU集群，优化训练效率，提高加速比现状和计划现状  已经实现LR+DNN融合模型的上线，收益较好  受限于线上计算资源，模型复杂度有限  线下训练流程有依赖，繁琐易出错计划  线上服务拆分，独立出深度学习计算模块，采用低功耗GPU加速  支撑更宽、更深、更复杂的网络结构  采用Wide & Deep，线下训练流程解耦 Wide & Deep

0 码力 | 22 页 | 1.60 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂皮毛，同时也限于时间和篇幅关系，难免出现理解偏差甚至错缪之处，若能大方指出，作者将及时修正，不胜感激。龙良曲 2021 年 10 月 19 日预览版202112 声明得益于简洁优雅的设计理念，基于动态图的第三次复兴。深层神经网络也有了一个新名字，叫作深度学习。一般来讲，神经网络和深度学习的区别并不大，深度学习特指基于深层神经网络实现的模型或算法。人工智能、机器学习、神经网络和深度学习四者之间的关系如图 1.1 所示。人工智能机器学习神经网络深度学习图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习机器学习可以分为有监督学习(Supervised RL)，如图 1.2 所示。机器学习有监督学习无监督学习强化学习图 1.2 机器学习的分类有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到映射关系??: ? → ?，其中??代表模型函数，?为模型的参数。在训练时，通过计算模型的预测值??(?)与真实标签?之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

requires_grad属性 requires_grad属性默认为False，也就是Tensor变量默认是不需要求导的。如果一个节点的requires_grad是True，那么所有依赖它的节点 requires_grad也会是True。换言之，如果一个节点依赖的所有节点都不需要求导，那么它的 requires_grad也会是False。在反向传播的过程中，该节点所在的子图会被排除在外。 21 2. Autograd自动求导 Autograd自动求导 Function类我们已经知道PyTorch使用动态计算图(DAG)记录计算的全过程,DAG的节点是Function对象，边表示数据依赖，从输出指向输入。因此Function类在PyTorch自动求导中位居核心地位，但是用户通常不会直接去使用。每当对Tensor施加一个运算的时候，就会产生一个Function对象，它产生运算的结果，记录运算的发生，并且记录运算的输入。Tensor使用 27 3. 神经网络可以使用torch.nn包来构建神经网络. 你已知道autograd包,nn包依赖autograd 包来定义模型并求导.一个nn.Module包含各个层和一个forward(input)方法,该方法返回output。典型的神经网络 28  神经网络关键组件及相互关系 3. 神经网络 29  PyTorch构建网络工具 torch.nn Module Linear

0 码力 | 40 页 | 1.64 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

• 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流热门流视频流关系流 • 推荐流图片推荐流正文推荐流视频推荐流 1 推荐场景 • 推荐 • 在特定场景下，根据用户行为和特点，向用户推荐感兴趣的对象集 • 模型： • 趋势 • 实时化：在线机器学习支持SGD 、 FTRL 、 Adagrad等优化算法模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型，对特征工程依赖较强 • FM：大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL：调节学习率，突出低频特征，非batch优化 • Adagrad : 调节学习率，突出低频特征，实现简单大规模机器学习深度学习平台 2018年在线机器学习 2019年在线深度学习 1 微博技术里程碑关注/兴趣分发/推荐生产/传播优质内容普通用户优质用户潜力挖掘关系拓展内容理解兴趣挖掘内容生产内容组织 AI 2 微博业务生态以微博之力，让世界更美谢谢！

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

0次投掷中出现的正面数，或者最长的背面长度。在某些技术条件下，这些函数被称为随机变量。更正式地说，随机变量是一个的函数。通常，我们将使用大写字母或更简单的 (其中隐含对随机结果的依赖)来表示随机变量。我们将使用小写字母来表示随机变量的值。举例：在我们上面的实验中，假设是在投掷序列中出现的正面的数量。假设投掷的硬币只有10枚，那么只能取有限数量的值，因此它被称为离散随机变量。这里，与随机变量联合概率和边缘概率质量函数如果和是离散随机变量，那么联合概率质量函数由下式定义：这里, 对于任意，， , 并且两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系？事实上：对于类似。在这种情况下，我们称为的边际概率质量函数。在统计学中，将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。 3.3 联合概率和边缘概率密度函数假设期望和协方差假设我们有两个离散的随机变量，并且是这两个随机变量的函数。那么的期望值以如下方式定义：对于连续随机变量，，类似的表达式是：我们可以用期望的概念来研究两个随机变量之间的关系。特别地，两个随机变量的协方差定义为：使用类似于方差的推导，我们可以将它重写为：在这里，说明两种协方差形式相等的关键步骤是第三个等号，在这里我们使用了这样一个事实，即和实际上是常数，可以被提出来。当

0 码力 | 12 页 | 1.17 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

更新模型评分返回增强学习优化模块最优摘要结果生成式摘要知识图谱关系抽取：联合学习方法输入句子命名实体识别和关系分类输出美国总统特朗普将访问中国。难点：结构复杂美国总统特朗普将访问中国。地名人名地名国家-总统 (美国,国家-总统,特朗普) 知识图谱关系抽取：基于深度学习基于参数共享的方法对于输入句子通过共用的 word embedding （NER）和一个 CNN 来进行关系分类（RC）。基于联合标注的方法把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体三元组。知识图谱关系抽取：基于联合标注将抽取问题转换成标注任务训练一个端到端标注模型来抽取关系输入句子标注框架抽取结果端到端标注模型知识图谱关系抽取：基于联合标注三类标签单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列，将同样关系类型的实体合并成一个三元组作为最后的结果，如果一个句子包含一个以上同一类型的关系，那么就采用就近原则来进行配对。目前这套标签并不支持实体关系重叠的情况。 B-CP-1 O B-CP-2 E-CP-2 O B-CF-1

0 码力 | 46 页 | 25.61 MB | 1 年前
3

共 44 条前往

页

分类

语言

格式

动手学深度学习 v2.0

13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

机器学习课程-温州大学-13深度学习-Transformer

机器学习课程-温州大学-特征工程

搜狗深度学习技术在广告推荐领域的应用

【PyTorch深度学习-龙龙老师】-测试版202112

机器学习课程-温州大学-03深度学习-PyTorch入门

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

Qcon北京2018-《文本智能处理的深度学习技术》-陈运文