隔离性 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TensorFlow on Yarn：深度学习遇上大数据

TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标：� TensorFlow on Yarn设计 • 支持GPU亲和性调度（提⾼通信效率）� • Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控制已有的T ResourceManager统计计数并按数量分配作业必须占用CPU资源作业可以不需要GPU资源系统自动分配物理CPU核心需要知道具体GPU卡号，代码分配计算任务到指定GPU设备设备亲和性影响较小设备亲和性影响较大 TensorFlow on Yarn技术细节揭秘 Yarn支持GPU调度ResourceManager端实现：� 扩展org.apache.hadoop.yarn.api

0 码力 | 32 页 | 4.06 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

误时提供清晰和可操作的反馈。 • 这使 Keras 易于学习和使用。作为 Keras 用户，你的工作效率更高，能够比竞争对手更快地尝试更多创意，从而帮助你赢得机器学习竞赛。 • 这种易用性并不以降低灵活性为代价：因为 Keras 与底层深度学习语言（特别是 Ten- sorFlow）集成在一起，所以它可以让你实现任何你可以用基础语言编写的东西。特别是， tf.keras 作为 Keras 模型有状态的循环神经网络模型中，在一个 batch 的样本处理完成后，其内部状态（记忆）会被记录并作为下一个 batch 的样本的初始状态。这允许处理更长的序列，同时保持计算复杂度的可控性。你可以在 FAQ 中查找更多关于 stateful RNNs 的信息。 from keras.models import Sequential from keras.layers import 3.2.5 共享网络层函数式 API 的另一个用途是使用共享网络层的模型。我们来看看共享层。来考虑推特推文数据集。我们想要建立一个模型来分辨两条推文是否来自同一个人（例如，通过推文的相似性来对用户进行比较）。实现这个目标的一种方法是建立一个模型，将两条推文编码成两个向量，连接向量，然后添加逻辑回归层；这将输出两条推文来自同一作者的概率。模型将接收一对对正负表示的推特数据。

0 码力 | 257 页 | 1.19 MB | 1 年前
3
动手学深度学习 v2.0

1 重新审视过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 4.6.2 扰动的稳健性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.6.3 实践中的暂退法 . . 掩蔽softmax操作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 10.3.2 加性注意力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 10.3.3 缩放点积注意力 428 11.1.2 深度学习中的优化挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 11.2 凸性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

数学符号推导，其中涉及到少量的概率与统计、线性代数、微积分等数学知识，一般要求读者对这些数学知识有初步印象或了解即可。比起理论基础，读者需要有少量的编程经验，特别是 Python 语言编程经验，显得更加重要，因为本书更侧重于实用性，而不是堆砌公式。总的来说，本书适合于大学三年级左右的理工科本科生和研究生，以及其他对人工智能算法感兴趣的朋友。本书共 15 章，大体上可分为 4 个部份：第 1~3 章为第 1 部分，主要介绍人工智能的初概念以及它们之间的联系与区别。 1.1.1 人工智能人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务，人类目前尚无法对人脑的工作机制有全面、科学的认知，希望能制造达到人脑水平的智能机器无疑是难于上青天。即使如此，在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行的。怎 3 所示。基于规则的系统一般会编写显式的检测逻辑，这些逻辑通常是针对特定的任务设计的，并不适合其他任务。传统的机器学习算法一般会人为设计具有一定通用性的特征检测方法，如 SIFT、HOG 特征，这些特征能够适合某一类的任务，具有一定的通用性，但是如何设计特征，以及特征方法的优劣性非常的关键，同时也比较困难。神经网络的出现，使得人为设计特征这一部分工作可以让机器自动完成学习，不需要人类干预。但是浅层的神经网络的特征提取能

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-特征工程

强调通过特征转换的方式得到一组具有明显物理或统计意义的特征 ➢ 有时能发现更有意义的特征属性 ➢ 从特征集合中挑选一组具有明显物理或统计意义的特征子集 ➢ 能表示出每个特征对于模型构建的重要性特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J] ? 处理后的数据均值为0，方差为1 数据归一化的目的是使得各特征对目标变量的影响一致，会将特征数据进行伸缩变化，所以数据归一化是会改变特征数据分布的。数据标准化为了不同特征之间具备可比性，经过标准化变换之后的特征数据分布没有发生改变。就是当数据特征取值范围或单位差异较大时，最好是做一下标准化处理。数据规范化使不同规格的数据转换到同一规格。 2. 特征构建 10 定量特征二值化 ICA(Independent Component Analysis，独立成分分析) ICA独立成分分析，获得的是相互独立的属性。ICA算法本质寻找一个线性变换 ? = ??，使得 ? 的各个特征分量之间的独立性最大。 PCA 对数据进行降维 ICA 来从多个维度分离出有用数据步骤 PCA 是 ICA 的数据预处理方法降维 3. 特征提取 20 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J]

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4 将矩阵乘法剖析到如此大的程度似乎有点过分，特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义（在一行数学中）之后。这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是要用尽可能多的概念进行操作。实际上所有的线性代数都处理某种矩阵乘法，花一些时间对这里提出的观点进行直观的理解是非常必要的。除此之外，了解一些更高级别的矩阵乘法的基本属性是很有必要的：矩阵乘法通常不是可交换的; 也就是说，通常。（例如，假设，，如果和不相等，矩阵乘积甚至不存在！）如果您不熟悉这些属性，请花点时间自己验证它们。例如，为了检查矩阵乘法的相关性，假设，，。注意，所以。类似地，，所以。因此，所得矩阵的维度一致。为了表明矩阵乘法是相关的，足以检查的第个元素是否等于的第个元素。我们可以使用矩阵乘法的定义直接

0 码力 | 19 页 | 1.66 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理（国内教材）

+ ??) 右导数：?′+(?0) = lim ??→0+ ?(?0+??)−?(?0) ?? = lim ?→?0 + ?(?)−?(?0) ?−?0 3.函数的可导性与连续性之间的关系 Th1: 函数?(?)在?0处可微⇔ ?(?)在?0处可导。 Th2:若函数在点?0处可导，则? = ?(?)在点?0处连续，反之则不成立.即函数连续不一定可导。 Th3: 若? = lim ?→∞ ?(?) ? , ? = lim ?→∞ [?(?) − ??]，则 ? = ?? + ?称为? = ?(?)的斜渐近线。 14.函数凹凸性的判断 Th1: (凹凸性的判别定理）若在 I 上?″(?) < 0（或?″(?) > 0），则?(?)在 I 上是凸的（或凹的）。 Th2: (拐点的判别定理 1)若在?0处?″(?) = 0，（或 ?唯一线性表示。 (3) ?可以由?1, ?2, ⋯ , ??线性表示 ⇔ ?(?1, ?2, ⋯ , ??) = ?(?1,?2, ⋯ , ??, ?) 。 2.有关向量组的线性相关性 (1)部分相关，整体相关；整体无关，部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0， ?个?维向量?1, ?2 ⋯ ??线性相关

0 码力 | 31 页 | 1.18 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

秒级实时的模型反馈目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式  增量提供ACK机制，确保模型正确性 Parameter Server • 模型数据的统一管理  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题超大规模模型 -> 高扇出的分布式PS • 长尾效应：单个分片的抖动（网络、CPU）对请求影响变大  单分片4个9的可用性  16分片整体可用性：99.99% ^ 16 = 99.84%  64分片整体可用性：99.99% ^ 64 = 99.36%  128分片整体可用性：99.99% ^ 128 = 98.72% • Backup Request  Jeff Dean在解决BigTable高扇出时提出的方案

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4 是这个事件集合中元素的数量；例如，。性质：如果，则： (布尔不等式)： (全概率定律)：如果，，是一些互不相交的事件并且它们的并集是，那么它们的概率之和是1 1.1 条件概率和独立性假设是一个概率非0的事件，我们定义在给定的条件下的条件概率为：换句话说， )是度量已经观测到事件发生的情况下事件发生的概率，两个事件被称为独立事件当且仅当（或等价地， )。因此，独立性相当于是说观察到事，那么只能取有限数量的值，因此它被称为离散随机变量。这里，与随机变量相关联的集合取某个特定值的概率为：图1：一个累计分布函数(CDF) 举例：假设是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下，具有无限多的可能值，因此它被称为连续随机变量。我们将在两个实常数和之间取值的概率(其中 )表示为： 2.1 累积分布函数为了指定处理随机变量时使

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

现在我们需要一种方法将这些分数转化为看起来像概率的东西：使用sigmoid函数把概率转换为0和1。然后，我们计算输入嵌入与每个上下文嵌入的点积。在每种情况下，会产生一个数字，该数字表示输入和上下文嵌入的相似性。 24 3.Word2Vec 训练流程现在我们可以将sigmoid操作的输出视为这些样本的模型输出。您可以看到taco得分最高aaron，并且在sigmoid操作之前和之后仍然具有最低分隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。结构性的文本生成，首先通过注意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理。增强数据间的结构信息图：Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-1：借助预训练，进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要 ✓ GPT（Generative Pre-training Tra

0 码力 | 44 页 | 2.36 MB | 1 年前
3

共 57 条前往

页

分类

语言

格式