资源 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

App 2 PS Job 1 App 2 App 3 SSH Job 1 Train Job 1 Val Job 2 WK Job 2 WK Job 3 监控/启停任务调度/资源管理监控上报 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合，用户可以灵活定义任务 • 支持配置 docker 镜像，完全自定义运行环境 •

0 码力 | 32 页 | 5.17 MB | 1 年前
3
机器学习课程-温州大学-06深度学习-优化算法

1到1 之间，结果就是，?在0.1到1之间，应用了90%的资源，而?在0.0001到0.1之间，只有10%的搜索资源。反而，用对数标尺搜索超参数的方式会更合理，因此这里不使用线性轴，分别依次取0.0001，0.001，0.01，0.1，1，在对数轴上均匀随机取点，这样，在0.0001 到0.001之间，就会有更多的搜索资源可用，还有在0.001到0.01之间等等。 20 超参数调整的方法 Hyperparameter 1 Hyperparameter 2 21 由粗到细调整超参数 Hyperparameter 1 Hyperparameter 2 22 熊猫方式与鱼子酱方式由计算资源决定 23 Batch Norm 在深度学习中，由于采用full batch的训练方式对内存要求较大，且每一轮训练时间过长；我们一般都会采用对数据做划分，用mini-batch对网络进行训练。因此，

0 码力 | 31 页 | 2.03 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练参数更新查询Sparse Table 查询Dense 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒） � 模型有多个版本 � 原有在线分布式存储系统的问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 >15亿key/秒近千台只读版本写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 Dynamic Computation Allocation Framework for Online Serving System � 推荐全链路⾃适应 � 统⼀建模，根据请求量削峰填⾕，资源利⽤最⼤化 [ijcai2021] UNBERT: User-News Matching BERT for News Recommendation [CIKM2021] Self-Supervised

0 码力 | 22 页 | 6.76 MB | 1 年前
3
动手学深度学习 v2.0

能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批判性思维技能、解决问题所需的数学知识，以及实现这些解决方案所需的软件工具，这是一个巨大的挑战。在我们开始写这本书的时候，没有资源能够同时满足一些条件：（1）是最新的；（2）涵盖了现代机器学习的所有领域，技术深度丰富；（3）在一本引人入胜的教科书中，人们可以在实践教程中找到干净的可运行代码，并从中穿插高质量的阐述。我们什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如，在网站Distill1上发布的引人入胜的博客帖子或个人博客，但它们仅覆盖深度学习中的选定主题，并且通常缺乏相关代码。另一方面，虽然已经出现了几本教科书，其中最著名的是 (Goodfellow et al., 2016)（中文名《深度学习》），它对深度学习背后的概念进行了全面的调查，但这些资源并没有将这些概念的描述与这些概念的代码实现结合概念的代码实现结合起来。有时会让读者对如何实现它们一无所知。此外，太多的资源隐藏在商业课程提供商的付费壁垒后面。我们着手创建的资源可以：（1）每个人都可以免费获得；（2）提供足够的技术深度，为真正成为一名应用机器学习科学家提供起步；（3）包括可运行的代码，向读者展示如何解决实践中的问题；（4）允许我们和社区的快速更新;（5）由一个论坛2作为补充，用于技术细节的互动讨论和回答问题。

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

造的机器人在复杂地形行走、多智能体协作等任务上表现良好(图 1.19)。自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方向，很多公司投入大量资源在自动驾驶上，如百度、Uber、Google 等，其中百度的无人巴士“阿波龙”已经在北京、雄安、武汉等地展开试运营；在长沙，市民已经可以免费乘坐 Apollo Robotaxi 无人出租车。图 1 torch.tensor(value, requires_grad=False) 指定是否需要计算梯度，上述创建的所有张量均使用默认参数 requires_grad=False。由于梯度运算会消耗大量的计算资源，而且会自动更新相关参数，对于不需要的优化的张量，如神经网络的输入?，设置 requires_grad=False 即可；相反，对于需要计算梯度并优化的张量，如神经网络层的?和?，必须设置 requires_grad=True，以便 94 95 数据在创建时按着初始的维度顺序写入，改变张量的视图仅仅是改变了张量的理解方式，并不会改变张量的存储顺序，这在一定程度上是从计算效率考虑的，大量数据的写入操作会消耗较多的计算资源。存储时数据只有平坦结构，与数据的逻辑结构是分离的，这是一把双刃剑。如果新的逻辑结构不需要改变数据的存储方式，就可以节省大量计算资源，这也是改变视图操作的优势。改变视图操作在提供便捷性的同时，也会带来很多逻辑

0 码力 | 439 页 | 29.91 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

Abacus、XPS， etc. • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样  支持推荐、搜索、广告场景常用的深度学习模型

0 码力 | 41 页 | 5.96 MB | 1 年前
3
AI大模型千问 qwen 中文文档

应用以及批量任务的框架，旨在实现最大程度的成本节省、最高的 GPU 可用性以及受管理的执行过程。其特性包括： • 通过跨区域和跨云充分利用多个资源池，以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的额外加价。 • 将服务扩展到多个副本上，所有副本通过单一 endpoint 对外提供服务 • 所有内容均保存在您的云账户中（包括您的虚拟机和 5-Chat 支持包括英语和中文在内的多种语言对话。您可以使用 “bge-base-en-v1.5“模型来检索英文文档，下载 “bge-base-zh-v1.5“模型以检索中文文档。根据您的计算资源，您还可以选择 “bge-large“或 “bge-small“作为向量模型，或调整上下文窗口大小或文本块大小。 Qwen 1.5 模型系列支持最大 32K 上下文窗口大小。现在我们可以从文档或网站构建索引。

0 码力 | 56 页 | 835.78 KB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源概率论复习和参考概率论是对不确定性的研究。通过这门课，我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂，并且涉及到“分析”的一个分支：测的独立随机扰动的累积；根据中心极限定理，独立随机变量的总和将趋向于“看起来像高斯”。其次，高斯随机变量便于许多分析操作，因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。我们将在本课程稍后遇到这种情况。 5. 其他资源一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》( A First Course on Probability by Sheldon Ross)。

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

这被称为连续词袋结构，并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。一种方法是将目标分成两个步骤： 1.生成高质量的单词嵌入（不要担心下一个单词预测）。 2 务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之

0 码力 | 44 页 | 2.36 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式

TensorFlow on Yarn：深度学习遇上大数据

谭国富：深度学习在图像审核的应用

机器学习课程-温州大学-06深度学习-优化算法

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

动手学深度学习 v2.0

【PyTorch深度学习-龙龙老师】-测试版202112

超大规模深度学习在美团的应用-余建平

AI大模型千问 qwen 中文文档

机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入