TensorFlow on Yarn:深度学习遇上大数据多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面:� Container所在的机器� 分配到的GPU物理设备号� tensorboard0 码力 | 32 页 | 4.06 MB | 1 年前3
谭国富:深度学习在图像审核的应用App 2 PS Job 1 App 2 App 3 SSH Job 1 Train Job 1 Val Job 2 WK Job 2 WK Job 3 监控/启停 任务调度/资源管理 监控上报 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合,用户可以灵活定义任务 • 支持配置 docker 镜像,完全自定义运行环 境 •0 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-06深度学习-优化算法1到1 之间,结果就是,?在0.1到1之间,应用了90%的资源,而?在0.0001到0.1之间, 只有10%的搜索资源。 反而,用对数标尺搜索超参数的方式会更合理,因此这里不使用线性轴,分别依 次取0.0001,0.001,0.01,0.1,1,在对数轴上均匀随机取点,这样,在0.0001 到0.001之间,就会有更多的搜索资源可用,还有在0.001到0.01之间等等。 20 超参数调整的方法 Hyperparameter 1 Hyperparameter 2 21 由粗到细调整超参数 Hyperparameter 1 Hyperparameter 2 22 熊猫方式与鱼子酱方式 由计算资源决定 23 Batch Norm 在深度学习中,由于采用full batch的训练方式对内存要求较大,且每一轮训练时 间过长;我们一般都会采用对数据做划分,用mini-batch对网络进行训练。因此,0 码力 | 31 页 | 2.03 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉 取 训练 参数更新 查询Sparse Table 查询Dense 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) � 模型有多个版本 � 原有在线分布式存储系统的 问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 Dynamic Computation Allocation Framework for Online Serving System � 推荐全链路⾃适应 � 统⼀建模,根据请求量削峰填⾕,资源利⽤最⼤化 [ijcai2021] UNBERT: User-News Matching BERT for News Recommendation [CIKM2021] Self-Supervised0 码力 | 22 页 | 6.76 MB | 1 年前3
动手学深度学习 v2.0能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 所有领域,技术深度丰富;(3)在一本引人入胜的教科书中,人们可以在实践教程中找到干净的可运行代码, 并从中穿插高质量的阐述。我们 什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如,在网站Distill1上 发布的引人入胜的博客帖子或个人博客,但它们仅覆盖深度学习中的选定主题,并且通常缺乏相关代码。另 一方面,虽然已经出现了几本教科书,其中最著名的是 (Goodfellow et al., 2016)(中文名《深度学习》),它 对深度学习背后的概念进行了全面的调查,但这些资源并没有将这些概念的描述与这些概念的代码实现结合 概念的代码实现结合 起来。有时会让读者对如何实现它们一无所知。此外,太多的资源隐藏在商业课程提供商的付费壁垒后面。 我们着手创建的资源可以:(1)每个人都可以免费获得;(2)提供足够的技术深度,为真正成为一名应用机 器学习科学家提供起步;(3)包括可运行的代码,向读者展示如何解决实践中的问题;(4)允许我们和社区 的快速更新;(5)由一个论坛2作为补充,用于技术细节的互动讨论和回答问题。0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112造的机器人在复 杂地形行走、多智能体协作等任务上表现良好(图 1.19)。 自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方 向,很多公司投入大量资源在自动驾驶上,如百度、Uber、Google 等,其中百度的无人巴 士“阿波龙”已经在北京、雄安、武汉等地展开试运营;在长沙,市民已经可以免费乘坐 Apollo Robotaxi 无人出租车。图 1 torch.tensor(value, requires_grad=False) 指定是否需要计算梯度,上述创建的所有张量均使用默认参数 requires_grad=False。由于梯 度运算会消耗大量的计算资源,而且会自动更新相关参数,对于不需要的优化的张量,如 神经网络的输入?,设置 requires_grad=False 即可;相反,对于需要计算梯度并优化的张 量,如神经网络层的?和?,必须设置 requires_grad=True,以便 94 95 数据在创建时按着初始的维度顺序写入,改变张量的视图仅仅是改变了张量的理解方 式,并不会改变张量的存储顺序,这在一定程度上是从计算效率考虑的,大量数据的写入 操作会消耗较多的计算资源。存储时数据只有平坦结构,与数据的逻辑结构是分离的,这 是一把双刃剑。如果新的逻辑结构不需要改变数据的存储方式,就可以节省大量计算资 源,这也是改变视图操作的优势。改变视图操作在提供便捷性的同时,也会带来很多逻辑0 码力 | 439 页 | 29.91 MB | 1 年前3
超大规模深度学习在美团的应用-余建平Abacus、XPS, etc. • Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能力 • 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式,模型结构灵活多样 支持推荐、搜索、广告场景常用的深度学习模型0 码力 | 41 页 | 5.96 MB | 1 年前3
AI大模型千问 qwen 中文文档应用以及批量任务的框架,旨在实现最大程度的成本节省、最 高的 GPU 可用性以及受管理的执行过程。其特性包括: • 通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的 额外加价。 • 将服务扩展到多个副本上,所有副本通过单一 endpoint 对外提供服务 • 所有内容均保存在您的云账户中(包括您的虚拟机和 5-Chat 支持包括英语和中文 在内的多种语言对话。您可以使用 “bge-base-en-v1.5“模型来检索英文文档,下 载 “bge-base-zh-v1.5“模型以检索中文文档。根据您的计算资源,您还可以选择 “bge-large“或 “bge-small“作为向量模型,或调整上下文窗口大小或文本块大小。 Qwen 1.5 模型系列支持最大 32K 上下文窗口大小。 现在我们可以从文档或网站构建索引。0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记 试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测 的独立随机扰动的累积;根据中心极限定理,独立随机变量的总和将趋向于“看起来像高斯”。 其次,高斯随机变量便于许多分析操作,因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形 式解。我们将在本课程稍后遇到这种情况。 5. 其他资源 一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》( A First Course on Probability by Sheldon Ross)。0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入这被称为连续词袋结构,并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2 务,尽管大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之0 码力 | 44 页 | 2.36 MB | 1 年前3
共 19 条
- 1
- 2













