 超大规模深度学习在美团的应用-余建平• Backup Request  Jeff Dean在解决BigTable高扇出时提出的方案 PS的长尾效应 Backup Request 副本1 副本2 PS Shard 1 副本1 副本2 PS Shard 2 副本1 副本2 PS Shard N Predictor req 1 req 2 req N PS Req … … reply 1 reply 2 reply 在线预估服务 • 特征编码方式  通过明文hash的方式编码  适用于特征的动态增长  不需要预分配,提高处理效率 • 框架与实现分离  提供op形式的特征抽取类  逻辑一致性:在线、近线、离线 特征抽取框架 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 Deep 2. DeepFM 3. Deep Cross 树模型 小规模DNN 大规模离散DNN • 超大规模深度学习  工程实现  数据并行、模型并行  在线、近线、离线逻辑一致性  实时模型  业务应用  召回模型,ANN搜索  粗排模型,模型预计算  精排模型,大规模离散DNN 总结0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平• Backup Request  Jeff Dean在解决BigTable高扇出时提出的方案 PS的长尾效应 Backup Request 副本1 副本2 PS Shard 1 副本1 副本2 PS Shard 2 副本1 副本2 PS Shard N Predictor req 1 req 2 req N PS Req … … reply 1 reply 2 reply 在线预估服务 • 特征编码方式  通过明文hash的方式编码  适用于特征的动态增长  不需要预分配,提高处理效率 • 框架与实现分离  提供op形式的特征抽取类  逻辑一致性:在线、近线、离线 特征抽取框架 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 Deep 2. DeepFM 3. Deep Cross 树模型 小规模DNN 大规模离散DNN • 超大规模深度学习  工程实现  数据并行、模型并行  在线、近线、离线逻辑一致性  实时模型  业务应用  召回模型,ANN搜索  粗排模型,模型预计算  精排模型,大规模离散DNN 总结0 码力 | 41 页 | 5.96 MB | 1 年前3
 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储)0 码力 | 22 页 | 6.76 MB | 1 年前3 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储)0 码力 | 22 页 | 6.76 MB | 1 年前3
 AI大模型千问 qwen 中文文档通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的 额外加价。 • 将服务扩展到多个副本上,所有副本通过单一 endpoint 对外提供服务 • 所有内容均保存在您的云账户中(包括您的虚拟机和 bucket) • 完全私密 - 没有其他人能看到您的聊天记录 22 Chapter 1. 文档 serve up -n qwen ./serve-72b.yaml 这将启动服务,使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本,监控其 健康状况,根据负载进行自动伸缩,并在必要时重启它们。 将返回一个 endpoint,所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态: sky serve status qwen Azure({'A100-80GB': 8}) READY eastus Qwen 2 1 - 2 mins ago 1x GCP({'L4': 8}) READY us-east4- �→a 如下所示:该服务现由两个副本提供支持,一个位于 Azure 平台,另一个位于 GCP 平台。同时,已为服务 选择云服务商提供的最经济实惠的加速器类型。这样既最大限度地提升了服务的可用性,又尽可能降低了成 本。 3. 要访问模型,我们使用带有0 码力 | 56 页 | 835.78 KB | 1 年前3 AI大模型千问 qwen 中文文档通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的 额外加价。 • 将服务扩展到多个副本上,所有副本通过单一 endpoint 对外提供服务 • 所有内容均保存在您的云账户中(包括您的虚拟机和 bucket) • 完全私密 - 没有其他人能看到您的聊天记录 22 Chapter 1. 文档 serve up -n qwen ./serve-72b.yaml 这将启动服务,使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本,监控其 健康状况,根据负载进行自动伸缩,并在必要时重启它们。 将返回一个 endpoint,所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态: sky serve status qwen Azure({'A100-80GB': 8}) READY eastus Qwen 2 1 - 2 mins ago 1x GCP({'L4': 8}) READY us-east4- �→a 如下所示:该服务现由两个副本提供支持,一个位于 Azure 平台,另一个位于 GCP 平台。同时,已为服务 选择云服务商提供的最经济实惠的加速器类型。这样既最大限度地提升了服务的可用性,又尽可能降低了成 本。 3. 要访问模型,我们使用带有0 码力 | 56 页 | 835.78 KB | 1 年前3
 动手学深度学习 v2.054 2. 预备知识 A = torch.arange(20, dtype=torch.float32).reshape(5, 4) B = A.clone() # 通过分配新内存,将A的一个副本分配给B A, A + B (tensor([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14 gate)和更新门(update gate)。我们把它们设计成(0, 1)区间中的向量,这样我 们就可以进行凸组合。重置门允许我们控制“可能还想记住”的过去状态的数量;更新门将允许我们控制新 状态中有多少个是旧状态的副本。 我们从构造这些门控开始。图9.1.1 描述了门控循环单元中的重置门和更新门的输入,输入是由当前时间步的 输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。 xlabel='Sorted training inputs', ylabel='Sorted testing inputs') 10.2.4 带参数注意力汇聚 非参数的Nadaraya‐Watson核回归具有一致性(consistency)的优点:如果有足够的数据,此模型会收敛到 最优结果。尽管如此,我们还是可以轻松地将可学习的参数集成到注意力汇聚中。 例如,与 (10.2.6)略有不同,在下面的查询x和键xi之间的距离乘以可学习参数w:0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.054 2. 预备知识 A = torch.arange(20, dtype=torch.float32).reshape(5, 4) B = A.clone() # 通过分配新内存,将A的一个副本分配给B A, A + B (tensor([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14 gate)和更新门(update gate)。我们把它们设计成(0, 1)区间中的向量,这样我 们就可以进行凸组合。重置门允许我们控制“可能还想记住”的过去状态的数量;更新门将允许我们控制新 状态中有多少个是旧状态的副本。 我们从构造这些门控开始。图9.1.1 描述了门控循环单元中的重置门和更新门的输入,输入是由当前时间步的 输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。 xlabel='Sorted training inputs', ylabel='Sorted testing inputs') 10.2.4 带参数注意力汇聚 非参数的Nadaraya‐Watson核回归具有一致性(consistency)的优点:如果有足够的数据,此模型会收敛到 最优结果。尽管如此,我们还是可以轻松地将可学习的参数集成到注意力汇聚中。 例如,与 (10.2.6)略有不同,在下面的查询x和键xi之间的距离乘以可学习参数w:0 码力 | 797 页 | 29.45 MB | 1 年前3
 Keras: 基于 Python 的深度学习库后端。有两种方法可在多个 GPU 上运行单个模型:数据并行和设 备并行。 在大多数情况下,你最需要的是数据并行。 3.3.4.1 数据并行 数据并行包括在每个设备上复制一次目标模型,并使用每个模型副本处理不同部分的输入数据。 Keras 有一个内置的实用函数 keras.utils.multi_gpu_model,它可以生成任何模型的数据并 行版本,在多达 8 个 GPU 上实现准线性加速。 数组。 参数 • x: 需要标准化的 Numpy 数组。 • axis: 需要标准化的轴。 • order: 标准化顺序 (例如,2 表示 L2 规范化)。 Returns 数组的标准化副本。 20.6 get_file keras.utils.get_file(fname, origin, untar=False, md5_hash=None, file_hash=None, 将模型复制到不同的 GPU 上。 具体来说,该功能实现了单机多 GPU 数据并行性。它的工作原理如下: 工具 240 • 将模型的输入分成多个子批次。 • 在每个子批次上应用模型副本。每个模型副本都在专用 GPU 上执行。 • 将结果(在 CPU 上)连接成一个大批量。 例如,如果你的 batch_size 是 64,且你使用 gpus=2,那么我们将把输入分为两个 32 个样 本的子批次,在0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库后端。有两种方法可在多个 GPU 上运行单个模型:数据并行和设 备并行。 在大多数情况下,你最需要的是数据并行。 3.3.4.1 数据并行 数据并行包括在每个设备上复制一次目标模型,并使用每个模型副本处理不同部分的输入数据。 Keras 有一个内置的实用函数 keras.utils.multi_gpu_model,它可以生成任何模型的数据并 行版本,在多达 8 个 GPU 上实现准线性加速。 数组。 参数 • x: 需要标准化的 Numpy 数组。 • axis: 需要标准化的轴。 • order: 标准化顺序 (例如,2 表示 L2 规范化)。 Returns 数组的标准化副本。 20.6 get_file keras.utils.get_file(fname, origin, untar=False, md5_hash=None, file_hash=None, 将模型复制到不同的 GPU 上。 具体来说,该功能实现了单机多 GPU 数据并行性。它的工作原理如下: 工具 240 • 将模型的输入分成多个子批次。 • 在每个子批次上应用模型副本。每个模型副本都在专用 GPU 上执行。 • 将结果(在 CPU 上)连接成一个大批量。 例如,如果你的 batch_size 是 64,且你使用 gpus=2,那么我们将把输入分为两个 32 个样 本的子批次,在0 码力 | 257 页 | 1.19 MB | 1 年前3
 搜狗深度学习技术在广告推荐领域的应用模型特征输出可作为CTR,也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序,即可实现bagging/模型交叉等功能 解决方案(引入ModelFeature的概念) • 数据一致性 • 流程稳定 关键点 模型融合 PV Click Session Sample OneHot 特征 LR Train Ctr特征/模 型中间结果 DNN Train Feature0 码力 | 22 页 | 1.60 MB | 1 年前3 搜狗深度学习技术在广告推荐领域的应用模型特征输出可作为CTR,也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序,即可实现bagging/模型交叉等功能 解决方案(引入ModelFeature的概念) • 数据一致性 • 流程稳定 关键点 模型融合 PV Click Session Sample OneHot 特征 LR Train Ctr特征/模 型中间结果 DNN Train Feature0 码力 | 22 页 | 1.60 MB | 1 年前3
 机器学习课程-温州大学-机器学习项目流程机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术0 码力 | 26 页 | 1.53 MB | 1 年前3 机器学习课程-温州大学-机器学习项目流程机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术0 码力 | 26 页 | 1.53 MB | 1 年前3
 复杂环境下的视觉同时定位与地图构建Group D: fast motion with strong rotation 时间统计 • 台式机上的计算时间 • 移动终端上 • 20~50 fps on an iPhone 6. 时空一致性深度恢复 • Guofeng Zhang, Jiaya Jia, Tien-Tsin Wong, and Hujun Bao. Consistent Depth Maps Recovery from0 码力 | 60 页 | 4.61 MB | 1 年前3 复杂环境下的视觉同时定位与地图构建Group D: fast motion with strong rotation 时间统计 • 台式机上的计算时间 • 移动终端上 • 20~50 fps on an iPhone 6. 时空一致性深度恢复 • Guofeng Zhang, Jiaya Jia, Tien-Tsin Wong, and Hujun Bao. Consistent Depth Maps Recovery from0 码力 | 60 页 | 4.61 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit0 码力 | 36 页 | 16.69 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob独立随机变量经常出现在机器学习算法中,其中我们假设属于训练集的训练样本代表来自某个未知概率 分布的独立样本。为了明确独立性的重要性,考虑一个“坏的”训练集,我们首先从某个未知分布中抽取 一个训练样本 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况 下,我们有: 尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练 集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集0 码力 | 12 页 | 1.17 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob独立随机变量经常出现在机器学习算法中,其中我们假设属于训练集的训练样本代表来自某个未知概率 分布的独立样本。为了明确独立性的重要性,考虑一个“坏的”训练集,我们首先从某个未知分布中抽取 一个训练样本 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况 下,我们有: 尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练 集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集0 码力 | 12 页 | 1.17 MB | 1 年前3
共 12 条
- 1
- 2













