副本一致性 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

超大规模深度学习在美团的应用-余建平

• Backup Request  Jeff Dean在解决BigTable高扇出时提出的方案 PS的长尾效应 Backup Request 副本1 副本2 PS Shard 1 副本1 副本2 PS Shard 2 副本1 副本2 PS Shard N Predictor req 1 req 2 req N PS Req … … reply 1 reply 2 reply 在线预估服务 • 特征编码方式  通过明文hash的方式编码  适用于特征的动态增长  不需要预分配，提高处理效率 • 框架与实现分离  提供op形式的特征抽取类  逻辑一致性：在线、近线、离线特征抽取框架目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 Deep 2. DeepFM 3. Deep Cross 树模型小规模DNN 大规模离散DNN • 超大规模深度学习  工程实现  数据并行、模型并行  在线、近线、离线逻辑一致性  实时模型  业务应用  召回模型，ANN搜索  粗排模型，模型预计算  精排模型，大规模离散DNN 总结

0 码力 | 41 页 | 5.96 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

更少的机器节点，更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同构性推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁：基于模型版本的读写分离 � 多机：多副本并⾏读取 � CPU：固定64位key，基于L1缓存的查询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒）问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线 � Dssm � wdl ... 分布式Serving集群副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）

0 码力 | 22 页 | 6.76 MB | 1 年前
3
AI大模型千问 qwen 中文文档

通过跨区域和跨云充分利用多个资源池，以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的额外加价。 • 将服务扩展到多个副本上，所有副本通过单一 endpoint 对外提供服务 • 所有内容均保存在您的云账户中（包括您的虚拟机和 bucket） • 完全私密 - 没有其他人能看到您的聊天记录 22 Chapter 1. 文档 serve up -n qwen ./serve-72b.yaml 这将启动服务，使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本，监控其健康状况，根据负载进行自动伸缩，并在必要时重启它们。将返回一个 endpoint，所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态： sky serve status qwen Azure({'A100-80GB': 8}) READY eastus Qwen 2 1 - 2 mins ago 1x GCP({'L4': 8}) READY us-east4- �→a 如下所示：该服务现由两个副本提供支持，一个位于 Azure 平台，另一个位于 GCP 平台。同时，已为服务选择云服务商提供的最经济实惠的加速器类型。这样既最大限度地提升了服务的可用性，又尽可能降低了成本。 3. 要访问模型，我们使用带有

0 码力 | 56 页 | 835.78 KB | 1 年前
3
动手学深度学习 v2.0

54 2. 预备知识 A = torch.arange(20, dtype=torch.float32).reshape(5, 4) B = A.clone() # 通过分配新内存，将A的一个副本分配给B A, A + B (tensor([[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.], [12., 13., 14 gate）和更新门（update gate）。我们把它们设计成(0, 1)区间中的向量，这样我们就可以进行凸组合。重置门允许我们控制“可能还想记住”的过去状态的数量；更新门将允许我们控制新状态中有多少个是旧状态的副本。我们从构造这些门控开始。图9.1.1 描述了门控循环单元中的重置门和更新门的输入，输入是由当前时间步的输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。 xlabel='Sorted training inputs', ylabel='Sorted testing inputs') 10.2.4 带参数注意力汇聚非参数的Nadaraya‐Watson核回归具有一致性（consistency）的优点：如果有足够的数据，此模型会收敛到最优结果。尽管如此，我们还是可以轻松地将可学习的参数集成到注意力汇聚中。例如，与 (10.2.6)略有不同，在下面的查询x和键xi之间的距离乘以可学习参数w：

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

后端。有两种方法可在多个 GPU 上运行单个模型：数据并行和设备并行。在大多数情况下，你最需要的是数据并行。 3.3.4.1 数据并行数据并行包括在每个设备上复制一次目标模型，并使用每个模型副本处理不同部分的输入数据。 Keras 有一个内置的实用函数 keras.utils.multi_gpu_model，它可以生成任何模型的数据并行版本，在多达 8 个 GPU 上实现准线性加速。数组。参数 • x: 需要标准化的 Numpy 数组。 • axis: 需要标准化的轴。 • order: 标准化顺序 (例如，2 表示 L2 规范化)。 Returns 数组的标准化副本。 20.6 get_file keras.utils.get_file(fname, origin, untar=False, md5_hash=None, file_hash=None, 将模型复制到不同的 GPU 上。具体来说，该功能实现了单机多 GPU 数据并行性。它的工作原理如下：工具 240 • 将模型的输入分成多个子批次。 • 在每个子批次上应用模型副本。每个模型副本都在专用 GPU 上执行。 • 将结果（在 CPU 上）连接成一个大批量。例如，如果你的 batch_size 是 64，且你使用 gpus=2，那么我们将把输入分为两个 32 个样本的子批次，在

0 码力 | 257 页 | 1.19 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

模型特征输出可作为CTR，也可作为特征为其它模型使用 • 限定ModelFeature的计算顺序，即可实现bagging/模型交叉等功能解决方案（引入ModelFeature的概念） • 数据一致性 • 流程稳定关键点模型融合 PV Click Session Sample OneHot 特征 LR Train Ctr特征/模型中间结果 DNN Train Feature

0 码力 | 22 页 | 1.60 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗什么是数据清洗？数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗不合法值空值异常检测重复处理拼写错误命名习惯数理统计技术

0 码力 | 26 页 | 1.53 MB | 1 年前
3
复杂环境下的视觉同时定位与地图构建

Group D: fast motion with strong rotation 时间统计 • 台式机上的计算时间 • 移动终端上 • 20~50 fps on an iPhone 6. 时空一致性深度恢复 • Guofeng Zhang, Jiaya Jia, Tien-Tsin Wong, and Hujun Bao. Consistent Depth Maps Recovery from

0 码力 | 60 页 | 4.61 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

)，基于row进行矩阵压缩存储，参数内存占用减少90% 3 在线机器学习-参数服务器模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 模型稳定性/… 一键打包端口探测蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换版本更新全量发布 … verson1 verson2 … kubenetes/olsubmit

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

独立随机变量经常出现在机器学习算法中，其中我们假设属于训练集的训练样本代表来自某个未知概率分布的独立样本。为了明确独立性的重要性，考虑一个“坏的”训练集，我们首先从某个未知分布中抽取一个训练样本，然后将完全相同的训练样本的个副本添加到训练集中。在这种情况下，我们有：尽管训练集的大小为，但这些例子并不独立！虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法，但是事实证明，在实践中，样本的不独立性确实经常出现，并且它具有减小训练集

0 码力 | 12 页 | 1.17 MB | 1 年前
3

共 12 条前往

页

分类

语言

格式

超大规模深度学习在美团的应用-余建平

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

AI大模型千问 qwen 中文文档

动手学深度学习 v2.0

Keras: 基于 Python 的深度学习库

搜狗深度学习技术在广告推荐领域的应用

机器学习课程-温州大学-机器学习项目流程

复杂环境下的视觉同时定位与地图构建

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob