从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 即将⽤到的参数 显存 32/40/80GB 正在训练的参数 分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中, 只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离0 码力 | 22 页 | 6.76 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras:分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data:功能强大的数据管理模块 支持多种数据处理 图像解码 Shuffle py_function 重采样 支持多种数据格式 图像文件 文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源 本地文件 分布式文件系统 对象存储系统 tf.distribute:一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt CPU 环境的分布式 YOLOv3 实现》 魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取 … … 图片训练集 Ceph 数据并行实现 基于 Horoved CPU 平台的分布式模型训练及部署0 码力 | 40 页 | 9.01 MB | 1 年前3
阿里云上深度学习建模实践-程孟力图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries Graph-Learn: 分布式图算法库 标准化: Standard Solutions Continuous Optimization: Intelligence) • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管 • 分布式训练优化 • 超大资源池 智能标注 可视化建模(Designer) 分布式训练(DLC) 在线服务(EAS) 生态市场 开发者工具 • CLI • PAIFlow • OpenAPI AI能力 体验中心 开源 PAI平台(Platform0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波• PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量: operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度: batching/Ten • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU,增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征,相比于文本标签,相关指标提升约3+% • 基于word2vec、bert等生成embedding向量,提高了语义编码的准确性,降低了训练成本0 码力 | 36 页 | 16.69 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn设计0 码力 | 32 页 | 4.06 MB | 1 年前3
超大规模深度学习在美团的应用-余建平操作扩展 模型训练框架 • 模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个0 码力 | 41 页 | 5.96 MB | 1 年前3
AI大模型千问 qwen 中文文档install vLLM>=0.3.0 ,但如果你正在使用 CUDA 11.8,请查看官方文档中的注意事项以获取有关安装的帮助(链接 )。我们也建议你通过 pip install ray 安装 ray,以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型,例如 Qwen1.5,都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行 离线批量推理。 something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署 要提高模型的处理吞吐量,分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型,单个 GPU 无法支撑其在线服务。在这里,我们通过演示如何仅通过传入参数 的训练脚本修改而来的。这个 脚本用于使用 Hugging Face Trainer 对 Qwen 模型进行微调。你可以在以下链接查看这个脚本:这里 。这个脚 本具有以下特点: • 支持单卡和多卡分布式训练 • 支持全参数微调、LoRA 以及 Q-LoRA 。 下面,我们介绍脚本的更多细节。 安装 开始之前,确保你已经安装了以下代码库: pip install peft deepspeed0 码力 | 56 页 | 835.78 KB | 1 年前3
《TensorFlow 2项目进阶实战》7-TensorFlow2进阶使用TensorFlow 2 实现分布式训练 • 使⽤ TensorFlow Hub 迁移学习 • 使⽤ @tf.function 提升性能 • 使⽤ TensorFlow Serving 部署云端服务 • 使⽤ TensorFlow Lite 实现边缘智能 目录 使⽤ TensorFlow 2 实现图像数据增强 使⽤ TensorFlow 2 实现分布式训练 使⽤ TensorFlow0 码力 | 28 页 | 5.84 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构建这个规模的系统中,我们广泛使用了Kubernetes、Go等流行技 术,“那些年踩过的坑”0 码力 | 23 页 | 9.26 MB | 1 年前3
谭国富:深度学习在图像审核的应用经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 SACC2017 深度学习介绍 深度网络训练选择 加快训练 - 分布式训练系统 图像海量数据的积累 02 深度学习技术介绍 加快计算 - 深度学习算法加速 RPN SACC2017 技 术 发 展 应 用 突 破 1956 达特茅 斯会议 标志AI 诞生 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器0 码力 | 32 页 | 5.17 MB | 1 年前3
共 15 条
- 1
- 2













