分布式 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

Embedding以稀疏的⽅式表达信息⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）训练框架—基于参数服务器架构的分布式训练框架 TB级模型分⽚存储/更新百TB数据分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需即将⽤到的参数显存 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点，更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同构性推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁：基于模型版本的读写分离

0 码力 | 22 页 | 6.76 MB | 1 年前
3
《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras：分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data：功能强大的数据管理模块支持多种数据处理图像解码 Shuffle py_function 重采样支持多种数据格式图像文件文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源本地文件分布式文件系统对象存储系统 tf.distribute：一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt CPU 环境的分布式 YOLOv3 实现》魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取 … … 图片训练集 Ceph 数据并行实现基于 Horoved CPU 平台的分布式模型训练及部署

0 码力 | 40 页 | 9.01 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

图像视频算法库 Bert TextInput Optim izer 性能优越:  分布式存储  分布式查询功能完备:  GSL/负采样  主流图算法  异构图 (user/item/attribute)  动态图标准化: Standard Libraries Graph-Learn: 分布式图算法库标准化: Standard Solutions Continuous Optimization: Intelligence） • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管 • 分布式训练优化 • 超大资源池智能标注可视化建模(Designer) 分布式训练(DLC) 在线服务(EAS) 生态市场开发者工具 • CLI • PAIFlow • OpenAPI AI能力体验中心开源 PAI平台（Platform

0 码力 | 40 页 | 8.51 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

• PS&MPI：DistributionStrategy API，统一分布式语义，解耦分布式架构与模型训练框架 • 使用FP16通信，使用FP32做计算，带宽压力降低一倍 • IO优化 • 多线程样本并发读取，样本读取与计算PIPELINE，实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量： operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度： batching/Ten • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU，增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征，相比于文本标签，相关指标提升约3+% • 基于word2vec、bert等生成embedding向量，提高了语义编码的准确性，降低了训练成本

0 码力 | 36 页 | 16.69 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义：� 带来的问题：� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计

0 码力 | 32 页 | 4.06 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

操作扩展模型训练框架 • 模型可变计算路径  运行阶段  计算图裁剪模型训练框架 • 应用场景——离线预计算  模型召回，ANN检索  粗排模型，降低线上计算量 • 分布式Sharding  模型分片存储，支持超大规模模型  数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应：单个

0 码力 | 41 页 | 5.96 MB | 1 年前
3
AI大模型千问 qwen 中文文档

install vLLM>=0.3.0 ，但如果你正在使用 CUDA 11.8，请查看官方文档中的注意事项以获取有关安装的帮助（链接）。我们也建议你通过 pip install ray 安装 ray，以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型，例如 Qwen1.5，都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行离线批量推理。 something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数的训练脚本修改而来的。这个脚本用于使用 Hugging Face Trainer 对 Qwen 模型进行微调。你可以在以下链接查看这个脚本：这里。这个脚本具有以下特点： • 支持单卡和多卡分布式训练 • 支持全参数微调、LoRA 以及 Q-LoRA 。下面，我们介绍脚本的更多细节。安装开始之前，确保你已经安装了以下代码库： pip install peft deepspeed

0 码力 | 56 页 | 835.78 KB | 1 年前
3
《TensorFlow 2项目进阶实战》7-TensorFlow2进阶使用

TensorFlow 2 实现分布式训练 • 使⽤ TensorFlow Hub 迁移学习 • 使⽤ @tf.function 提升性能 • 使⽤ TensorFlow Serving 部署云端服务 • 使⽤ TensorFlow Lite 实现边缘智能目录使⽤ TensorFlow 2 实现图像数据增强使⽤ TensorFlow 2 实现分布式训练使⽤ TensorFlow

0 码力 | 28 页 | 5.84 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市：以智能安防场景为例特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检索 l处构建百万以上级别的对象缓存，需要仔细优化百倍慢于等价的C实现！回顾 • 智慧城市中，在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术，构建了超大规模的自我演化的分布式智能系统 • 在构建这个规模的系统中，我们广泛使用了Kubernetes、Go等流行技术，“那些年踩过的坑”

0 码力 | 23 页 | 9.26 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

经过多轮优化，可以准确快速地识别图片中所包含的各类图标 l 烟雾，吸烟识别 Ø 基于视频直播监管需求，提供吸烟，烟雾，涉嫌吸毒等场景的识别能力 SACC2017 深度学习介绍深度网络训练选择加快训练 - 分布式训练系统图像海量数据的积累 02 深度学习技术介绍加快计算 - 深度学习算法加速 RPN SACC2017 技术发展应用突破 1956 达特茅斯会议标志AI 诞生 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器

0 码力 | 32 页 | 5.17 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式