分布式缓存 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

Embedding以稀疏的⽅式表达信息⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）训练框架—基于参数服务器架构的分布式训练框架 TB级模型分⽚存储/更新百TB数据分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需即将⽤到的参数显存 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题 � Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点，更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同构性推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁：基于模型版本的读写分离

0 码力 | 22 页 | 6.76 MB | 1 年前
3
动手学深度学习 v2.0

实战Kaggle比赛：预测房价 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 4.10.1 下载和缓存数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 4.10.2 Kaggle . . 小批量随机梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 11.5.1 向量化和缓存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 11.5.2 小批量 . . . 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述场景布局的草图生成照片级真实图像（(Park et al., 2019) ）。 • 在许多情况下，单个GPU不足以处理可用于训练的大量数据。在过去的十年中，构建并行和分布式训练算法的能力有了显著提高。设计可伸缩算法的关键挑战之一是深度学习优化的主力——随机梯度下降，它依赖于相对较小的小批量数据来处理。同时，小批量限制了GPU的效率。因此，在1024个GPU上进行

0 码力 | 797 页 | 29.45 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 • PS&MPI：DistributionStrategy API，统一分布式语义，解耦分布式架构与模型训练框架 • 使用FP16通信，使用FP32做计算，带宽压力降低一倍 • IO优化 • 多线程样本并发读取，样本读取与计算PIPELINE，实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量： operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度： batching/Ten

0 码力 | 36 页 | 16.69 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市：以智能安防场景为例特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检索 l处部分标准库实现依赖reflect，性能较差 - GC的带来的开销，如在Go Heap上构建百万以上级别的对象缓存，需要仔细优化百倍慢于等价的C实现！回顾 • 智慧城市中，在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术，构建了超大规模的自我演化的分布式智能系统 • 在构建这个规模的系统中，我们广泛使用了Kubernetes、Go等流行技术，“那些年踩过的坑”

0 码力 | 23 页 | 9.26 MB | 1 年前
3
AI大模型千问 qwen 中文文档

install vLLM>=0.3.0 ，但如果你正在使用 CUDA 11.8，请查看官方文档中的注意事项以获取有关安装的帮助（链接）。我们也建议你通过 pip install ray 安装 ray，以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型，例如 Qwen1.5，都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行离线批量推理。 something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数 api_server \ --model Qwen/Qwen1.5-7B-Chat-GPTQ-Int8 \ --quantization gptq 此外，vLLM 支持将 AWQ 或 GPTQ 模型与 KV 缓存量化相结合，即 FP8 E5M2 KV Cache 方案。例如： llm = LLM(model="Qwen/Qwen1.5-7B-Chat-GPTQ-Int8", quantization="gptq"

0 码力 | 56 页 | 835.78 KB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . . 6 2.4 Keras 支持多个后端引擎，并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . TensorFlow 后端和 Google Cloud。 • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML Keras 后端。 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 • Keras 内置对多 GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 import boston_housing (x_train, y_train), (x_test, y_test) = boston_housing.load_data() • 参数： • path: 缓存本地数据集的位置 (相对路径 ~/.keras/datasets)。 • seed: 在计算测试分割之前对数据进行混洗的随机种子。 • test_split: 需要保留作为测试数据的比例。 •

0 码力 | 257 页 | 1.19 MB | 1 年前
3
《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras：分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data：功能强大的数据管理模块支持多种数据处理图像解码 Shuffle py_function 重采样支持多种数据格式图像文件文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源本地文件分布式文件系统对象存储系统 tf.distribute：一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt CPU 环境的分布式 YOLOv3 实现》魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取 … … 图片训练集 Ceph 数据并行实现基于 Horoved CPU 平台的分布式模型训练及部署

0 码力 | 40 页 | 9.01 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

图像视频算法库 Bert TextInput Optim izer 性能优越:  分布式存储  分布式查询功能完备:  GSL/负采样  主流图算法  异构图 (user/item/attribute)  动态图标准化: Standard Libraries Graph-Learn: 分布式图算法库标准化: Standard Solutions Continuous Optimization: Intelligence） • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管 • 分布式训练优化 • 超大资源池智能标注可视化建模(Designer) 分布式训练(DLC) 在线服务(EAS) 生态市场开发者工具 • CLI • PAIFlow • OpenAPI AI能力体验中心开源 PAI平台（Platform

0 码力 | 40 页 | 8.51 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义：� 带来的问题：� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计

0 码力 | 32 页 | 4.06 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

操作扩展模型训练框架 • 模型可变计算路径  运行阶段  计算图裁剪模型训练框架 • 应用场景——离线预计算  模型召回，ANN检索  粗排模型，降低线上计算量 • 分布式Sharding  模型分片存储，支持超大规模模型  数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应：单个

0 码力 | 41 页 | 5.96 MB | 1 年前
3

共 18 条前往

页

分类

语言

格式