《TensorFlow 2项目进阶实战》2-快速上手篇:动⼿训练模型和部署服务TensorFlow 2 项目实战进阶 扫码试看/订阅 《TensorFlow 2 项目进阶实战》视频课程 快速上手篇:动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍0 码力 | 52 页 | 7.99 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱� 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 预测 请求 数据 落地 ⽆量 ⽤户⾏为数据上报 特征 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP] � 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离 线训练,在线推理服务和持续上线 O2. 针对推荐特点的深度优化,达到业界先 进⽔平 推荐系统的核⼼特点 � Feature 1(基本特点) 1.1 User与推荐系统交互,7*24⼩时 流式学习 1.2 Item和User新增,离开/遗忘, Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2.0 码力 | 22 页 | 6.76 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 实时样本 实时模型训练 实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node Serving PS Traing PS Traing Model System Predict Score Sample Data worker worker worker 3 在线机器学习-参数服务器 serving serving serving server server server server server worker worker worker PSscheduler HA Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BAS0 码力 | 36 页 | 16.69 MB | 1 年前3
AI大模型千问 qwen 中文文档Qwen1.5,我们建议您使用 vLLM。vLLM 是一个用于 LLM 推理和服务的快速且易于使用的框架。以 下,我们将展示如何使用 vLLM 构建一个与 OpenAI API 兼容的 API 服务。 首先,确保你已经安装 vLLM>=0.3.0 : pip install vllm 运行以下代码以构建 vllm 服务。此处我们以 Qwen1.5-7B-Chat 为例: python -m vllm ├── merges.txt │ │ ├── tokenizer_config.json │ │ └── vocab.json 随后你需要运行 python server.py 来启动你的网页服务。请点击进入 `http://localhost:7860/?__theme=dark` 然后享受使用 Qwen 的 Web UI 吧! 1.6.2 下一步 TGW 中包含了许多更多用途,您 、q5_0 、q5_k_m 、q6_k 和 q8_0 。欲了解更多信息,请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用,且具有最先进的服务吞吐量、高效的注意力键值 内存管理(通过 PagedAttention 实现)、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息,请参阅 论文 和 文档 。 1.100 码力 | 56 页 | 835.78 KB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想TensorFlow 2 核心模块 TensorFlow 2 核心模块概览 tf.keras:分布式和高性能的 Keras • 构建和训练模型的高层次 API • API 完全兼容原生 Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data:功能强大的数据管理模块 支持多种数据处理 图像解码 Shuffle py_function 重采样 支持多种数据格式 图像文件 文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源 本地文件 分布式文件系统 对象存储系统 tf.distribute:一行代码实现分布式 Training API MirroredStrategy TPUStrategy MultiWorkerMirro redStrategy CentralStorageSt to TensorFlow 生产级 AI 方案 TensorFlow 2 落地应用 TensorFlow 与移动互联网的结合 TensorFlow 与企业服务的结合 - 腾讯互娱 来源:《案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现》 魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model0 码力 | 40 页 | 9.01 MB | 1 年前3
阿里云上深度学习建模实践-程孟力图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries Graph-Learn: 分布式图算法库 标准化: Standard Solutions Continuous Optimization: er decoder 解决方案: 多模态预训练 Vit based 下游任务: 视频分类 视频打标签 推荐模型特征 解决方案: 小样本学习 小样本结构化模型 在线预测服务(EAS) • 一键部署 • 多模型 • 蓝绿部署 • 弹性扩缩 • 推理优化 ML Frameworks ML Service (PaaS) AI Service (SaaS) U) 阿里云容器服务(ACK) • 200+组件 • 数十个场景化模版 • 所见即所得 交互式建模(DSW) • JupyterLab、WebIDE • 多框架兼容 • 可视化+tensorboard • 图像、视频、文本、 语音标注 • 多场景模板:物体检 测、语音识别 • 数据集管理 • 主动学习 • 智能标注 itags AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等)0 码力 | 40 页 | 8.51 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据“ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 作业的统⼀管理、状态跟踪� • 资源组(Schedule Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • --priority VERY_LOW \ #作业优先级� --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量0 码力 | 32 页 | 4.06 MB | 1 年前3
《TensorFlow 2项目进阶实战》7-TensorFlow2进阶使用TensorFlow 2 实现分布式训练 • 使⽤ TensorFlow Hub 迁移学习 • 使⽤ @tf.function 提升性能 • 使⽤ TensorFlow Serving 部署云端服务 • 使⽤ TensorFlow Lite 实现边缘智能 目录 使⽤ TensorFlow 2 实现图像数据增强 使⽤ TensorFlow 2 实现分布式训练 使⽤ TensorFlow TensorFlow Hub 迁移学习 7 8 9 11 12 13 使⽤ @tf.function 提升性能 使⽤ TensorFlow Serving 部署云端服务 使⽤ TensorFlow Lite 实现边缘智能 TensorFlow Lite 官网 https://www.tensorflow.org/lite/examples TensorFlow Lite Examples 搭建0 码力 | 28 页 | 5.84 MB | 1 年前3
动手学深度学习 v2.0训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.7 参数服务器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.7 . . . . . . . . . . . . . . . . . . 758 16.4 选择服务器和GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758 16.4.1 选择服务器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767 Bibliography 769 xv xvi 前言 几年前,在大公司和初创公司中,并没有大量的深度学习科学家开发智能产品和服务。我们中年轻人(作者) 进入这个领域时,机器学习并没有在报纸上获得头条新闻。我们的父母根本不知道什么是机器学习,更不用 说为什么我们可能更喜欢机器学习,而不是从事医学或法律职业。机器学习是一门具有前瞻性的学科,在现0 码力 | 797 页 | 29.45 MB | 1 年前3
超大规模深度学习在美团的应用-余建平操作扩展 模型训练框架 • 模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个 逻辑阶段抽象,业务根据自身需求选择性实现 数据获取: 根据业务的自身逻辑获取特征原始数据 特征抽取: 将特征数据进行转换,转换成模型所需的格式,比如离散化 模型计算: 传入转换后的特征数据,调用模型计算引擎 在线预估服务 • 特征编码方式 通过明文hash的方式编码 适用于特征的动态增长 不需要预分配,提高处理效率 • 框架与实现分离 提供op形式的特征抽取类 逻辑一致性:在线、近线、离线0 码力 | 41 页 | 5.96 MB | 1 年前3
共 30 条
- 1
- 2
- 3













