多租户管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

【PyTorch深度学习-龙龙老师】-测试版202112

关英文文献时，不至于感到陌生。尽管每天都有深度学习相关算法论文的发布，但是作者相信，深度学习的核心思想和基础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂游戏平台中的 49 个游戏上取得了与人类相当甚至超越人类的水平；在围棋领域，DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等；在多智能体协作的 Dota2 游戏平台，OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 冠军队伍 OG 队，展现出了大量专业级的高层智能操作。图 1.9 列出了 2006 Imitation Learning、Meta Learning、Few-shot Learning 等方向上取得了不少进展。美国波士顿动力公司在机器人应用中取得喜人的成就，其制造的机器人在复杂地形行走、多智能体协作等任务上表现良好(图 1.19)。自动驾驶(Autonomous Driving) 被认为是强化学习短期内能技术落地的一个应用方向，很多公司投入大量资源在自动驾驶上，如百度、Uber、Google

0 码力 | 439 页 | 29.91 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

�推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道特征处理模型登记模型上线预测请求数据落地⽆量⽤户⾏为数据上报异步storage线程，⽀持基于冷热数据的多级存储。内存消耗下降30%-70% 磁盘训练 Lookup+ pooling 算⼦融合 Unique keys Storage 近期训练参数管理需保持顺序，以保证训练效果样本读取样本解析基于GPU的多级存储训练：更⾼的性价⽐ � 推荐模型GPU训练的挑战 � 显存（A100最⼤80GB）放不下TB级的模型 � GPU多线程并⾏计算能⼒对稀疏数据不友好多线程⽆锁：基于模型版本的读写分离 � 多机：多副本并⾏读取 � CPU：固定64位key，基于L1缓存的查询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒） � 模型有多个版本 � 原有在线分布式存储系统的问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难

0 码力 | 22 页 | 6.76 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

自建识别模型加大审核人力一旦出现严重违规平台面临停业整顿风险昂贵的专业机器、AI专家, 样本不足导致识别模型漏过模型调优难度大人力审核疲劳容易发生漏过，人力招聘、管理需要耗费不小成本识别种类完备节约成本节省审核人力减少人工漏审技术诉求：自动识别图片或视频中出现的文字、二维码、logo等内容以及违规人像、淫秽、血腥、暴力、极端主义、恐怖主义图像 FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100，预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台底层硬件加速操作系统应用场景 add conv w x WK Job 3 监控/启停任务调度/资源管理监控上报 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常

0 码力 | 32 页 | 5.17 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� public abstract void setGpuCores(int gCores);� � 最终在ResourceManager端需要完成：� 1、对NodeManager GPU卡数量的统计管理� 2、调度器统计管理每个Pool的GPU设备数的分配情况� � 具体可以参考下面Patch的实现思路：� https://issues.apache.org/jira/browse/YARN-5517� TensorFlow

0 码力 | 32 页 | 4.06 MB | 1 年前
3
AI大模型千问 qwen 中文文档

from_pretrained(model_path) model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config) 但是，如果你想使用多 GPU 来读取模型，你需要使用 max_memory 而不是 device_map。下面是一段示例代码： model = AutoGPTQForCausalLM.from_pretrained( 和 q8_0 。欲了解更多信息，请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过 PagedAttention 实现）、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息，请参阅论文和文档。 1.10.1 安装默认情况下，你可以通过 "Tell me something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数

0 码力 | 56 页 | 835.78 KB | 1 年前
3
动手学深度学习 v2.0

效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 参数管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 7 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1

0 码力 | 797 页 | 29.45 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

训练推理:  高qps, 低rt  支持超大模型  性价比流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑解决方案: 标准化  标准化模型库  标准化解决方案 1.方案复杂  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比工程优化: 数据并行  M6模型  Transformer模型: RapidFormer  人脸分类模型: 超大softmax  3D卷积模型 M6模型 RapidFormer性能解决方案:  智能标注  自监督学习  多模态预训练  小样本学习解决方案: 智能标注系统iTags 智能抠图智能抠图智能贴合智能预标注 + 人机协同解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征图像搜索解决方案: 多模态预训练 Swin transformer

0 码力 | 40 页 | 8.51 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待 • Kafka 堆积监控，实时报警 • 如何解决内存问题 • 调整内存参数自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多模型多版本：多组实验并行执行，提高实验迭代效率 • 在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线

0 码力 | 36 页 | 16.69 MB | 1 年前
3
《TensorFlow 2项目进阶实战》3-方案设计篇：如何设计可落地的AI解决方案

TensorFlow 2项目进阶实战》视频课程 • 行业背景：AI新零售是什么? • 用户需求：线下门店业绩如何提升？ • 长期⽬目标：货架数字化与业务智能化 • 短期目标：自动化陈列审核和促销管理 • 方案设计：基于深度学习的检测/分类的AI流水线 • 方案交付：支持在线识别和API调用的 AI SaaS 目录行业背景：AI新零售是什么? 人类零售演进史 ——《C时代新零售——阿里研究院新零售研究报告》产品价格指数 • 促销执行统计客户需求：棚格图推荐设计与销量预测如何落地项目第一期？短期目标：自动化陈列审核和促销管理业务落地基础：货架数字化 SKU 种类数量位置品类占比货架设计场景层数编号业务落地：自动化陈列审核和促销管理陈列必分销新品纯度排面 SKU 种类数量位置品类占比货架设计场景层数 AI 算法库 AI 核心模块 AI 行业模型数据集模型训练模型管理 AutoML AI 物品库服务管理模型压缩棚格图识别货架巡检商品推荐陈列审核入库审计货物盘点构件识别 CAD解析规则审查户型图识别视频盘点自动分拣细粒度识别目标检测多目标跟踪多标签分类规则引擎数据沉淀服务监控快速消费品建筑图纸

0 码力 | 49 页 | 12.50 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

Parameter Server • 模型数据的统一管理  模型结构  模型参数 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 Learning对数据流的要求  不重不丢：重复的数据会使模型有偏，数据的缺失会使模型丢失重要信息  数据有序性：数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架，通过组合方式支持多流拼接  基于Event Time的Window机制拼接方式  基于Low Watermark解决流乱序、流延迟等流式常见问题流式拼接框架 • Low Watermark机制  定义了流式数据的时钟，不可逆性特征设计 • 特征设计  用户侧：能设计完整的特征，个性化，实时特征  Item侧：预计算带来的副作用，不能使用实时特征点击(+) 仅曝光同地域全体集合分布偏差大无效信息多样本分布 • 在线、近线、离线全流程解决方案召回模型通路 • 粗排模型 • 精排模型排序模型解决方案 • 粗排阶段的特点  候选集大，通常在千到万级别  线上的响应时间要求高，通常在几到十几ms

0 码力 | 41 页 | 5.96 MB | 1 年前
3

共 46 条前往

页

分类

语言

格式

【PyTorch深度学习-龙龙老师】-测试版202112

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

谭国富：深度学习在图像审核的应用

TensorFlow on Yarn：深度学习遇上大数据

AI大模型千问 qwen 中文文档

动手学深度学习 v2.0

阿里云上深度学习建模实践-程孟力

微博在线机器学习和深度学习实践-黄波

《TensorFlow 2项目进阶实战》3-方案设计篇：如何设计可落地的AI解决方案

超大规模深度学习在美团的应用-余建平