阿里云上深度学习建模实践-程孟力训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化 标准化模型库 标准化解决方案 1.方案复杂 Parameter Server MPI TreeModel SQL MapReduce Blink 场景丰富: 图像/视频/推荐/搜索 大数据+大模型: Model Zoo 跨场景+跨模态 开箱即用: 封装复杂性 白盒化, 可扩展性强 积极对接开源系统+模型 FTRL SGD Adam Solutions Librarys 优势: Components Framework 训练优化: 数据并行 模型并行 推理优化: Blade 推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比 工程优化: 数据并行 M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型 RapidFormer性能0 码力 | 40 页 | 8.51 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂 ,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本?的数据集,算法需 要自行发现数据的模态,这种方式叫作无监督学习。无监督学习中有一类算法将自身作为 监督信号,即模型需要学习的映射为??: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值 游戏平台中的 49 个游戏上取得了 与人类相当甚至超越人类的水平;在围棋领域,DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等;在多智能体协作的 Dota2 游戏 平台,OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 冠军队伍 OG 队,展现出了大量专业级的高层智能操作。图 1.9 列出了 20060 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ GPT-3利用了过滤前45TB的压缩文本,在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多10倍。对于所有任务(在few-shot设置下测试其 性能),GPT-3都是在没有任何梯度更新或微调的情况下应用的,仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多 (自动推断)从例子中显现出来 随着深度学习, 用于预测的高级 特征出现 有了基础模型,甚至出现了情境学习等高级 功能 ChatGPT核心技术优势 42 ChatGPT以基础模型为杠杆,可适用多类下游任务 ◼ ChatGPT采用了GPT3.5(InstructGPT)大规模预训练模型,在 自然语言理解和作品生成上取得极大性能提升 ✓ 鉴于传统NLP技术的局限问题,基于大语言模型(LLM)有助于充分利 的增长,日 志丢失呈现平稳的改善趋势。 资料来源:《On the Opportunities and Risks of Foundation Models 》论文 图:基础模型可以集中来自各种模态的所有数据的信息, 然后这一模型可以适用于广泛的下游任务 ChatGPT核心技术优势 43 参考文献 1. IAN GOODFELLOW等,《深度学习》,人民邮电出版社,2017 2.0 码力 | 44 页 | 2.36 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博Ø 模型算法是手段 • 模型算法殊途同归 • 业务和数据决定模型算法的应用场景 • 计算力和算法架构是保障 总结展望 Ø 未来工作 • 更多的融合网络结构适用于CTR预估场景 • 多模态—更好的对非结构化内容进行表征 • 用户行为序列embedding0 码力 | 21 页 | 2.14 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer• 在Transformer提出之后,大模型的基础模 型架构基本形成,注意力机制代替卷积神 经网络称为主流基础模型组件 – 有利于模型向更大的参数量扩展 – Transformer有兼容多模态信息的天生优势特 性,这有力地丰富了大模型的应用场景。 参数少 速度快 效果好 13 2.Transformer的工作流程 01 Transformer介绍 03 Transformer的训练0 码力 | 60 页 | 3.51 MB | 1 年前3
动手学深度学习 v2.07 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1 12.7.2 环同步(Ring Synchronization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储0 码力 | 797 页 | 29.45 MB | 1 年前3
复杂环境下的视觉同时定位与地图构建在未知环境中定位自身方位并同时构建环境三维地图 • 广泛的应用 • 增强现实、虚拟现实 • 机器人、无人驾驶 SLAM常用的传感器 • 红外传感器:较近距离感应,常用于扫地机器人。 • 激光雷达:单线、多线等。 • 摄像头:单目、双目、多目等。 • 惯性传感器(英文叫IMU,包括陀螺仪、加速度计等):智能手机标配。 常见的单目摄像头 激光雷达 普通手机摄像头也可作为传感器 双目摄像头 微软Kinect彩色-深度(RGBD)传感器 • 双目摄像头 • 多目摄像头 • 其它辅助传感器 • 廉价IMU、GPS • 深度传感器 • 优势 • 硬件成本低廉 • 小范围内定位精度较高 • 无需预先布置场景 基本原理:多视图几何 投影函数 主要模块 • 特征跟踪 • 获得一堆特征点轨迹 • 相机姿态恢复与场景三维结构恢复 • 求解相机参数和三维点云 • 如何处理循环回路序列和多视频序列? • 如何高效高精度地处理大尺度场景? 如何处理动态场景? • 如何处理快速运动和强旋转? 复杂环境下的主要挑战 我们课题组的工作 • 面向大尺度场景的运动恢复结构 • ENFT-SFM:能够高效地处理大尺度场景下拍摄的循环回路和多 视频序列。 • 单目视觉的同时定位与地图构建 • ENFT-SLAM:能在大尺度场景下实时稳定工作、在线回路闭合; • RDSLAM:能在动态场景下稳定工作; • RKSLAM:可以实时运行在移动设备上,并能处理快速运动和强0 码力 | 60 页 | 4.61 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) � 模型有多个版本 � 原有在线分布式存储系统的 问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 key级别的稀疏化 3. 更短的values a) 混合精度: float16+int8+int4 b) 量化压缩,1bit或2bit 优点:与优化器⽆关 缺点:1. 只适合低频特征多的场景 2. 变⻓编码,不利于性能优化 优点:1. 稀疏度⾼ 2. 实现简单 缺点:特定优化器有 效,与adam有效果 差距 优点:与优化器⽆关0 码力 | 22 页 | 6.76 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用搜狗深度学习技术在广告推荐领域的应用 舒鹏 目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 搜索广告背景知识 信息需求 用户查询 查询理解 广告召回 点击率预估 排序计价 结果展示 点击及后续行为 广告库 日志收集 展示日志 点击日志 深度学习在搜狗搜索广告的一些应用 无需分词:基于字符粒度表达的问答系统设计 用途 相关技术 图像理解 图片物料推荐 CNN 文本相关性 广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估 广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程 原始数据 领域特征 模型训练 查询日志 点击日志 查询特征 广告特征 匹配特征 线性模型 非线性模型 Data Feature Model 线上Server Survival Bias 特征覆盖率 并行化训练 并行化训练 诉求 加大数据量,提 升模型稳定性 加大数据量,提 升模型收益 方案 MxNet支持多机 多卡, 使用成本低 构 建 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状 已经实现LR+DNN融合模型的上线,收益较好 受限于线上计算资源,模型复杂度有限 0 码力 | 22 页 | 1.60 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤 模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线0 码力 | 36 页 | 16.69 MB | 1 年前3
共 42 条
- 1
- 2
- 3
- 4
- 5













