微博在线机器学习和深度学习实践-黄波趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 实时样本 实时模型训练 实时更新参数 Task 训练预处理 Node 实时样本拼接 Node Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 离线特征处理 Task Kafka输入 input process process output WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 MLX平台架构 • 基于Worker + PS架构搭建 • Worker 模型计算引擎(Engine) 计算图框架(Graph) • 模型计算引擎Engine 模型结构处理 与PS通信交换模型参数 计算图的计算 • 计算图框架Graph 计算逻辑抽象op,通过op组合形成模型结构 提供正向(forward)、反向(backward)、Loss的操作扩展 模型训练框架 基于ANN的向量相似度检索 Item侧离线计算,形成ANN词表 用户侧向量实时计算,通过ANN找出相 似item向量 召回模型设计 • LBS的负例采样 与位置相关的negative sampling 样本 & 特征设计 • 特征设计 用户侧:能设计完整的特征,个性化,实时特征 Item侧:预计算带来的副作用,不能使用实时特征 点击(+) 仅曝光 同地域 全体集合 分布偏差大0 码力 | 41 页 | 5.96 MB | 1 年前3
阿里云上深度学习建模实践-程孟力重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验 实验工具 拉取配置 冷启动召 回 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的黑盒: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 从FM到DeepFM rt 增 加了10倍怎么优化? Adaptive Embedding 训练: 推理: Ring All-reduc同步训练 [HybridBackend/SOK] 特征选择 [VariationalDropout] 通信优化 [GRPC++] 实时训练 [增量更新] 混合精度 [bf16] 工程优化: 千亿特征优化 模型蒸馏 AVX/SSE优化 Graph优化 [User Graph去重] 内存Allocate优化 ParallelStringOp0 码力 | 40 页 | 8.51 MB | 1 年前3
动手学深度学习 v2.01 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 12.4 硬件 . . . . . . 应于模型的预测类别。每个单元格的值cij是验证集中,真实标签为j,而我们的模型预测为i的样本数量所占 的比例。 现在,我们不能直接计算目标数据上的混淆矩阵,因为我们无法看到真实环境下的样本的标签,除非我们再 搭建一个复杂的实时标注流程。然而,我们所能做的是将所有模型在测试时的预测取平均数,得到平均模型 输出µ(ˆy) ∈ Rk,其中第i个元素µ(ˆyi)是我们模型预测测试集中i的总预测分数。 176 4. 多层感知机 在相应的假设条件下,可以在测试时检测并纠正协变量偏移和标签偏移。在测试时,不考虑这种偏移可 能会成为问题。 • 在某些情况下,环境可能会记住自动操作并以令人惊讶的方式做出响应。在构建模型时,我们必须考虑 到这种可能性,并继续监控实时系统,并对我们的模型和环境以意想不到的方式纠缠在一起的可能性 持开放态度。 4.9. 环境和分布偏移 179 练习 1. 当我们改变搜索引擎的行为时会发生什么?用户可能会做什么?广告商呢?0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112array(points), lr) loss = mse(b, w, points) # 计算当前的均方差,用于监控训练进度 if step%50 == 0: # 打印误差和实时的 w,b 值 print(f"iteration:{step}, loss:{loss}, w:{w}, b:{b}") return [b, w] # 返回最后一次的 图卷积神经网络 图片、文本等数据具有规则的空间、时间结构,称为 Euclidean Data(欧几里德数据)。 卷积神经网络和循环神经网络被证明非常擅长处理这种类型的数据。而像类似于社交网 络、通信网络、蛋白质分子结构等一系列的不规则空间拓扑结构的数据,它们往往显得力 不从心。2016 年,Thomas Kipf 等人基于前人在一阶近似的谱卷积算法上提出了图卷积网 络(Graph Convolution image("val-onebyone-images:", val_images, max_outputs=9, step=step) 运行模型程序,相应的数据将实时写入到指定文件目录中。 8.7.2 浏览器端 在运行程序时,监控数据被写入到指定文件目录中。如果要实时远程查看、可视化这 些数据,还需要借助于浏览器和 Web 后端。首先是打开 Web 后端,通过在 cmd 终端运行 tensorboard --logdir0 码力 | 439 页 | 29.91 MB | 1 年前3
复杂环境下的视觉同时定位与地图构建构建环境地图(稀疏或者稠密的三维点云) 稀疏SLAM 稠密SLAM SLAM系统常用的框架 输入 • 传感器数据 前台线程 • 根据传感器数据进行跟踪求解, 实时恢复每个时刻的位姿 后台线程 • 进行局部或全局优化,减少误差累积 • 场景回路检测 输出 • 设备实时位姿 • 三维点云 RGB图 深度图 IMU测量值 优化以减少误差累积 回路检测 SLAM应用介绍 • 扫地机器人 小米扫地机器人 ENFT-SFM:能够高效地处理大尺度场景下拍摄的循环回路和多 视频序列。 • 单目视觉的同时定位与地图构建 • ENFT-SLAM:能在大尺度场景下实时稳定工作、在线回路闭合; • RDSLAM:能在动态场景下稳定工作; • RKSLAM:可以实时运行在移动设备上,并能处理快速运动和强 旋转 。 ENFT-SFM: Efficient Non- Consecutive Feature Tracking • 回路检测与闭合 • 对原来的非连续特征轨迹匹配进行修改 • 计算当前帧与历史关键帧的相似度,并选择相似度高的关键帧进行匹 配 • 采用基于分段的集束调整进行优化 Garden序列上的实时SLAM Garden序列结果比较 ENFT-SLAM ORB-SLAM Non-consecutive Track Matching Segment-based BA Bag-of-words0 码力 | 60 页 | 4.61 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用佳分割点,满足海量数据的实 时性要求 • 在供需失衡之前,即实施调控 手段 5 供需平衡 14 5.2 单量调控模型 • 通过价格平衡未来的进单量 和系统可承载的单量 • 基于GBRT对未来进入单量的 实时预测 • 贪心算法求解系统最佳承载 单量 • 根据当前系统状态匹配最佳 的溢价手段使之回归至最大 可承载单量的调控模型 • 在供需失衡之时,实施最有 效的调控手段 5 总结—外卖订单智能调度要解决的核心问题 • 真实再现调度场景细节 • 回溯定位异常调度原因,诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围 • 节省调度运力,提升商户配送能力 • 云端虚拟队列,实现调度指派 • 提升物流效率 仿真系统 实时监控 时光机 寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析 时光机系统—历史数据可视化分析 真实再现调度场景细节 回溯定位异常调度原因,诊断调试算法 18 1 实时监控系统—当前状况实时监控 19 实时获取调度监控指标 及时预警引入人工干预 2 仿真系统—未来效果仿真预测 订单 在岗骑 士数量 调度 算法 餐厅出餐 时间 骑士 速度 等待用 户时长 骑士路线/ 任务规划 精准模拟实际订单分布情况 有效评估调度算法的改进效果 3 20 寻宝系统—线下优化运营优化指导0 码力 | 28 页 | 6.86 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 • 相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘 非线性特征及组合 皮尔逊相关系数特征评估 标签匹配度特征相关系数特征评估 样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样,长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样 模型评估 Ø 离线评估 • AUC 内容特征 组合特征 标签匹配度 用户互动率 协同特征 实时互动率 app互动率 微博内容 关注数据 用户信息 视觉标签 打码日志 社交关系 用户特征 发博流 互动流 曝光流 模型服务 模型训练 模型优化 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据 自解释特征 1 2 3 深度学习应用与实践0 码力 | 21 页 | 2.14 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 预测 请求 数据 落地 ⽆量 ⽤户⾏为数据上报 特征 库 内容 获取 请求 � 推荐场景的重要性 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储) 实时模型,KB级,秒(Kafka) 分布式 Serving集群 推理节点 分布式 Serving集群 推理节点 召回索引服务 业务服务 1. 获取⽤户向量 2. 向量召回 异步 刷库 训练端⽣成⾼频参数集0 码力 | 22 页 | 6.76 MB | 1 年前3
Keras: 基于 Python 的深度学习库epochs=10, batch_size=32) 3.1.5 例子 这里有几个可以帮助你开始的例子! 在 examples 目录 中,你可以找到真实数据集的示例模型: • CIFAR10 小图片分类:具有实时数据增强的卷积神经网络 (CNN) 快速开始 11 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP shuffle=True, initial_epoch=0) 使用 Python 生成器逐批生成的数据,按批次训练模型。 生成器与模型并行运行,以提高效率。例如,这可以让你在 CPU 上对图像进行实时数据增 强,以在 GPU 上训练模型。 参数 • generator: 一个生成器。生成器的输出应该为以下之一: • 一个 (inputs, targets) 元组 模型 46 • 一个 shuffle=True, initial_epoch=0) 使用 Python 生成器逐批生成的数据,按批次训练模型。 生成器与模型并行运行,以提高效率。例如,这可以让你在 CPU 上对图像进行实时数据增 强,以在 GPU 上训练模型。 keras.utils.Sequence 的使用可以保证数据的顺序,以及当 use_multiprocessing=True 时 ,保证每个输入在每个 epoch0 码力 | 257 页 | 1.19 MB | 1 年前3
共 17 条
- 1
- 2













