QCon北京2018-《深度学习在微博信息流排序的应用》-刘博深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 微博Feed流特点介绍—排序原因 Ø 产品特点 • • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 CTR一般流程 业务目标与模型选择 Ø 模型优化目标 • 互动(转发/评论/赞) 点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型 点击模型 阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗0 码力 | 21 页 | 2.14 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 w进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit 单目标:LR->W&D->FM->DeepFM 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型 单目标 LR、W&D、 FM和DeepFM 等模型排序 排序损失 针对信息流业务场景,从 点击损失升级到排序损 失,基础模型为 DeepFM,排序损失为 BPR 召 回 排 序 • 深度学习模型训练:WeiLearn0 码力 | 36 页 | 16.69 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 搜索广告背景知识 信息需求 用户查询 查询理解 广告召回 点击率预估 排序计价 结果展示 点击及后续行为 广告库 日志收集 展示日志 点击日志 深度学习在搜狗搜索广告的一些应用 无需分词:基于字符粒度表达的问答系统设计 L.X Meng, Y.Li, M.Y 广告物料推荐 深度学习在搜狗搜索广告的一些应用 方向 用途 相关技术 图像理解 图片物料推荐 CNN 文本相关性 广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估 广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程 原始数据 领域特征 模型训练 查询日志 点击日志 查询特征 广告特征 匹配特征 线性模型 特征量巨大;模型复杂度 受限 连续特征 连续特征 需要仔细设计;定长;特 征稠密 特征量相对较小,可以 使用多种模型训练 模型类别 模型类别 线性 简单、处理特征 量大、稳定性好 需借助交叉特征 Logistic Regression 非线性 能够学习特征间 非线性关系 模型复杂、计算 耗时 DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均0 码力 | 22 页 | 1.60 MB | 1 年前3
房源质量打分中深度学习应用及算法优化-周玉驰• 选房成本高 • 选房带有主观性 • 无法盘点所有房源质量 存在问题 人工选房流程 2019 KE.COM ALL COPYRIGHTS RESERVED 9 AI选房本质上是TopN排序问题 2019 KE.COM ALL COPYRIGHTS RESERVED 10 AI选房 - 房源质量打分 好房定义 AI选房建模 Y = f (X) Y:未来?天能否成交 2019 KE.COM ALL COPYRIGHTS RESERVED 37 分数映射 模型输出 房源质量分数 • 根据概率值排名进行映射 • 分数分布比较稳定 • 10分制易于业务使用 • 每天不稳定,范围波动大 • 分数分布不合理 • 不易于业务使用 MinMaxScaler ( 1 ???????????????????????????????????? ) COPYRIGHTS RESERVED 40 了解分 • 分数解释:打分是怎么计算的 • 如何操作可以提升打分? 优质房(A) 次优房(B) 一般房(C) 经纪人的疑问 质量分数 • 具有排序意义 • 很难引导经纪人 2019 KE.COM ALL COPYRIGHTS RESERVED 41 雷达图 雷达图 • 明示数据的核心打分维度 • 每个维度展示特征的优缺点 • 引导经纪人,提高分数0 码力 | 48 页 | 3.75 MB | 1 年前3
动手学深度学习 v2.04.7.4 训练神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 4.8 数值稳定性和模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 4.8.1 梯度消失和梯度爆炸 25 办比赛14来完成这项工作。 搜索 有时,我们不仅仅希望输出一个类别或一个实值。在信息检索领域,我们希望对一组项目进行排序。以网络 搜索为例,目标不是简单的“查询(query)‐网页(page)”分类,而是在海量搜索结果中找到用户最需要的 那部分。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。换句话说,如果要求我们输出字 母表中的前5个字母,返回“A、B、C、D、E”和“ PageRank15,谷歌搜索引擎背后最初的秘密武器就是这种评分系统的早期例子,但它的奇特之处在于它不依 赖于实际的查询。在这里,他们依靠一个简单的相关性过滤来识别一组相关条目,然后根据PageRank对包含 查询条件的结果进行排序。如今,搜索引擎使用机器学习和用户行为模型来获取网页相关性得分,很多学术 会议也致力于这一主题。 推荐系统 另一类与搜索和排名相关的问题是推荐系统(recommender system),它的目标是向特定用户进行“个性化”0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112能。常用网络层主要放置在 nn 子模块中,优化器主要放置在 optim 子模块中,模型部署主 要通过 ONNX 协议实现。使用 PyTorch 开发,可以方便地利用这些功能完成常用算法业务 流程,高效稳定灵活。 1.6 开发环境安装 在领略完深度学习框架所带来的便利后,现在来着手在本地计算机环境上安装 PyTorch 最新版。PyTorch 框架支持多种常见的操作系统,如 Windows = ?的基础上面截去了? < 0的部分,可以直观地理解为 ReLU 函数仅保留正的输入部份,清零负的输入,具有单边抑制特性。虽然简单,ReLU 函 数却有优良的非线性特性,而且梯度计算非常简单,训练稳定,是深度学习中使用最广泛 的激活函数。因此,这里通过嵌套 ReLU 函数将模型转换为非线性模型: = ReLU(?? + ?) 3.6 表达能力 针对于一层模型的表达能力偏弱的问题,可以通过重复堆叠多次变换来增加其表达能 去预测未知的图片的类别概率分布。模型的测 试部分暂不讨论。 手写数字图片 MNIST 数据集的训练误差曲线如图 3.11 所示,由于 3 层的神经网络表 达能力较强,手写数字图片识别任务相对简单,误差值可以较快速、稳定地下降,其中, 把对数据集的所有样本迭代一遍叫作一个 Epoch,通常在间隔数个 Epoch 后测试模型的准 确率等指标,方便监控模型的训练效果。 图 3.11 MNIST 数据集的训练误差曲线0 码力 | 439 页 | 29.91 MB | 1 年前3
超大规模深度学习在美团的应用-余建平级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 •0 码力 | 41 页 | 5.96 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结----------------- -------------------- [26, 28, 24, 18] [22, 13, 27, 18, 16] 38 大小与排序 NumPy在排序等方面常用的函数如下: > a = np.array([1, 3, 5, 7]) > b = np.array([2, 4, 6]) > np.maximum(a[None, :], b[: maxinum 二元最大值 sort 数组排序 argsort 数组排序下标 percentile 分位数 median 中位数 min,max都有axis,out,keepdims等参数,我们来看其他函数。 39 大小与排序 sort()对数组进行排序会改变数组的内容,返回一个新的数组。axis的默认 值都为-1,即按最终轴进行排序。axis=0对每列上的值进行排序。 np.sort(a)0 码力 | 49 页 | 1.52 MB | 1 年前3
Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf��������������� ������� 目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征 视频搜索的挑战 1�����/���——���� 2����/�����——���� 3������——������ ��������������� 1������������ FLULQP 和UuFFHUU TDVH效果最好 内容理解——多目标检测f跟踪 ����/���� A51视频智能缩略图 • 目的a通过对视频进行结构化分析,对关键帧、视频镜头进行筛选和排序, 选择最w的关键帧、关键片段来作i视频的展示 • 方法a视频智能缩略图采用关键帧提取+99>w化+美学评分等方法,选 择视频h最w关键帧作i该视频的首图。 • 效果a • r工评测 • ����� billion�� ��������� • bi-LSTM + attention • ��pai-tensorflow������ 语k模型——总结 排序应用——g性化表征 排序应用——g性化表征 ����������� � ���������������������q������R�����yd���� � ��s�ui��������o�e�s�������������0 码力 | 24 页 | 9.60 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习XGBoost 使用贪心方法,选增益( ???? )最大的分裂方式 贪心方法,众多????中找到最大值做为最优分割节点(split point),因此模型会 将所有样本按照(一阶梯度)从小到大排序,通过遍历,查看每个节点是否需要 分割,计算复杂度是:决策树叶子节点数 – 1。 XGBoost的分裂方式 35 4.LightGBM 01 集成学习方法概述 02 Adaboost和GBDT算法 输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若 学习器的类型(一般为决策树) 输出:训练好的强学习器 (1)根据样本点的梯度的绝对值对它们进行降序排序; (2)对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集; (3)对剩下的样本集合(1-a)*100%的样本,随机的选取b *(1-a)*100%个样本点,生成一个小 梯度样本点的集合; 02*3+0.02 0.03 bin1 bin2 bin3 bin序号 bin样本的之和 bin内所有样本的一阶导之和 bin内所有样本的二阶导之和 可能的候选点分裂点个数 等于样本取值个数减一 排序完了之后,我们就选出a * data_num个梯度大的,然后从剩下的那些样本里面选出b*data_num个梯度小的: 这里是8个样本,所以a*8=2,b*8=2,1−? ? = 3。 即先选出20 码力 | 50 页 | 2.03 MB | 1 年前3
共 29 条
- 1
- 2
- 3













