稳定排序 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取（关注） Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取（推荐） Ø 微博—社交媒体领跑者 • DAU：1.72亿，MAU：3.92亿 • 关注流基于关系链接用户与内容微博Feed流特点介绍—排序原因 Ø 产品特点 • • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快，实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录 CTR概要介绍数据 CTR一般流程业务目标与模型选择 Ø 模型优化目标 • 互动（转发/评论/赞）点击（图片/视频/文章/链接等）阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型点击模型阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗

0 码力 | 21 页 | 2.14 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集 w进行矩阵压缩存储，参数内存占用减少90% 3 在线机器学习-参数服务器模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 模型稳定性/… 一键打包端口探测蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换版本更新全量发布 … verson1 verson2 … kubenetes/olsubmit 单目标：LR->W&D->FM->DeepFM 多目标：点击FM+互动FM 排序损失：DeepFM+Pair-Wise Rank Loss 多目标融合点击模型和互动模型单目标 LR、W&D、 FM和DeepFM 等模型排序排序损失针对信息流业务场景，从点击损失升级到排序损失，基础模型为 DeepFM，排序损失为 BPR 召回排序 • 深度学习模型训练：WeiLearn

0 码力 | 36 页 | 16.69 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考搜索广告背景知识信息需求用户查询查询理解广告召回点击率预估排序计价结果展示点击及后续行为广告库日志收集展示日志点击日志深度学习在搜狗搜索广告的一些应用无需分词：基于字符粒度表达的问答系统设计 L.X Meng, Y.Li, M.Y 广告物料推荐深度学习在搜狗搜索广告的一些应用方向用途相关技术图像理解图片物料推荐 CNN 文本相关性广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程原始数据领域特征模型训练查询日志点击日志查询特征广告特征匹配特征线性模型特征量巨大；模型复杂度受限连续特征连续特征需要仔细设计；定长；特征稠密特征量相对较小，可以使用多种模型训练模型类别模型类别线性  简单、处理特征量大、稳定性好  需借助交叉特征  Logistic Regression 非线性  能够学习特征间非线性关系  模型复杂、计算耗时  DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均

0 码力 | 22 页 | 1.60 MB | 1 年前
3
房源质量打分中深度学习应用及算法优化-周玉驰

• 选房成本高 • 选房带有主观性 • 无法盘点所有房源质量存在问题人工选房流程 2019 KE.COM ALL COPYRIGHTS RESERVED 9 AI选房本质上是TopN排序问题 2019 KE.COM ALL COPYRIGHTS RESERVED 10 AI选房 - 房源质量打分   好房定义 AI选房建模 Y = f (X)  Y：未来？天能否成交 2019 KE.COM ALL COPYRIGHTS RESERVED 37 分数映射  模型输出  房源质量分数 • 根据概率值排名进行映射 • 分数分布比较稳定 • 10分制易于业务使用 • 每天不稳定，范围波动大 • 分数分布不合理 • 不易于业务使用 MinMaxScaler ( 1 ???????????????????????????????????? )  COPYRIGHTS RESERVED 40 了解分 • 分数解释：打分是怎么计算的 • 如何操作可以提升打分？优质房（A）次优房（B）一般房（C）经纪人的疑问质量分数 • 具有排序意义 • 很难引导经纪人 2019 KE.COM ALL COPYRIGHTS RESERVED 41 雷达图雷达图 • 明示数据的核心打分维度 • 每个维度展示特征的优缺点 • 引导经纪人，提高分数

0 码力 | 48 页 | 3.75 MB | 1 年前
3
动手学深度学习 v2.0

4.7.4 训练神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 4.8 数值稳定性和模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 4.8.1 梯度消失和梯度爆炸 25 办比赛14来完成这项工作。搜索有时，我们不仅仅希望输出一个类别或一个实值。在信息检索领域，我们希望对一组项目进行排序。以网络搜索为例，目标不是简单的“查询（query）‐网页（page）”分类，而是在海量搜索结果中找到用户最需要的那部分。搜索结果的排序也十分重要，学习算法需要输出有序的元素子集。换句话说，如果要求我们输出字母表中的前5个字母，返回“A、B、C、D、E”和“ PageRank15，谷歌搜索引擎背后最初的秘密武器就是这种评分系统的早期例子，但它的奇特之处在于它不依赖于实际的查询。在这里，他们依靠一个简单的相关性过滤来识别一组相关条目，然后根据PageRank对包含查询条件的结果进行排序。如今，搜索引擎使用机器学习和用户行为模型来获取网页相关性得分，很多学术会议也致力于这一主题。推荐系统另一类与搜索和排名相关的问题是推荐系统（recommender system），它的目标是向特定用户进行“个性化”

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

能。常用网络层主要放置在 nn 子模块中，优化器主要放置在 optim 子模块中，模型部署主要通过 ONNX 协议实现。使用 PyTorch 开发，可以方便地利用这些功能完成常用算法业务流程，高效稳定灵活。 1.6 开发环境安装在领略完深度学习框架所带来的便利后，现在来着手在本地计算机环境上安装 PyTorch 最新版。PyTorch 框架支持多种常见的操作系统，如 Windows = ?的基础上面截去了? < 0的部分，可以直观地理解为 ReLU 函数仅保留正的输入部份，清零负的输入，具有单边抑制特性。虽然简单，ReLU 函数却有优良的非线性特性，而且梯度计算非常简单，训练稳定，是深度学习中使用最广泛的激活函数。因此，这里通过嵌套 ReLU 函数将模型转换为非线性模型： = ReLU(?? + ?) 3.6 表达能力针对于一层模型的表达能力偏弱的问题，可以通过重复堆叠多次变换来增加其表达能去预测未知的图片的类别概率分布。模型的测试部分暂不讨论。手写数字图片 MNIST 数据集的训练误差曲线如图 3.11 所示，由于 3 层的神经网络表达能力较强，手写数字图片识别任务相对简单，误差值可以较快速、稳定地下降，其中，把对数据集的所有样本迭代一遍叫作一个 Epoch，通常在间隔数个 Epoch 后测试模型的准确率等指标，方便监控模型的训练效果。图 3.11 MNIST 数据集的训练误差曲线

0 码力 | 439 页 | 29.91 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标 MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 • 场景特点 亿级的用户，千万级的O2O商品 海量的用户行为，完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 •

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-numpy使用总结

----------------- -------------------- [26, 28, 24, 18] [22, 13, 27, 18, 16] 38 大小与排序 NumPy在排序等方面常用的函数如下： > a = np.array([1, 3, 5, 7]) > b = np.array([2, 4, 6]) > np.maximum(a[None, :], b[: maxinum 二元最大值 sort 数组排序 argsort 数组排序下标 percentile 分位数 median 中位数 min,max都有axis,out,keepdims等参数，我们来看其他函数。 39 大小与排序 sort()对数组进行排序会改变数组的内容，返回一个新的数组。axis的默认值都为-1，即按最终轴进行排序。axis=0对每列上的值进行排序。 np.sort(a)

0 码力 | 49 页 | 1.52 MB | 1 年前
3
Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf

�� 目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征视频搜索的挑战 1��/��——�� 2��/��——�� 3��——�� 1�� FLULQP 和UuFFHUU TDVH效果最好内容理解——多目标检测f跟踪 ��/�� A51视频智能缩略图 • 目的a通过对视频进行结构化分析，对关键帧、视频镜头进行筛选和排序，选择最w的关键帧、关键片段来作i视频的展示 • 方法a视频智能缩略图采用关键帧提取+99>w化+美学评分等方法，选择视频h最w关键帧作i该视频的首图。 • 效果a • r工评测 • �� billion�� • bi-LSTM + attention • ��pai-tensorflow�� 语k模型——总结排序应用——g性化表征排序应用——g性化表征 �� q��R��yd�� s�ui��o�e�s��

0 码力 | 24 页 | 9.60 MB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

XGBoost 使用贪心方法，选增益（ ???? ）最大的分裂方式贪心方法，众多????中找到最大值做为最优分割节点（split point），因此模型会将所有样本按照（一阶梯度）从小到大排序，通过遍历，查看每个节点是否需要分割，计算复杂度是：决策树叶子节点数 – 1。 XGBoost的分裂方式 35 4.LightGBM 01 集成学习方法概述 02 Adaboost和GBDT算法输入：训练数据，迭代步数d，大梯度数据的采样率a，小梯度数据的采样率b，损失函数和若学习器的类型（一般为决策树）输出：训练好的强学习器（1）根据样本点的梯度的绝对值对它们进行降序排序；（2）对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集；（3）对剩下的样本集合(1-a)*100%的样本，随机的选取b *(1-a)*100%个样本点，生成一个小梯度样本点的集合； 02*3+0.02 0.03 bin1 bin2 bin3 bin序号 bin样本的之和 bin内所有样本的一阶导之和 bin内所有样本的二阶导之和可能的候选点分裂点个数等于样本取值个数减一排序完了之后，我们就选出a * data_num个梯度大的，然后从剩下的那些样本里面选出b*data_num个梯度小的：这里是8个样本，所以a*8=2，b*8=2，1−? ? = 3。即先选出2

0 码力 | 50 页 | 2.03 MB | 1 年前
3

共 29 条前往

页

分类

语言

格式

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

微博在线机器学习和深度学习实践-黄波

搜狗深度学习技术在广告推荐领域的应用

房源质量打分中深度学习应用及算法优化-周玉驰

动手学深度学习 v2.0

【PyTorch深度学习-龙龙老师】-测试版202112

超大规模深度学习在美团的应用-余建平

机器学习课程-温州大学-numpy使用总结

Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf

机器学习课程-温州大学-08机器学习-集成学习