流数据 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

深度学习在微博Feed流应用实践刘博新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取（关注） Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取（推荐） Ø 微博—社交媒体领跑者 • DAU：1.72亿，MAU：3 72亿，MAU：3.92亿 • 关注流基于关系链接用户与内容微博Feed流特点介绍—排序原因 Ø 产品特点 • 传播性强 Ø 存在问题 • 信息过载 • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快，实时性要求高 • 内容形式多样、非结构化内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录 CTR概要介绍数据特征目标模型效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程业务目标与模型选择 Ø 模型优化目标 •

0 码力 | 21 页 | 2.14 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点场景（1）� 场景（2）� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 •

0 码力 | 32 页 | 4.06 MB | 1 年前
3
数据增强

数据增强主讲人：龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate

0 码力 | 18 页 | 1.56 MB | 1 年前
3
构建基于富媒体大数据的弹性深度学习计算平台

构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代数据存储数据加速数据处理直播点播 Connect 每天超过10亿图像上传超过万亿小时的音视频存储 What are they？内容审核团队运营分析团队 AI？ Content 分类检测分割跟踪描述搜索分析 … … 连接智能人工智能 = 大数据 + 机器学习 Ataraxia AI Lab (AtLab) 色情 0.01 性感 0.98 正常 0.01 特征 id1 戴眼镜性别：男年龄：33 场景：户外／景点／雪山审查：非色情非暴力很健康颜值: ?? “C罗正在带球突破，后有球员追堵” 场景一 00:00:00-00:01:05 描述：事件1-XXXX 事件2-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行为用户数据推理结果推理服务数据抽样和整理样本训练模型模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data

0 码力 | 21 页 | 1.71 MB | 1 年前
3
基本数据类型

基本数据类型主讲人：龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string

0 码力 | 16 页 | 1.09 MB | 1 年前
3
迁移学习-自定义数据集实战

自定义数据集实战主讲：龙良曲 Pokemon Go! Pokemon Dataset https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/ Download ▪ 链接: https://pan.baidu.com/s/1V_ZJ7ufjUUFZwD2NHSNMFw

0 码力 | 16 页 | 719.15 KB | 1 年前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散的全面感知空调对温度的控制存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较传统时间序列预测 ⚫ 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and

0 码力 | 17 页 | 2.49 MB | 1 年前
3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

可视化模型数据流图 • 实战 TensorFlow 房价预测第四部分目录房价预测模型介绍前置知识：监督学习（Supervised Learning）监督学习是机器学习的一种方法，指从训练数据（输入和预期输出）中学到一个模型（函数），并根据模型可以推断新实例的方法。函数的输出通常为一个连续值（回归分析）或类别标签（分类）。训练数据学习算法模型新数据推断结果 1416 232000 3000 539900 1985 299900 1534 314900 1427 198999 1380 212000 1494 242500 训练数据：多变量房价预测问题：数据分析面积（平方英尺）卧室数量（个）价格（美元） 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3000 3000 4 539900 1985 4 299900 1534 3 314900 1427 3 198999 1380 3 212000 1494 3 242500 训练数据：数据分布：多变量房价预测问题：特征归一化房屋面积和卧室数量这两个变量（特征）在数值上差了1000倍。在这种情况下，通常先进行特征缩放（Scaling），再开始训练，可以加速模型收敛。平均值标准差

0 码力 | 46 页 | 5.71 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

• 平台效果 • 微博技术里程碑 • 微博业务生态推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 信息流热门流视频流关系流 • 推荐流图片推荐流正文推荐流视频推荐流 1 推荐场景 • 推荐 • 在特定场景下，根据用户行为和特点，向用户推荐感兴趣的对象集 • 模型： • 趋势 • 实时化：在线机器学习 • 深度化：深度学习平台化：机器学习平台 2 推荐 • 实时化 • 特征实时化：更及时反馈用户行为，更细粒度刻画用户 • 模型实时化：根据线上样本实时训练模型，及时地反映对象的线上变化模型推理预测服务实时特征实时数据 3 在线机器学习实时样本实时模型训练实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流互动行为日志数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题

0 码力 | 36 页 | 16.69 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集  模型并行 —— 支持超大规模模型 • 业界千亿级以上的机器学习平台  开源： PaddlePaddle、XDL，etc  内部： Abacus、XPS， etc. • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样

0 码力 | 41 页 | 5.96 MB | 1 年前
3

共 73 条前往

页

分类

语言

格式

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

TensorFlow on Yarn：深度学习遇上大数据

数据增强

构建基于富媒体大数据的弹性深度学习计算平台

基本数据类型

迁移学习-自定义数据集实战

杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

微博在线机器学习和深度学习实践-黄波

超大规模深度学习在美团的应用-余建平