数据采集 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TensorFlow on Yarn：深度学习遇上大数据

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点场景（1）� 场景（2）� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 •

0 码力 | 32 页 | 4.06 MB | 1 年前
3
数据增强

数据增强主讲人：龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate

0 码力 | 18 页 | 1.56 MB | 1 年前
3
构建基于富媒体大数据的弹性深度学习计算平台

构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代数据存储数据加速数据处理直播点播 Connect 每天超过10亿图像上传超过万亿小时的音视频存储 What are they？内容审核团队运营分析团队 AI？ Content 分类检测分割跟踪描述搜索分析 … … 连接智能人工智能 = 大数据 + 机器学习 Ataraxia AI Lab (AtLab) 色情 0.01 性感 0.98 正常 0.01 特征 id1 戴眼镜性别：男年龄：33 场景：户外／景点／雪山审查：非色情非暴力很健康颜值: ?? “C罗正在带球突破，后有球员追堵” 场景一 00:00:00-00:01:05 描述：事件1-XXXX 事件2-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行为用户数据推理结果推理服务数据抽样和整理样本训练模型模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data

0 码力 | 21 页 | 1.71 MB | 1 年前
3
基本数据类型

基本数据类型主讲人：龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string

0 码力 | 16 页 | 1.09 MB | 1 年前
3
迁移学习-自定义数据集实战

自定义数据集实战主讲：龙良曲 Pokemon Go! Pokemon Dataset https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/ Download ▪ 链接: https://pan.baidu.com/s/1V_ZJ7ufjUUFZwD2NHSNMFw

0 码力 | 16 页 | 719.15 KB | 1 年前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散的全面感知空调对温度的控制存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较传统时间序列预测 ⚫ 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and

0 码力 | 17 页 | 2.49 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

参考文献第 3 章分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10 参考文献第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 数学运算 4.10 前向传播实战 4.11 参考文献第 5 章 PyTorch 进阶 5.1 合并与分割 5.2 数据统计 5.3 张量比较 5.4 填充与复制 5.5 数据限幅 5.6 高级操作 5.7 经典数据集加载 5.8 MNIST 测试实战 5.9 参考文献第 6 章神经网络 6.1 感知机 6.2 全连接层 6 测量工具 8.7 可视化 8.8 参考文献第 9 章过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9.7 数据增强 9.8 过拟合问题实战 9.9 参考文献第 10 章卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络

0 码力 | 439 页 | 29.91 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂从FM到DeepFM rt 增加了10倍怎么优化？手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据深度学习应用主要的挑战：深度学习应用主要的挑战： 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据从FM到DeepFM rt 增加了10倍怎么优化？ 2 MLP Tensorflow PyTorch Parameter Server MPI TreeModel SQL MapReduce Blink  场景丰富: 图像/视频/推荐/搜索  大数据+大模型: Model Zoo  跨场景+跨模态  开箱即用: 封装复杂性  白盒化, 可扩展性强  积极对接开源系统+模型 FTRL SGD Adam Solutions Librarys

0 码力 | 40 页 | 8.51 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

内容更新快，实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录 CTR概要介绍数据特征目标模型效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程业务目标与模型选择 one-hot 表示 • 假设检验方式 • 相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘非线性特征及组合皮尔逊相关系数特征评估标签匹配度特征相关系数特征评估样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样，长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样分目标人群测试：地域、活跃度… A B 小流量-实验组小流量-对照组数据对比分析算法架构互动行为点击行为阅读行为能力标签兴趣标签亲密度自然属性账号属性用户特征关键词类型属性 topic 内容标签内容质量内容特征组合特征标签匹配度用户互动率协同特征实时互动率 app互动率微博内容关注数据用户信息视觉标签打码日志社交关系用户特征

0 码力 | 21 页 | 2.14 MB | 1 年前
3
QCon2018北京-基于深度学习的视频结构化实践-姚唐仁

• 围绕海量数据提供创新的云服务，帮助客户缩短想法到产品的距离 • 创立6年，每年超过300%的业绩增长 • 已完成5轮融资，累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿，每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 • 国内领先的云计算厂商关于七牛云智能多媒体服务数据洞察机器学习机器学习内容生产者内容消费者内容采集（上传加速）内容分发海量存储海量富媒体数据的业务布局视觉智能 Vision Intelligence 数据智能 Data Intelligence 海量存储 �� 弹性计算 �� 智能网络 API �� CDN ��

0 码力 | 39 页 | 38.01 MB | 1 年前
3

共 73 条前往

页

分类

语言

格式

TensorFlow on Yarn：深度学习遇上大数据

数据增强

构建基于富媒体大数据的弹性深度学习计算平台

基本数据类型

迁移学习-自定义数据集实战

杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

【PyTorch深度学习-龙龙老师】-测试版202112

阿里云上深度学习建模实践-程孟力

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

QCon2018北京-基于深度学习的视频结构化实践-姚唐仁