TensorFlow on Yarn:深度学习遇上大数据深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日 内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS 专业:Yarn、Spark、MR、HDFS …� 挑战:深度学习空前⽕爆,各种深度学习框架层出不穷,业务部门 拥抱新兴技术。平台怎么应对?� 机遇:Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点 场景(1)� 场景(2)� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example example.com:2222” ], “ps”: [ “ps0.example.com:2222”, “ps1.example.com:2222” ]}) 分布式版本ClusterSpec定义:� 带来的问题:� • ⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型�0 码力 | 32 页 | 4.06 MB | 1 年前3
数据增强数据增强 主讲人:龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate0 码力 | 18 页 | 1.56 MB | 1 年前3
构建基于富媒体大数据的弹性深度学习计算平台构建基于富媒体大数据的弹性深度学 习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代 数据存储 数据加速 数据处理 直播 点播 Connect 每天超过10亿图像上传 超过万亿小时的音视频存储 What are they? 内容审核团队 运营分析团队 AI? Content 分类 检测 分割 跟踪 描述 搜索 分析 … … 连接 智能 人工智能 = 大数据 + 机器学习 Ataraxia AI Lab (AtLab) 色情 0.01 性感 0.98 正常 0.01 特征 id1 戴眼镜 性别:男 年龄:33 场景:户外/景点/雪山 审查: 非色情 非暴力 很健康 颜值: ?? “C罗正在带球突破,后有球员追堵” 场景一 00:00:00-00:01:05 描述:事件1-XXXX 事件2-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行 为 用户数 据 推理结 果 推理服务 数据抽样 和整理 样本 训练 模型 模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data0 码力 | 21 页 | 1.71 MB | 1 年前3
基本数据类型基本数据类型 主讲人:龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string0 码力 | 16 页 | 1.09 MB | 1 年前3
迁移学习-自定义数据集实战自定义数据集实战 主讲:龙良曲 Pokemon Go! Pokemon Dataset https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/ Download ▪ 链接: https://pan.baidu.com/s/1V_ZJ7ufjUUFZwD2NHSNMFw0 码力 | 16 页 | 719.15 KB | 1 年前3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用PYCON CHINA 基于深度学习的多维时间序列 预测在数据机房中的应用 目 录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍 数据机房面临的能耗问题 数据机房面临电量消耗巨大的问题 空调是数据机房中电量消耗最大的设备 空调为什么那么耗电?怎么优化节能? 低效的 冷却装 置 服务主 机工作 发热 影响空 调耗电 量原因 建筑材料 隔热和散 的全面感知 空调对温度的控制 存在延迟 多 维 感 知 温 度 预 测 控 制 2. 研究目标 对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值,从而实现空调的预测控制。 风机状态 服务负载 天气状况 室外温度 室外湿度 门禁状态 时序数据 温度预测 预测控制 节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较 传统时间序列预测 ⚫ 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 多维时间序列预测方法解决机房温度预测 对数据包含的信息提取能力越来越强 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and0 码力 | 17 页 | 2.49 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112参考文献 第 3 章 分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10 参考文献 第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 数学运算 4.10 前向传播实战 4.11 参考文献 第 5 章 PyTorch 进阶 5.1 合并与分割 5.2 数据统计 5.3 张量比较 5.4 填充与复制 5.5 数据限幅 5.6 高级操作 5.7 经典数据集加载 5.8 MNIST 测试实战 5.9 参考文献 第 6 章 神经网络 6.1 感知机 6.2 全连接层 6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9.7 数据增强 9.8 过拟合问题实战 9.9 参考文献 第 10 章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0Lipton, Mu Li, and Alexander J. Smola Aug 18, 2023 目录 前言 1 安装 9 符号 13 1 引言 17 2 预备知识 39 2.1 数据操作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.1 . . . . . . . . . . . . . . . . . . . 47 2.2 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.1 读取数据集 . . . . . . . . . . . . . . . . . . . . . . 2 矢量化加速 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.1.3 正态分布与平方损失 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.1.4 从线性回归到深度网络 .0 码力 | 797 页 | 29.45 MB | 1 年前3
阿里云上深度学习建模实践-程孟力工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化? 2 2.模型效果优 化困难 1.方案复杂 Data Model Compute Platform 要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测0 码力 | 40 页 | 8.51 MB | 1 年前3
超大规模深度学习在美团的应用-余建平百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 • 模型 DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构 基于Parameter Server架构 数据并行 —— 支持超大规模训练集 模型并行 —— 支持超大规模模型 • 业界千亿级以上的机器学习平台 开源: PaddlePaddle、XDL,etc Abacus、XPS, etc. • Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能力 • 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式,模型结构灵活多样 支持推荐、搜索、广告场景常用的深度学习模型0 码力 | 41 页 | 5.96 MB | 1 年前3
共 77 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













