阿里云上深度学习建模实践-程孟力从FM到DeepFM rt 增 加了10倍怎么优化? 2.模型效果优 化困难 1.方案复杂 Data Model Compute Platform 要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: Service (SaaS) 机器学习框架(PAI-TensorFlow/PAI-PyTorch/Caffe /Alink/…) 计算引擎(MaxCompute / EMR / Flink) 基础硬件(CPU/GPU/FPGA/NPU) 阿里云容器服务(ACK) • 200+组件 • 数十个场景化模版 • 所见即所得 交互式建模(DSW) • JupyterLab、WebIDE • Intelligence) Deep Learning Container 数据量大而全 先进的模型结构 业务场景复杂 计算力强、性价比高 提供 支撑 支撑 支撑 促进 促进 开源生态 系统 硬件 模型 生态系统 外循环 内循环 贡献 对接 PAI平台的优势 1. 机器学习PAI: https://help.aliyun.com/product/30347.html 2.0 码力 | 40 页 | 8.51 MB | 1 年前3
《TensorFlow 2项目进阶实战》6-业务落地篇:实现货架洞察Web应⽤• 展现 AI 效果理论:使用 OpenCV 可视化识别结果 • 展现 AI 效果实战:使用 OpenCV 可视化识别结果 • 搭建 AI SaaS 理论:Web 框架选型 • 搭建 AI SaaS 理论:数据库 ORM 选型 • 搭建 AI SaaS 理论:10 分钟快速开发 AI SaaS • 搭建 AI SaaS 实战:10 分钟快速开发 AI SaaS • 交付 AI SaaS:10 TensorFlow” Try it! 搭建 AI SaaS 理论:Web 框架选型 Python Web 框架 Python Web 框架 - Flask Python Web 框架 - Flask Flask 常用扩展 Flask 项目常见目录结构 启动文件 manage.py 示例 搭建 AI SaaS 理论:数据库 ORM 选型 ORM 是什么 ORM 是什么 常见的 Python ORM0 码力 | 54 页 | 6.30 MB | 1 年前3
谭国富:深度学习在图像审核的应用扩增数据 – 各种图像增强,加噪声 • 非监督学习 - 聚类 • 迁移学习 – 利用相似任务训练好的网络 • 生成样本数据 – 深度生成对抗网络 SACC2017 深度学习 训练框架 和 硬件选择 不同场景,不同框架 特性 GTX - 1080TI G7-P40 PCIe-V100 GPU核心 GPU微架构 Pascal Pascal Volta 核心代号 GP104 GP102 预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台 底层硬件加速 操作系统 应用场景 add conv w x b 公共计算库 X86 优化 Android 优化 iOS 优化 GPU 优化 内存池 硬件设备 网络模型 • 越来越多的应用场景,云服务,Android,iOS, 闸机嵌入式 • 越来越复杂的限制条件, 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配0 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言智能芯片技术、机器学习 芯片 英国 2016年 D轮融资 估值17亿美元 15 NVIDIA(英伟达) 智能芯片技术 芯片 美国 1993年 上市 市值1450亿美元 16 Brainco 脑机接口 教育、医疗、智能硬件 美国 2015年 天使轮融资 融资额600万美元 17 Waymo 自动驾驶 交通 美国 2016年 C轮融资 估值1050亿美元 18 ABB Robotics 机器人及自动化技术 机器人 瑞士 神经元 (z ) 1 (z ) = e− z 1 + z 24 主要的几种神经网络 标准神经网络(NN) 递归神经网络 (RNN) 卷积神经网络(CNN) 25 深度学习的硬件 26 • TPU (Tensor Processing Units) Google Cloud TPU. https://cloud.google.com/tpu NVIDIA V100 64GB 128GB FLOPS Double: 7 TFLOPS Single: 14 TFLOPS DL: 112 TFLOPS 180 TFLOPS 420 TFLOPS 深度学习的硬件 27 • 提问:训练一个模型需要多大开销? • 以训练 BERT-large 模型为例, 16 Cloud TPUs = 16 * 4.5 = 72 USD / hour One-day0 码力 | 80 页 | 5.38 MB | 1 年前3
复杂环境下的视觉同时定位与地图构建SLAM应用介绍 • 增强现实:Google Tango Google的Tango项目演示视频 Tango为终端开发者提供了从硬件到软件的整套AR开发套件 SLAM应用介绍 • 混合现实:微软HoloLens HoloLens融合了场景位置感知和头盔显示技术,并提供了完整的软硬件解决方案。 Hololens部分传感器 左右双目+前视RGB摄像头+深度传感器 Hololens宣传视频 视觉SLAM 视觉SLAM • 主要传感器 • 单目摄像头 • 双目摄像头 • 多目摄像头 • 其它辅助传感器 • 廉价IMU、GPS • 深度传感器 • 优势 • 硬件成本低廉 • 小范围内定位精度较高 • 无需预先布置场景 基本原理:多视图几何 投影函数 主要模块 • 特征跟踪 • 获得一堆特征点轨迹 • 相机姿态恢复与场景三维结构恢复 • 求解相机参数和三维点云 • 如何处理循环回路序列和多视频序列?0 码力 | 60 页 | 4.61 MB | 1 年前3
动手学深度学习 v2.012.3.2 并行计算与通信 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 12.4 硬件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516 结合在一起。应用深度学习需 要同时了解(1)以特定方式提出问题的动机;(2)给定建模方法的数学; (3)将模型拟合数据的优化算法; (4) 能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 游戏曾经是人类智慧的堡垒。从TD‐Gammon开始,一个使用时差强化学习的五子棋游戏程序,算法和 计算的进步导致了算法被广泛应用。与五子棋不同的是,国际象棋有一个复杂得多的状态空间和一组 动作。深蓝公司利用大规模并行性、专用硬件和高效搜索游戏树 (Campbell et al., 2002) 击败了加里·卡 斯帕罗夫(Garry Kasparov)。围棋由于其巨大的状态空间,难度更大。AlphaGo在2015年达到了相当于0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库TensorFlow 后端 • 微软的 CNTK 后端 • Theano 后端 亚马逊也正在为 Keras 开发 MXNet 后端。 如此一来,你的 Keras 模型可以在 CPU 之外的不同硬件平台上训练: • NVIDIA GPU。 • Google TPU,通过 TensorFlow 后端和 Google Cloud。 • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML 线性转 换。 • implementation: 实现模式,1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法 操作,而模式 2 将把它们分批到更少,更大的操作中。这些模式在不同的硬件和不同的应 用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回输出序列中的最后一个输出,还是全部序列。 • return_state: 布尔值。除了输出之外是否返回最后一个状态。 KERAS 网络层 95 • implementation: 实现模式,1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法 操作,而模式 2 将把它们分批到更少,更大的操作中。这些模式在不同的硬件和不同的应 用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回输出序列中的最后一个输出,还是全部序列。 • return_state: 布尔值。除了输出之外是否返回最后一个状态。0 码力 | 257 页 | 1.19 MB | 1 年前3
李东亮:云端图像技术的深度学习模型与应用360浏览器 月活跃用户数量为3.03亿 360导航 日均独立访问用户为8900万人 日均点击量约为4.51亿次 360搜索 稳定拥有35%以上的市场份额 中国最大的互联网安全公司 360智能硬件 智能摄像头超400万,儿童手表超 350万,行车记录仪超300万 SACC2017 奇虎360 安全 ——360的基因 SACC2017 【万物互联的新时代】 线上安全 线下安全 泛0 码力 | 26 页 | 3.69 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒在严肃应用中,客户追求100%准确率,算法性能提升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法,在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性,如GPU TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 • Kubernetes版本发布快,新特性更新频繁,对异构调度的支持不断加强;但配套设施落后(e0 码力 | 23 页 | 9.26 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文1,可以使用非监督数据训练字词向量,提升泛化能力 2,端到端,提供新思路 3,一些模型结构能够克服传统模型缺点 缺点: 1,小数据量效果不一定好 2,调参工作量有时不亚于特征工程 3,客户部署硬件环境限制 总结:一些实践经验 1,在业务场景下,尽量收集并理解数据,分析问题本质,选择合适模型 2,初始阶段可以使用传统机器学习模型快速尝试,作为baseline版本 3,疑难问题使用端到端的方式也许会有惊喜0 码力 | 46 页 | 25.61 MB | 1 年前3
共 14 条
- 1
- 2













