Qcon北京2018-《文本智能处理的深度学习技术》-陈运文化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证、ISO9001质量管理体系认证、双软认证等最全面的企业服务资质。 权威认证的人工智能服务,可充分保障客户业务实践与业务安全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求 • 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) • 多领域通用 • 输入层采用词向量,提升泛化能力 • 循环神经网络(LSTM,GRU等)能学0 码力 | 46 页 | 25.61 MB | 1 年前3
动手学深度学习 v2.07 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1 12.7.2 环同步(Ring Synchronization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储0 码力 | 797 页 | 29.45 MB | 1 年前3
阿里云上深度学习建模实践-程孟力训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化 标准化模型库 标准化解决方案 1.方案复杂 训练优化: 数据并行 模型并行 推理优化: Blade 推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比 工程优化: 数据并行 M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型 RapidFormer性能 解决方案: 智能标注 自监督学习 多模态预训练 小样本学习 解决方案: 智能标注系统iTags 智能抠图 智能抠图 智能贴合 智能预标注 + 人机协同 解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征 图像搜索 解决方案: 多模态预训练 Swin transformer0 码力 | 40 页 | 8.51 MB | 1 年前3
谭国富:深度学习在图像审核的应用银行 卡、车牌、名片等等多个垂直场景 l 证件类OCR识别 l 落地应用 Ø 手Q名片识别,广点通营业执照识别: 在手Q的扫一 扫入口中,可以体验。 Ø Webank身份证识别,主播实名认证: 方便用户快速 的输入证件信息。 SACC2017 OCR识别 – 通用场景和手写 Ø 手写体手机/电话识别准确率可达99%以上。突破业界复杂手写体 识别的难题。 Ø 通用场景准确率和召回率均在88%以上。 FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100, 预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台 底层硬件加速 操作系统 应用场景 add conv w x 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器0 码力 | 32 页 | 5.17 MB | 1 年前3
深度学习在电子商务中的应用程进兴,苏宁美国研究院技术总监,斯坦福大学 博士,清华大学本科。 曾在甲骨文,雅虎,微软, 沃尔玛实验室等多家公司从事搜索,广告,大数 据分析,机器学习,人工智能应用等方面的研发 工作。在此期间,发表了10多篇相关领域的研究 论文,并有10多项相关领域的专利。 业余爱好: 骑行 个人简介 电子邮箱: jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索 矢量化搜索技术简介 适 就 退 不然 真 不 合 理]; a : [亲 ] q : [你 现在 到 unk 镇 哪里 提 就 不能 帮 我 查 下 吗]; a : [这个 是 苏宁 发货 的] q : [我的 增 票 认证 已经 成功 为什么 还 没有 给 我 寄 发票 呢]; a : [您好 请问 有 什么 可 以 帮 您 的 呢] q : [可以 有 人员 上门 帮忙 安装 调试 吗]; a : [安装 师傅 上门0 码力 | 27 页 | 1.98 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂 游戏平台中的 49 个游戏上取得了 与人类相当甚至超越人类的水平;在围棋领域,DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等;在多智能体协作的 Dota2 游戏 平台,OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 冠军队伍 OG 队,展现出了大量专业级的高层智能操作。图 1.9 列出了 2006 亿次的浮点运算数 (GFLOPS)的指标变换曲线。可以看到,x86 CPU 的曲线变化相对缓慢,而 NVIDIA GPU 的浮点计算能力指数式增长,这主要是由日益增长的游戏计算量和深度学习计算量等业务 驱动的。 预览版202112 1.3 深度学习特点 9 图 1.12 NVIDIA GPU FLOPS 趋势(数据来自 NVIDIA) 1.3.3 网络规模 早期的感知机模型和多层神经网络层数只有0 码力 | 439 页 | 29.91 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒人脸识别大幅提高精度,商汤科 技首次突破人类肉眼识别准确率 ,领先于Facebook Google5000万美元招入 Hinton,发布基于深度学习的 搜索引擎 Microsoft 深度学习驱动的语音 识别大幅提升精度 软银孙正义设立1000亿美元人 工智能基金,320亿美元收购芯 片架构公司ARM 2016.7 公司简介 历史业绩 领先技术 20年 科研经验 800余位 Kubernetes版本发布快,新特性更新频繁,对异构调度的支持不断加强;但配套设施落后(e.g. Spark on K8s, GitlabCI) • 容器系统调用栈深,需要仔细验证操作系统,内核及异构设备驱动的兼容性 • Kubernetes对NUMA、异构计算、存储设备的调度能力待加强 1.6 nvidia/gpu custom scheduler 1.8 local-volume 1.100 码力 | 23 页 | 9.26 MB | 1 年前3
亚马逊AWSAI Services Overview一键获得的GPU 加速的深度学习 AWS 深度学习AMI 高达 ~40k CUDA cores MXNet TensorFlow Theano Caffe Torch 预配置的 CUDA 驱动 Anaconda, Python3 + CloudFormation 模版 + 容器镜像文件 全新的 EC2 P2 实例 | 高达16 块 GPUs ▪ 这款新实例类型包含了高达 8个 NVIDIA0 码力 | 56 页 | 4.97 MB | 1 年前3
复杂环境下的视觉同时定位与地图构建在未知环境中定位自身方位并同时构建环境三维地图 • 广泛的应用 • 增强现实、虚拟现实 • 机器人、无人驾驶 SLAM常用的传感器 • 红外传感器:较近距离感应,常用于扫地机器人。 • 激光雷达:单线、多线等。 • 摄像头:单目、双目、多目等。 • 惯性传感器(英文叫IMU,包括陀螺仪、加速度计等):智能手机标配。 常见的单目摄像头 激光雷达 普通手机摄像头也可作为传感器 双目摄像头 微软Kinect彩色-深度(RGBD)传感器 • 双目摄像头 • 多目摄像头 • 其它辅助传感器 • 廉价IMU、GPS • 深度传感器 • 优势 • 硬件成本低廉 • 小范围内定位精度较高 • 无需预先布置场景 基本原理:多视图几何 投影函数 主要模块 • 特征跟踪 • 获得一堆特征点轨迹 • 相机姿态恢复与场景三维结构恢复 • 求解相机参数和三维点云 • 如何处理循环回路序列和多视频序列? • 如何高效高精度地处理大尺度场景? 如何处理动态场景? • 如何处理快速运动和强旋转? 复杂环境下的主要挑战 我们课题组的工作 • 面向大尺度场景的运动恢复结构 • ENFT-SFM:能够高效地处理大尺度场景下拍摄的循环回路和多 视频序列。 • 单目视觉的同时定位与地图构建 • ENFT-SLAM:能在大尺度场景下实时稳定工作、在线回路闭合; • RDSLAM:能在动态场景下稳定工作; • RKSLAM:可以实时运行在移动设备上,并能处理快速运动和强0 码力 | 60 页 | 4.61 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) � 模型有多个版本 � 原有在线分布式存储系统的 问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 key级别的稀疏化 3. 更短的values a) 混合精度: float16+int8+int4 b) 量化压缩,1bit或2bit 优点:与优化器⽆关 缺点:1. 只适合低频特征多的场景 2. 变⻓编码,不利于性能优化 优点:1. 稀疏度⾼ 2. 实现简单 缺点:特定优化器有 效,与adam有效果 差距 优点:与优化器⽆关0 码力 | 22 页 | 6.76 MB | 1 年前3
共 44 条
- 1
- 2
- 3
- 4
- 5













