PyTorch OpenVINO 开发实战系列教程第一篇模块、支持 GPU 训 练 torch.cuda 模块,这些都是会经常用的。 4)此外本书当中还会重点关注的 torchvison 库中的一些常见 模型库与功能函数,主要包括对象检测模块与模型库、图象数 据增强与预处理模块等。 以上并不是 pytorch 框架中全部模块与功能说明,作者这里只 列出了跟本书内容关联密切必须掌握的一些模块功能,希望读 者可以更好的针对性学习,掌握这些知识。 文件安装,显示的界面如下: 图 1-1(Python3.6.5 安装界面) 注意:图 1-1 中的矩形框,必须手动选择上“add Python3.6 to PATH”之后再点击【Install Now】默认安装完成即可。 3. 安装好 Python 语言包支持以后可以通过命令行来验证测试 安装是否成功,首先通过 cmd 打开 Window 命令行窗口,然 后输入 Python,显示如下: 图 1-2(验证 1-2(验证 Python 命令行模式) 如果显示图 1-2 所示的信息表示已经安装成功 Python 语言包 支持;如果输入 Python 之后显示信息为“'python' 不是内部 或外部命令,也不是可运行的程序”则说明第二步中没有勾选 上“add Python3.6 to PATH”,此时请手动把 python.exe 所 在路径添加到 Windows 系统的环境变量中去之后再次执行 即可。0 码力 | 13 页 | 5.99 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言综合 美国 1998年 上市 市值9324亿美元 3 Facebook(脸书) 人脸识别、深度学习等 社交 美国 2004年 上市 市值5934亿美元 4 百度 计算机视觉技术、自然语言处理技 术 、知识图谱等 综合 中国 2001年 上市 市值438亿美元 5 大疆创新 图像识别技术、智能引擎技术等 无人机 中国 2006年 战略融资 估值210亿美元 6 商汤科技 计算机视觉技术、深度学习 计算机视觉技术、深度学习 安防 中国 2014年 D轮融资 估值70亿美元 7 旷视科技 计算机视觉技术等 安防 中国 2011年 D轮融资 估值40亿美元 8 科大讯飞 智能语音技术 综合 中国 1999年 上市 市值108亿美元 9 Automation Anywhere 自然语言处理技术、非结构化数据认知 企业管理 美国 2003年 B轮融资 估值68亿美元 10 IBM Watson(IBM沃森) 深度学习、智适应学习技术 深度学习、智适应学习技术 计算机 美国 1911年 上市 市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习 教育 中国 2015年 A轮融资 估值11亿美元 12 字节跳动 跨媒体分析推理技术、深度学习、自 然 语言处理、图像识别 资讯 中国 2012年 Pre-IPO轮融资 估值750亿美元 13 Netflix(网飞) 视频图像优化、剧集封面图片个性 化 、视频个性化推荐0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言综合 美国 1998年 上市 市值9324亿美元 3 Facebook(脸书) 人脸识别、深度学习等 社交 美国 2004年 上市 市值5934亿美元 4 百度 计算机视觉技术、自然语言处理技 术 、知识图谱等 综合 中国 2001年 上市 市值438亿美元 5 大疆创新 图像识别技术、智能引擎技术等 无人机 中国 2006年 战略融资 估值210亿美元 6 商汤科技 计算机视觉技术、深度学习 计算机视觉技术、深度学习 安防 中国 2014年 D轮融资 估值70亿美元 7 旷视科技 计算机视觉技术等 安防 中国 2011年 D轮融资 估值40亿美元 8 科大讯飞 智能语音技术 综合 中国 1999年 上市 市值108亿美元 9 Automation Anywhere 自然语言处理技术、非结构化数据认知 企业管理 美国 2003年 B轮融资 估值68亿美元 10 IBM Watson(IBM沃森) 深度学习、智适应学习技术 深度学习、智适应学习技术 计算机 美国 1911年 上市 市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习 教育 中国 2015年 A轮融资 估值11亿美元 12 字节跳动 跨媒体分析推理技术、深度学习、自 然 语言处理、图像识别 资讯 中国 2012年 Pre-IPO轮融资 估值750亿美元 13 Netflix(网飞) 视频图像优化、剧集封面图片个性 化 、视频个性化推荐0 码力 | 78 页 | 3.69 MB | 1 年前3
谭国富:深度学习在图像审核的应用深度学习在图像审核的应用 腾讯优图实验室 谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 对于直播行业监管也越发严格,几乎所有 知名的直播平台均被有关部门点名查处过, 特别2017 年月中旬,黄鳝事件引爆网络, 让色情直播再度被推上舆论浪尖。 微信朋友圈日上传图片10亿张,视频播放20亿次 4000亿QQ空间存量图片,每天空间相册新增6亿 张上传图片 SACC2017 内容审核 - 痛点和诉求 默默承受 自建识别模型 加大审核人力 一旦出现严重违规平 台面临停业整顿风险 昂贵的专业机器、AI专家 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术 图像分割以及超分辨率技术 优图图像技术还包括:图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。 图像识别技术 01 腾讯优图图像技术能力 SACC2017 内容审核 - 图片鉴黄解决方案 区分图像中的色情、性感和正常内容 DeepEye可给出图片属于色情、性感和正常0 码力 | 32 页 | 5.17 MB | 1 年前3
超大规模深度学习在美团的应用-余建平超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征 • 模型 DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构 基于Parameter 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式,模型结构灵活多样 支持推荐、搜索、广告场景常用的深度学习模型 FTRL、FM、FFM、WDL、DCN、DeepFM、MTL等 • Optimizer FTRL、AdaGrad0 码力 | 41 页 | 5.96 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 预测 请求 数据 落地 ⽆量 ⽤户⾏为数据上报 特征 库 内容 获取 请求 � 推荐场景的重要性 � PCG的图⽂,视频推荐(腾讯视频,腾讯新 闻,QQ看点,浏览器,微视, QQ⼩世界等) � 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 Embedding空间动态变化。 短期命中的⾼频key随时间缓慢变化 少量的⾼频key占据了主要访问需求 ⼀段时间样 本命中的 unique key ID/tag/交叉特征 (全量为:亿,千亿) ⼩特征 (个) 中型特征 (百) ID/tag/交叉特征 (千,千万) ⼩特征 (个) 中型特征 (⼗) � 2.2 hotkey现象,且训练与推理的 hotkey⾼度重合 资讯业务请求量⼤ (>10000请求/秒) � 模型有多个版本 � 原有在线分布式存储系统的 问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼0 码力 | 22 页 | 6.76 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer和卷积,因而这些模型在质量上更优,同时更易于并 行化,并且需要的训练时间明显更少。 ◼ Transformer出现以后,迅速取代了RNN系列变种,跻 身主流模型架构基础。(RNN缺陷正在于流水线式的 顺序计算) 图:Transformer模型架构 1.Transformer介绍 12 Transformer Transformer —— 大力出奇迹的起点 • 在Transformer提出之后,大模型的基础模 “animal”上,而另一个则集中在“tired”上, 从某种意义上说,模型对“it”一词的表达在某种程度上是“animal”和“tired”的代表。 然而,如果我们把所有的attention都加到图示里,事情就更难解释了: 33 2.Transformer的工作流程 使用位置编码表示序列的顺序 到目前为止,我们对模型的描述缺少了 一种理解输入单词顺序的方法。 为了解决这个问题,Transformer为每个 在每个编码器中的每个子层(自注意力、前馈网络)的周围都有一个残差连 接,并且都跟随着一个“层-归一化”步骤。 如果我们去可视化这些向量以及这个和自注意力相 关联的层-归一化操作,那么看起来就像下面这张 图描述一样: 37 2.Transformer的工作流程 归一化: 连接:基本的残差 连接方式 38 2.Transformer的工作流程 编码器通过处理输入序列开启 工作。顶端编码器的输出之后0 码力 | 60 页 | 3.51 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 PyTorch 框架在学术圈广受好评,绝大多数 最新算法是基于 PyTorch 实现的,众多的第三方 AI 框架应用,例如 mmdetection、mmaction2、 transformer、speechbrain 深度学习 图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习 机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning,简称 RL),如图 1.2 所示。 机器学习 有监督学习 无监督学习 强化学习 图 1.2 机器学习的分类 输出逻辑 特征提取网络 (浅层) 输出子网络 底层特征提取 网络 中层特征提取 网络 高层特征提取 网络 输出子网络 基于规则的系统 传统机器学习 浅层神经网络 深度学习 图 1.3 深度学习与其它算法比较 1.2 神经网络发展简史 本书将神经网络的发展历程大致分为浅层神经网络阶段和深度学习两个阶段,以 2006 年为大致分割点。2006 年以前,深度学习0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0前向传播、反向传播和计算图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.7.1 前向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.7.2 前向传播计算图 . . . 另一个是更实际的示例,我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如 何工作的,我们就可以在随后的教程中使用高级API了。 内容和结构 全书大致可分为三个部分,在 图1 中用不同的颜色呈现: 目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节 提供深度学习的入门课程。然后在 2节 中,我们将快速介绍实 践深度学习所需的前提条件,例如如何存储和处理数据,以及如何应用基于线性代数、微积分和概率基 着用一台计算机和一个代码编辑器编写代码,如 图1.1.1中所示。问题看似很难解决:麦克风每秒钟将收集大 约44000个样本,每个样本都是声波振幅的测量值。而该测量值与唤醒词难以直接关联。那又该如何编写程 序,令其输入麦克风采集到的原始音频片段,输出{是, 否}(表示该片段是否包含唤醒词)的可靠预测呢?我 们对编写这个程序毫无头绪,这就是需要机器学习的原因。 图1.1.1: 识别唤醒词 通常,即使0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) Encoding Positional Encoding 1.背景知识 6 为什么需要用transformer Transformer原本是用来做 NLP的工作的,所以ViT的 首要任务是将图转换成词 的结构,这里采取的方法 是如上图左下角所示,将 图片分割成小块,每个小 块就相当于句子里的一个 词。这里把每个小块称作 Patch,而Patch Embedding 就是把每个Patch再经过一 就是把每个Patch再经过一 个全连接网络压缩成一定 维度的向量。 1.背景知识 7 为什么需要用transformer CNN(如ResNet)是图像分类的最 佳解决方案。 如果预训练的数据集足够大(至少一 亿张图像),则Vision Transformer (ViT)将击败CNN(小幅度) Vision Transformer(ViT)实际上就 是Transformer的encode网络。 1.背景知识 2.模型介绍 21 左图展示了模型学习到的图嵌入,中图展示了学习到的位置嵌入,右图展示了不同层注意 力的平均距离。 2.模型介绍 22 加入位置信息的原因 如下图所示,将左图的patch打乱,则两个图是不同的,但 对于Transformer的最后一层来说会得到相同的特征(认为是 一个图),为了让其能够识别是两个图,加入位置信息(使 两个图不一样)。 2.模型介绍 23 Patch0 码力 | 34 页 | 2.78 MB | 1 年前3
共 52 条
- 1
- 2
- 3
- 4
- 5
- 6













