【PyTorch深度学习-龙龙老师】-测试版202112层数较浅,一般在 1~4 层左右,网络表达 能力有限。随着计算能力的提升和大数据时代的到来,高度并行化的 GPU 和海量数据让大 规模神经网络的训练成为可能。 2006 年,Geoffrey Hinton 首次提出深度学习的概念。2012 年,8 层的深层神经网络 AlexNet 发布,并在图片识别竞赛中取得了巨大的性能提升,此后几十层、数百层、甚至 上千层的神经网络模型相继提出,展现出深层神经网络强大的学习能力。业界一般将利用 征方法的优劣性非常的关键,同时也比较困难。神经网络的出现,使得人为设计特征这一 部分工作可以让机器自动完成学习,不需要人类干预。但是浅层的神经网络的特征提取能 力较为有限,而深层的神经网络擅长提取高层、抽象的特征,因此具有更好的性能表现。 针对特定任务 的检测逻辑 输出逻辑 人为设计的 特征检测方法 输出逻辑 特征提取网络 (浅层) 输出子网络 底层特征提取 网络 中层特征提取 网络 高层特征提取 代表的传统机器学习算法兴起而逐渐进入低谷,称为人工智能的第二次寒冬。支持向量机 拥有严格的理论基础,训练需要的样本数量较少,同时也具有良好的泛化能力,相比之 下,神经网络理论基础欠缺,可解释性差,很难训练深层网络,性能也相对一般。图 1.8 绘制了 1943 年~2006 年之间的重大时间节点。 ① 图片来自 https://slideplayer.com/slide/12771753/ ② 图片来自0 码力 | 439 页 | 29.91 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(By 待部署模型与线上模型进行指标对比,评估是否满足上线条件 • 一键部署 • 基于K8S的deployment模式,一键端口分配与模型服务部署 • 基于ZK的服务发现,一键进行流量灰度与发布 • 性能优化 • 通信优化:特征请求与模型计算单元化,在线样本格式压缩 • 计算优化:基于SSE/AVX 指令优化 3 在线机器学习-模型服务部署 • 模型更新频次效果对比 • FM:数据越新,效果越好 小) • 数据规模越大,效果越好 • 月级数据规模相比周级数据模型,效果相差5+% • 在线和离线模型效果对比 • 在线FM相比于离线FM,相关指标提升5+% • 完全在线初始化模型参数 • 增量在线FM相比于离线FM,相关指标提升8+% • 增量在线FM:即依托于离线模型初始化在线FM模型参数 3 在线机器学习-效果 • 深度化 • 特征深度化:特征embedding • 模型深度化:深度学习模型,0 码力 | 36 页 | 16.69 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉 Feature 2.1: 短时间内只有部分item和user被命中, 只有部分参数被⽤到 � GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化0 码力 | 22 页 | 6.76 MB | 1 年前3
机器学习课程-温州大学-特征工程中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征,模型 的性能会提升 • 但同时模型就变复杂,计算 复杂度也同样提升 计算复杂度 • 剔除尽可能多的特征,模型的 性能会有所下降 • 但模型就变简单,也就降低计 算复杂度 VS 4. 特征选择 27 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J] 过滤式(Filter): 先对数据集进行特征选择,其过程与后续 学习器无关,即设计一些统计量来过滤特 征,并不考虑后续学习器问题 包裹式(Wrapper): 就是一个分类器,它是将后续的学习器的 性能作为特征子集的评价标准 嵌入式(Embedding): 是学习器自主选择特征 4. 特征选择 特征选择的三种方法 28 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究0 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Tra Learners》论文 • 预训练加微调范式中,可能在这种范式下实现的 泛化可能很差,因为该模型过于特定于训练分布, 并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能,即使名义上是人 类水平,也可能夸大基础任务的实际性能。 存在的问题03: 因为人类学习大多数语言任务不需要 大型受监督的数据集,当前NLP技术 在概念上具有一定的局限性。 存在的问题01: 从实用的角度来看,每一项新任务都需 实现强大的性能,通 常需要对特定于该任务的数千到数十万个示例的数据集进行微调。 图:GPT-2尚未解决诸多瓶颈问题 存在的问题02: GPT的发展 38 GPT-3(2020.5)取得突破性进展,任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ GPT-3利用了过滤前45TB的压缩文本,在诸多NLP数据集中实现了强大性能 ✓ GP0 码力 | 44 页 | 2.36 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒人脸识别大幅提高精度,商汤科 技首次突破人类肉眼识别准确率 ,领先于Facebook Google5000万美元招入 Hinton,发布基于深度学习的 搜索引擎 Microsoft 深度学习驱动的语音 识别大幅提升精度 软银孙正义设立1000亿美元人 工智能基金,320亿美元收购芯 片架构公司ARM 2016.7 公司简介 历史业绩 领先技术 20年 科研经验 800余位 技术研发人员 150余位 - 处理特殊输入,如模糊、黑白照片 - 适配具有不同特征的数据源 - 在严肃应用中,客户追求100%准确率,算法性能提升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法,在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性,如GPU TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++,更易于实践各种并发模式 - 比起Java,更加简洁,更易于与C/C++交互 - 比起脚本语言,类型和内存安全,保证重构效率与产品质量 - 完善的配套工具,如go test, gofmt, go lint, race-detector Go语言在高性能系统中的实践经验 • Go在开发高性能应用上也有一些不足,0 码力 | 23 页 | 9.26 MB | 1 年前3
谭国富:深度学习在图像审核的应用Ø 上亿级别的人脸检索,秒级的检索速度从黑名 单,白名单数据库中返回目标人脸信息。 Ø 技术指标:优图人脸识别通过传统方法和深度 学习技术结合,以空间面孔墙和微众银行远程 核身为基础,在性能上达到LFW 99.80%。 Ø QQ,微云等: 非法设置领导人头像, 公众人 物, 明星等等他人肖像。 Ø 直播,游戏视频等, 非法植入领导人,政府国 际公众人物, 明星等等。 l 人脸识别核身技术 Ø 标签体系:面向社交领域的热词标签200余种, 涵盖人物、风景、人造物、 建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上, 性能CPU上约200ms/张。 微云相册,相册管家 识别标签效果 Ø 微云,相册管家新版本推出智能全自动图片分类,通过上百 种常用图片标签,实现对所有照片的自动识别分类。 Ø 用户上传图片之后即可被智能分类,各大类下包括小类如人 SACC2017 深度学习 - 更深更复杂的网络带来效果提升,计算量提升 An Analysis of Deep Neural Network Models for Practical Applications https://arxiv.org/abs/1605.07678 SACC2017 深度学习 -更多数据带来效果质的提升 数据越多,效果越好 论文链接: Revisiting Unreasonable0 码力 | 32 页 | 5.17 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇定版本 (Stable Release)、Beta 版本、原型版本(Prototype)。 其中稳定版本长期支持维护没有明显的性能问题与缺陷,理论 上支持向后兼容的版本;Beta 版本是基于用户反馈的改动版 本,可能有 API/SDK 函数改动,性能有进一步需要提升的空间; 原型版本是新功能还不可以,需要开发不能通过 pip 方式直接 安装。 1.1.2 Pytorch 的模块与功能 通过它们就可 以实现大多数的模型结构搭建与生成。 2)torch.utils 包,里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查 点与性能相关的组件功能。重要的类有数据集类(Dataset), 数据加载类 (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3)torch 开头的一些包与功能,主要包括支持模型导出功能 是深度学习框架的后起之秀,它参考了市场上早期框 架包括 torch、caffe、tensorflow 的经验教训,从一开始设 PyTorch + OpenVINO 开发实战系列教程 第一篇 3 计就特别注重开发者体验与生产效率提升,一经发布就引发追 捧热潮,可以说“出道即巅峰”。Pytorch 虽然来自脸书实验室, 但是它也吸引外部公司包括特斯拉、优步、亚马逊、微软、阿 里等积极支持,其平缓的学习曲线,简洁方便的函数与模型构0 码力 | 13 页 | 5.99 MB | 1 年前3
AI大模型千问 qwen 中文文档You can refer to that document for more information. 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点,你需要准备一个数据集,比如 “wiki 测试”。这里我们展示了一个运行测试的例子。 第一步,下载数据集: wget https://s3.amazonaws.com/research 对于 requirements 中的 bitsandbytes 和 llama-cpp-python ,我建议您直接通过 pip 进行安装。但 是,暂时请不要使用 GGUF,因为其与 TGW 配合时的性能表现不佳。在完成所需包的安装之后,您需要 准备模型,将模型文件或目录放在 “./models“文件夹中。例如,您应按照以下方式将 “transformers“模型目录 Qwen1.5-7B-Chat 即激活感知权重量化,是一种针对 LLM 的低比 特权重量化的硬件友好方法。而 AutoAWQ 是一个易于使用的工具包,专门用于 4 比特量化模型。相较于 FP16,AutoAWQ 能够将模型的运行速度提升 3 倍,并将内存需求降低至原来的 1/3。AutoAWQ 实现了激活 感知权重量化(AWQ)算法,可用于 LLM 的量化处理。在本文档中,我们将向您展示如何在 Transformers 框 架下使0 码力 | 56 页 | 835.78 KB | 1 年前3
《TensorFlow 2项目进阶实战》7-TensorFlow2进阶使用function 提升性能 • 使⽤ TensorFlow Serving 部署云端服务 • 使⽤ TensorFlow Lite 实现边缘智能 目录 使⽤ TensorFlow 2 实现图像数据增强 使⽤ TensorFlow 2 实现分布式训练 使⽤ TensorFlow Hub 迁移学习 7 8 9 11 12 13 使⽤ @tf.function 提升性能 使⽤ TensorFlow0 码力 | 28 页 | 5.84 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













