数据增强数据增强 主讲人:龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate0 码力 | 18 页 | 1.56 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9.7 数据增强 9.8 过拟合问题实战 9.9 参考文献 第 10 章 卷积神经网络 10.1 全连接网络的问题 10.2 卷积神经网络 10.3 卷积层实现 10.4 LeNet-5 ,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 预览版202112 1.2 神经网络发展简史 3 9 常见激活函数 ReLU 函数非常简单,它在? = ?的基础上面截去了? < 0的部分,可以直观地理解为 ReLU 函数仅保留正的输入部份,清零负的输入,具有单边抑制特性。虽然简单,ReLU 函 数却有优良的非线性特性,而且梯度计算非常简单,训练稳定,是深度学习中使用最广泛 的激活函数。因此,这里通过嵌套 ReLU 函数将模型转换为非线性模型: = ReLU(?? + ?) 3.60 码力 | 439 页 | 29.91 MB | 1 年前3
谭国富:深度学习在图像审核的应用业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术 图像分割以及超分辨率技术 优图图像技术还包括:图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。 图像识别技术 01 腾讯优图图像技术能力 SACC2017 内容审核 - 图片鉴黄解决方案 区分图像中的色情、性感和正常内容 DeepEye可给出图片属于色情、性感和正常 org/abs/1707.02968 数据除了人工以外的获取方法 • 扩增数据 – 各种图像增强,加噪声 • 非监督学习 - 聚类 • 迁移学习 – 利用相似任务训练好的网络 • 生成样本数据 – 深度生成对抗网络 SACC2017 深度学习 训练框架 和 硬件选择 不同场景,不同框架 特性 GTX - 1080TI G7-P40 PCIe-V100 GPU核心 GPU微架构 Pascal0 码力 | 32 页 | 5.17 MB | 1 年前3
AI大模型千问 qwen 中文文档针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等; 想了解更多信息,欢迎访问: • 博客 • GitHub • Hugging Face • ModelScope • Qwen1.5 Collection 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架,旨在实现最大程度的成本节省、最 高的 GPU 可用性以及受管理的执行过程。其特性包括: • 通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的 额外加价。 5 与外部数据(例如文档、网页等)的连接,我们提供了 LlamaIndex 的详细教程。本指南旨 在帮助用户利用 LlamaIndex 与 Qwen1.5 快速部署检索增强生成(RAG)技术。 1.15.1 环境准备 为实现检索增强生成(RAG),我们建议您首先安装与 LlamaIndex 相关的软件包。 以下是一个简单的代码示例: pip install llama-index pip install0 码力 | 56 页 | 835.78 KB | 1 年前3
Keras: 基于 Python 的深度学习库batch_size=32) 3.1.5 例子 这里有几个可以帮助你开始的例子! 在 examples 目录 中,你可以找到真实数据集的示例模型: • CIFAR10 小图片分类:具有实时数据增强的卷积神经网络 (CNN) 快速开始 11 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP model.get_config() 和 model.save()。 关键点:为每个任务使用正确的 API。Model 子类化 API 可以为实现复杂模型提供更大的灵 活性,但它需要付出代价(比如缺失的特性):它更冗长,更复杂,并且有更多的用户错误机会。 如果可能的话,尽可能使用函数式 API,这对用户更友好。 4.2 Sequential 顺序模型 API 4.2.1 Sequential 顺序模型 topology.Input() Input() 用于实例化 Keras 张量。 Keras 张量是底层后端 (Theano, TensorFlow or CNTK) 的张量对象,我们增加了一些特性,使 得能够通过了解模型的输入和输出来构建 Keras 模型。 例如,如果 a, b 和 c 都是 Keras 张量,那么以下操作是可行的:model = Model(input=[a, b]0 码力 | 257 页 | 1.19 MB | 1 年前3
亚马逊AWSAI Services OverviewComputer Vision APIs AWS 上的 AI 应用 • Pinterest Lens • Netflix 推荐引擎 数千名员工致力于人工智能领域 发现& 搜索 执行 &物流 现有产品的增强 定义新的产品分类 将机器学习拓 展更广领域 Amazon 的人工智能应用 在Amazon 最初的人 工智能应用 (1995) AWS 可以帮助客户把人工智能应用于每个应 用程序的核心&业务之中吗 Villa Garden Water Swimming Pool Tree Potted Plant Backyard 面部分析 在图像中定位人脸并分析面部的情绪,检测情感、姿势、地 标等特性 • 剪裁图片和重叠广告时需 要避开的面孔 • 获得人口学以及情感的数 据推荐最佳照片 • 提高在线约会匹配的推荐 • 动态的个性化广告 人脸比对 测量两张图片中同一个人的可能性 • 为应用和设备添加人脸0 码力 | 56 页 | 4.97 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习自助采样法;随机选择特征是 指在每个节点在分裂过程中都是随机选择特 征的(区别与每棵树随机选择一批特征)。 这种随机性导致随机森林的偏差会有稍微的 增加(相比于单棵不随机树),但是由于随 机森林的“平均”特性,会使得它的方差减 小,而且方差的减小补偿了偏差的增大,因 此总体而言是更好的模型。 随机森林 数据集 自助采样 自助采样 自助采样 Bootstraping 10 2.AdaBoost和GBDT算法 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 11 AdaBoost算法 AdaBoost(Adaptive Boosting,自适应增强),其自适应在于:前 一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来 训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直 到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。0 码力 | 50 页 | 2.03 MB | 1 年前3
动手学深度学习 v2.0is Bishop的优秀教科书 (Bishop, 2006) ,对每 个主题都教得很透彻,以至于要读到线性回归这一章需要大量的工作。虽然专家们喜欢这本书正是因为它的 透彻性,但对初学者来说,这一特性限制了它作为介绍性文本的实用性。 在这本书中,我们将适时教授大部分概念。换句话说,你将在实现某些实际目的所需的非常时刻学习概念。 虽然我们在开始时花了一些时间来教授基础的背景知识,如线性代数和概率,但我们希望你在思考更深奥的 实际上患有艾滋病的几率只有13.06%。正如我们所看到的,概 率可能是违反直觉的。 患者在收到这样可怕的消息后应该怎么办?很可能,患者会要求医生进行另一次测试来确定病情。第二个测 试具有不同的特性,它不如第一个测试那么精确,如 表2.6.2所示。 表2.6.2: 条件概率为P(D2 | H) 条件概率 H = 1 H = 0 P(D2 = 1 | H) 0.98 0.03 P(D2 = 2014) 就如何将毕晓普的想法应用于网络的内部层提出 了一个想法:在训练过程中,他们建议在计算后续层之前向网络的每一层注入噪声。因为当训练一个有多层 的深层网络时,注入噪声只会在输入‐输出映射上增强平滑性。 这个想法被称为暂退法(dropout)。暂退法在前向传播过程中,计算每一内部层的同时注入噪声,这已经成为 训练神经网络的常用技术。这种方法之所以被称为暂退法,因为我们从表面上看是在训练过程中丢弃(drop0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-05深度学习-深度学习实践一次梯度下降,你可以找出?的较小 值,中间值和较大值,而无需尝试?2 正则化超级参数?的很多值。 14 正则化 数据增强:随意翻转和裁剪、扭曲变形图片 15 数据增强的PyTorch实现 import torch from torchvision import transforms # 定义数据增强的方法 transform = transforms.Compose([ transforms.RandomResizedCrop(224) 0.225]) # 标准化 ]) # 加载图像数据 img = Image.open('image.jpg').convert('RGB') # 对图像进行数据增强 img_aug = transform(img) # 可以将数据增强的过程添加到数据集的加载器中 dataset = datasets.ImageFolder('data', transform=transform) dataloader ColorJitter是随机改变颜色方法 RandomRotation是随机旋转方法。 最后将图像转换为Tensor类型并进 行标准化。 可以将以上方法添加到数据集加载 器中进行批量的数据增强。 16 偏差和方差 训练集误差和交叉验证集误差近似时:偏差/欠拟合 交叉验证集误差远大于训练集误差时:方差/过拟合 x1 x2 x1 x2 x1 x2 Underfitting0 码力 | 19 页 | 1.09 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入对话式文本生成适用于智能客服等任务型和闲聊型机器人等 非任务型人机交互场景,可分类为管道模式及端对端模式。 结构性的文本生成,首先通过注意力机制、多层感知器等系 统进行语句内容预选,对数值、时间等类型数据进行推理。 增强数据间的结构信息。其次通过Transformer等模式结合 上下文进行推导,生成最终文本。 ◼ Transformer架构可分为自回归系列(例如GPT-3,偏好生成性任务)、双向Transfor 练出奖励模型(reward model)去训练学习模型(即: 用AI训练AI的思路) ✓ InstructGPT的训练步骤为:对GPT-3监督微调——训练奖励模型(reward model)——增强学习优化SFT (第二、第三步可以迭代循 环多次) 图:InstructGPT训练三步骤各自对应的数据集规模如下图所示(labeler指的是OpenAI的标注人员,customer指GPT-3 API的用户) (注:根据官网介绍,GhatGPT也是基于InstructGPT构建,因而可以从InstructGPT来理解ChatGPT利用人类意图来增强模型效果) 步骤1:搜集说明数据,训练监督策略 图:基于人类反馈强化的核心训练流程如下所示: 步骤2:搜集比较数据,训练一个奖励模型 步骤3:搜集说明数据,使用增强学习优化模型 搜集说明数据(基于 prompt 训练方式的数 据集),训练监督策略 Labeler(标记者)揭0 码力 | 44 页 | 2.36 MB | 1 年前3
共 28 条
- 1
- 2
- 3













