机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 03 模型训练策略 本章目录 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 3 1.背景知识 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 4 1.背景知识 图片分类的原理 5 2017年google的机器翻译团队在 Transformer(ViT)实际上就 是Transformer的encode网络。 1.背景知识 8 2.模型介绍 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 9 模型思路 2.模型介绍 1.图片切分为patch 2.patch转化为embedding 3.位置embedding和tokensembedding相加 W)是图像的高和宽;C是图像通道数;? = ??/?2, 即patch的个数。 2.模型介绍 24 3.模型训练策略 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 25 3.模型训练策略 训练策略 模型在Dataset A上预训练,在Dataset B上精调,在Dataset B上评估 26 数据集介绍 在ImageN0 码力 | 34 页 | 2.78 MB | 1 年前3
动手学深度学习 v2.012.2.2 障碍器与阻塞器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 12.2.3 改进计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 12.3 自动并行 论坛 与本书相关,我们已经启动了一个论坛,在discuss.d2l.ai4。当对本书的任何一节有疑问时,请在每一节的末 尾找到相关的讨论页链接。 致谢 感谢中英文草稿的数百位撰稿人。他们帮助改进了内容并提供了宝贵的反馈。感谢Anirudh Dagar和唐源将 部分较早版本的MXNet实现分别改编为PyTorch和TensorFlow实现。感谢百度团队将较新的PyTorch实现改 编为P 度。 图1.4.1: 估计一英尺的长度 图1.4.1 说明了这个估计器是如何工作的。16名成年男子被要求脚连脚排成一行。然后将它们的总长度除以16, 得到现在等于1英尺的估计值。这个算法后来被改进以处理畸形的脚——将拥有最短和最长脚的两个人送走, 对其余的人取平均值。这是最早的修剪均值估计的例子之一。 随着数据的收集和可获得性,统计数据真正实现了腾飞。罗纳德·费舍尔(1890‐1962)19对统计理论和在遗传0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入好一点的嵌入(`not` ,`thou`,`aaron`和`taco`)。我们现在进行下一步(下一个正样本及 其相关的负样本),并再次执行相同的过程。 当我们循环遍历整个数据集多次时,嵌入继续得到改进。然后我们可以停 止训练过程,丢弃`Context`矩阵,并使用`Embeddings`矩阵作为下一个任务 的预训练嵌入。 27 4.GloVe 03 Word2Vec 04 GloVe 面表现出色,然而这些系统较为脆弱,对 数据分布和任务规范的轻微变化非常敏感, 因而使得AI表现更像狭义专家,并非通才。 GPT-2要 解决和优 化的问题 ◼ GPT-2(2019.2)在GPT-1的基础上进行诸多改进,实现执行任务多样性,开始学习在不需要明确监督的情 况下执行数量惊人的任务 ✓ 在GPT-2阶段,OpenAI去掉了GPT-1阶段的有监督微调(fine-tuning),成为无监督模型。 ✓ 大模型GPT-2是一个1 图:GPT-2尚未解决诸多瓶颈问题 存在的问题02: GPT的发展 38 GPT-3(2020.5)取得突破性进展,任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ GPT-3利用了过滤前45TB的压缩文本,在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多10倍。对于所有任务(在few-shot设置下测试其0 码力 | 44 页 | 2.36 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用 DNN、GBDT 模型融合 • 将多个模型的输出CTR加权平均 • 实现方法简单,模型之间不产生耦合 • 可调参数有限,改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂,模型之间有依赖关系 • 实验方案较多,改进空间较大 模型融合 模型融合的工程实现 • 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging0 码力 | 22 页 | 1.60 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112网络的复杂度。 预览版202112 第 3 章 分类问题 10 输入层:? 隐藏层:? 隐藏层: ? 输出层: 图 3.10 3 层神经网络结构 经过简单的改进,网络模型已经升级为 3 层的神经网络,具有较好的非线性表达能 力,接下来将讨论如何优化网络参数??和??等。 3.7 优化方法 对于仅一层的网络模型,如线性回归模型,上一章中甚至直接推导出 图片生成效果 [1] 可以看到,原始 GAN 模型在图片生成效果上并不突出,和 VAE 差别不明显,此时并 没有展现出它强大的分布逼近能力。但是由于 GAN 在理论方面较新颖,实现方面也有很 多可以改进的地方,大大地激发了学术界的研究兴趣。在接下来的数年里,GAN 的研究如 火如荼的进行,并且也取得了实质性的进展。接下来我们将介绍几个意义比较重大的 GAN 变种。 13.4.1 DCGAN until 训练回合数达到要求 输出:策略网络??(??|??) 14.3.2 原始策略梯度的改进 原始的 REINFORCE 算法因为优化轨迹之间的方差很大,收敛速度较慢,训练过程并 不足够平滑。我们可以通过方差缩减(Variance Reduction)思想从因果性和基准线两个角度进 行改进。 因果性 考虑 ??(?) ?? 的偏导数表达式,对于时间戳为?的动作??,它对?1:0 码力 | 439 页 | 29.91 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用智能调度系统的分析监控 17 • 真实再现调度场景细节 • 回溯定位异常调度原因,诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围 • 节省调度运力,提升商户配送能力 • 云端虚拟队列,实现调度指派 • 提升物流效率 仿真系统 实时监控 时光机 寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析 2 仿真系统—未来效果仿真预测 订单 在岗骑 士数量 调度 算法 餐厅出餐 时间 骑士 速度 等待用 户时长 骑士路线/ 任务规划 精准模拟实际订单分布情况 有效评估调度算法的改进效果 3 20 寻宝系统—线下优化运营优化指导 21 精细化优化商户配送范围 精细化分析商户到每 个POI用户配送成本及 收益,指导商户配送 配送范围划分 分级配送缩短交付用户时长 根据不同POI的用户0 码力 | 28 页 | 6.86 MB | 1 年前3
机器学习课程-温州大学-15深度学习-GAN生成模型 z ~x X 自然输入 编码 判别模型 解码 均方误差 能量 生成输入 随机噪声 23 GAN的衍生模型 GAN的理论与实现模型 (6) Improved GAN--改进生成式对抗网络,提出了使模型训练稳定的五条 经验。 a.特征匹配(feature matching) b.最小批量判断(minibatch discrimination) CNN 判别器。 SeqGAN 基于策略梯度来训练生成器。 c. 用GAN 基于文本描述来生成图像,文本编码被作为生成器的条件输入,同 时为了利用文本编码信息,也将其作为判别器特定层的额外信息输入来改进判 别器,判别是否满足文本描述的准确率。 3. GAN的应用 28 GAN的应用 其他领域 除了将 GAN 应用于图像和视觉、语音和语言等领域,GAN 还可以与强 化学习、模仿学习等相合。0 码力 | 35 页 | 1.55 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习优势: 1)更快的训练速度 2)更低的内存消耗 3)更好的准确率 4)分布式支持,可快速处理海量数据 37 4.LightGBM LightGBM 的主要改进 LightGBM与XGBoost相比,主要有以下几个改进: • 基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS); • 互斥特征捆绑算法(Exclusive Feature0 码力 | 50 页 | 2.03 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树5算法 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 17 3.C4.5算法 C4.5 算法 C4.5 算法是 Ross 对 ID3 算法的改进。 ⚫ 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益, 而C4.5用的是信息增益率。 ⚫ 在决策树构造过程中进行剪枝。 ⚫ 对非离散数据也能处理。 ⚫ 能够对不完整数据进行处理。0 码力 | 39 页 | 1.84 MB | 1 年前3
机器学习课程-温州大学-12机器学习-关联规则FP-growth(频繁模式增长)算法是韩家炜老师在2000年提出的关联分析算法,它采 取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree), 但仍保留项集关联信息。 该算法是对Apriori方法的改进。生成一个频繁模式而不需要生成候选模式。 FP-growth算法以树的形式表示数据库,称为频繁模式树或FP-tree。 此树结构将保持项集之间的关联。数据库使用一个频繁项进行分段。这个片段被称0 码力 | 49 页 | 1.41 MB | 1 年前3
共 13 条
- 1
- 2













