【PyTorch深度学习-龙龙老师】-测试版202112训练难题 13.7 WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献 第 14 章 强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法 14.4 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献 第 15 章 自定义数据集 15.1 精灵宝可梦数据集 Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 预览版202112 1.2 神经网络发展简史 3 算法需要与环境进行交互,获取环境 人工智能=深度学习+强化学习 − David Silver 本章节代码部分尚未完成修改! 强化学习是机器学习领域除有监督学习、无监督学习外的另一个研究分支,它主要利 用智能体与环境进行交互,从而学习到能获得良好结果的策略。与有监督学习不同,强化 学习的动作并没有明确的标注信息,只有来自环境的反馈的奖励信息,它通常具有一定的 滞后性,用于反映动作的“好与坏”。 随着深度神经网络的兴起,强化学习这一领域也获得了蓬勃的发展。20150 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 深度学习-Vision Transformer (ViT) 黄海广 副教授 2 03 模型训练策略 本章目录 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 3 1.背景知识 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 (ViT)将击败CNN(小幅度) Vision Transformer(ViT)实际上就 是Transformer的encode网络。 1.背景知识 8 2.模型介绍 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 9 模型思路 2.模型介绍 1.图片切分为patch 2.patch转化为embedding W)是图像的高和宽;C是图像通道数;? = ??/?2, 即patch的个数。 2.模型介绍 24 3.模型训练策略 03 模型训练策略 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 25 3.模型训练策略 训练策略 模型在Dataset A上预训练,在Dataset B上精调,在Dataset B上评估 26 数据集介绍0 码力 | 34 页 | 2.78 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树老年 否 是 非常好 是 11 老年 否 是 好 是 12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 15 ID3算法 缺点 ID3 没有剪枝策略,容易过拟合; 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征 其信息增益接近于 1; 只能用于处理离散分布的特征; 没有考虑缺失值。 16 3.C4.5算法 01 决策树原理 有数据 都具有的一般性质,从而导致过拟合。 剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning) 通过剪枝处理去掉一些分支来降低过拟合的风险。 20 C4.5的剪枝 预剪枝(prepruning) 预剪枝不仅可以降低过拟合的风险而且还可以 减少训练时间,但另一方面它是基于“贪心” 策略,会带来欠拟合风险。 编号 色泽 根蒂 敲声 纹理 脐部 坏瓜 坏瓜 好瓜 好瓜 好瓜 好瓜 好瓜 乌黑 凹陷 硬挺 稍糊 清晰 蜷曲 稍蜷 模糊 青绿 稍凹 浅白 青绿 乌黑 浅白 ① ⑥ ⑤ ④ ③ ② 剪枝策略 在节点划分前来确定是否继续增长,及早 停止增长 主要方法有: • 节点内数据样本低于某一阈值; • 所有节点特征都已分裂; • 节点划分前准确率比划分后准确率高。 22 C4.5的剪枝0 码力 | 39 页 | 1.84 MB | 1 年前3
动手学深度学习 v2.011.2 学习率调度器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 11.11.3 策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 12 计算性能 概念,并提供可独立工 作的例子——使用真实的数据集。这带来了组织上的挑战。某些模型可能在逻辑上组合在单节中。而一些想 法可能最好是通过连续允许几个模型来传授。另一方面,坚持“一个工作例子一节”的策略有一个很大的好 处:这使你可以通过利用我们的代码尽可能轻松地启动你自己的研究项目。只需复制这一节的内容并开始修 改即可。 我们将根据需要将可运行代码与背景材料交错。通常,在充分解释工具之前,我们常常会在提供工具这一方 reward)。此后新一轮循环开始,智能体接收后续观察,并 选择后续操作,依此类推。强化学习的过程在 图1.3.7 中进行了说明。请注意,强化学习的目标是产生一个好 的策略(policy)。强化学习智能体选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。 30 1. 引言 图1.3.7: 强化学习和环境之间的相互作用 强化学习框架的通用性十分强大。例如,我们可以将任何监督学习问题转化为强化学习问题。假设我们有一0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习…… 预测1 预测2 训练 数据 最终 预测 结果 测试 数据 5 Boosting 训练过程为阶梯状,基模型 按次序一一进行训练(实现 上可以做到并行),基模型 的训练集按照某种策略每次 都进行一定的转化。对所有 基模型预测的结果进行线性 综合产生最终的预测结果。 集成学习 模型n 最终 预测 结果 模型2 预测n …… 预测1 预测2 转化 模型1 模型3 Adaboost算法 算法思想: 后一个模型的训练永远是在前一个模型的基础上完成 模型n 模型1 模型2 带权重n的训 练集 带权重2的训 练集 带权重1的训 练集 训练 数据 结合 策略 弱学习器1 基于学习的误差率1 更新学习器权重1 弱学习器2 基于学习的误差率2 更新学习器权重2 弱学习器n 基于学习的误差率n 更新学习器权重n 根据权重1更新样本权重2 Decision Tree)是一种迭代的决策树算 法,该算法由多棵决策树组成,GBDT 的核心在于累加所有树的结果 作为最终结果,所以 GBDT 中的树都是回归树,不是分类树,它是属 于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。 GBDT 由三个概念组成: Regression Decision Tree(即 DT)、Gradient Boosting(即 GB), 和 Shrinkage(缩减)0 码力 | 50 页 | 2.03 MB | 1 年前3
机器学习课程-温州大学-13机器学习-人工神经网络在趋向无穷的地方,函数值变化很小,容易出现梯度消失,不利于深层神经 的反馈传输 2.幂函数的梯度计算复杂 3.收敛速度比较慢 17 3.BP算法 主要步骤 第一步,对样本明确预测输出值与损失函数 第二步,明确参数调整策略 第三步,计算输出层阈值的梯度 第四步,计算隐层到输出层连接权值的梯度 第五步,计算隐层阈值的梯度 第六步,计算输入层到隐层连接权值的梯度 第七步,引出归纳结论 18 3.BP算法 第一步,明确损失函数 =1 ? ො?? ? − ?? ? 2 19 3.BP算法 算法步骤 基于梯度下降(Gradient Descent)策略,以目标的 负梯度方向对参数进行调 整 ? = ? + ∆? ∆? = −? ??? ?? 第二步,明确参数调整策略 1h v 输入层 输出层 隐层 ,1 kx , k i x , k d x 1b 2b hb qb . . .0 码力 | 29 页 | 1.60 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博微博内容 关注数据 用户信息 视觉标签 打码日志 社交关系 用户特征 发博流 互动流 曝光流 模型服务 模型训练 模型优化 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据 自解释特征 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 为什么选择深度学习 Ø0 码力 | 21 页 | 2.14 MB | 1 年前3
Chatbots 中对话式交互系统的分析与应用Task-Bot: 任务对话机器人 Task-Bot: task-oriented bot 用户 语音合成 (TTS) 语言产生 (NLG) 语音识别 (ASR) 语言理解 (SLU) 策略优化 (DPO) 状态追踪 (DST) inform(order_op=预订, restaurant_name=云海肴, subbranch=中关村店) request(phone, name) 对话状态应该包含持续对话所需要的各种信息 • DST问题:依据最新的系统和用户动作,更新对话状态 • Q:如何表示对话状态 状态追踪 (DST) 旧状态 用户动作 系统动作 新状态 策略优化 Dialogue Policy Optimization (DPO) • 系统如何做出反馈动作 • 作为序列决策过程进行优化:增强学习 Milica Gašić (2014) 语言生成0 码力 | 39 页 | 2.24 MB | 1 年前3
超大规模深度学习在美团的应用-余建平模型数据通路 Base + Delta方式 增量提供ACK机制,确保模型正确性 Parameter Server • 模型数据的统一管理 模型结构 模型参数 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random MLX平台架构 • 模型场景应用 召回模型 排序模型 • 漏斗模型 • 召回模型 • 排序模型 美团推荐场景的应用 漏斗模型 推荐的漏斗模型 候选集 召回 粗排 精排 策略漏斗模型 数千 数百 千万 展位 数十 • 模型的设计 • 样本&特征的设计 • 模型的通路 模型召回解决方案 • 基于双塔的模型召回架构 基于用户和item的DNN结构 0 码力 | 41 页 | 5.96 MB | 1 年前3
房源质量打分中深度学习应用及算法优化-周玉驰2019 KE.COM ALL COPYRIGHTS RESERVED 1 周玉驰 贝壳找房 - 数据智能中心 - 策略算法部 AI选房中深度学习的实践及优化 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 3 自我介绍 周玉驰 硕士毕业于中科院 先后就职于华为,百度和医渡云 目前就职于贝壳找房 主要负责两个方向 房源策略算法 房客人关系图谱 扫一扫二维码图案,加我微信 2019 KE.COM ALL COPYRIGHTS RESERVED 4 目录 为什么要做AI选房 如何做AI选房 模型演变历程 实践应用 总结&思考 20190 码力 | 48 页 | 3.75 MB | 1 年前3
共 26 条
- 1
- 2
- 3













