动手学深度学习 v2.08.5 循环神经网络的从零开始实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 8.5.1 独热编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 8.5.2 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.1 随机梯度更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.2 动态学习率 . . 词嵌入(word2vec) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.1 为何独热向量是一个糟糕的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.2 自监督的word2vec . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱中型特征 (⼗) � 2.2 hotkey现象,且训练与推理的 hotkey⾼度重合 百万级稠密 交叉参数 千亿级 稀疏输⼊ 层参数 单个样本命 中的key ⽐如:性别,年龄等取值少的特征; 热⻔⽂章的特征,活跃⽤户的特征 推荐系统 模型上线 在线推理 模型训练 ⽂章 新闻 视频 Item User Item特征 ⽤户反馈 Item推荐 Embedding参数 本⼩时访问过的key 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 参数拉 取 训练 参数更新 查询Sparse Table 查询Dense Tensor Reader Learner Worker 返回参数 Request Handler Parameter Server 查询Sparse Table 查询Dense Tensor 更新参数 � 常规训练流⽔线 样本读取 样本解析 参数拉取 参数更新 查询Sparse Table0 码力 | 22 页 | 6.76 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 3 在线机器学习 实时样本 实时模型训练 实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 • 周期使用验证样本进行点击率预估0 码力 | 36 页 | 16.69 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 本书主页,以及源代码,电子书下载,正式版也会在此同步更新: https://github.com/dragen1860/Deep-Learning-with-PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》: 则指向函数值减少的方向。利用这一性质,只 需要按照 ?′ = ? − ? ∙ ∇? (2.1) 来迭代更新?′,就能获得越来越小的函数值,其中?用来缩放梯度向量,一般设置为某较小 的值,如 0.01、0.001 等。特别地,对于一维函数,上述向量形式可以退化成标量形式: ?′ = ? − ? ∙ d? d? 通过上式迭代更新?′若干次,这样得到的?′处的函数值?′,总是更有可能比在?处的函数值? 小。 通过式(2 通过式(2.1)方式优化参数的方法称为梯度下降算法,它通过循环计算函数的梯度∇?并 更新待优化参数?,从而得到函数?获得极小值时参数?的最优数值解?∗。值得注意的是, 在深度学习中,一般?表示模型输入,模型的待优化参数一般用?、?、?等符号表示。 现在利用速学的梯度下降算法来求解?∗和?∗参数。这里要最小化的目标是均方误差函 数ℒ: ℒ = 1 ? ∑(??(?) + ? − ?(0 码力 | 439 页 | 29.91 MB | 1 年前3
谭国富:深度学习在图像审核的应用相似度:98% 政治人物 不在黑名单 检索结果:林志玲 相似度:99% 在版权库 SACC2017 图片场景识别 l 社交图像分类应用:微云,相册管家 Ø 标签体系:面向社交领域的热词标签200余种, 涵盖人物、风景、人造物、 建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上, 性能CPU上约200ms/张。 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控0 码力 | 32 页 | 5.17 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据 过滤数据 抽取基础特征 组合基础特征,构造组合特征 组合基础特征,构造组合特征 统计基础信息,构造统计特征 独热编码,构造稀疏特征 降维 决策模型 11 • 骑士体验 取餐距离、订单数量、订单组数 • 用户体验 订单剩余时间、骑士完成时间、 订单准时性 • 配送效率 等餐时间、空驶距离、空闲骑士、0 码力 | 28 页 | 6.86 MB | 1 年前3
机器学习课程-温州大学-02深度学习-神经网络的编程基础梯度下降的每一步中,用到一个样本,在每一次计算之后 便更新参数 ,而不需要首先将所有的训练集求和 小批量梯度下降(Mini-Batch Gradient Descent,MBGD) 梯度下降的每一步中,用到了一定批量的训练样本 12 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 13梯度下降的三种形式 随机梯度下降(Stochastic Gradient Descent) ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不 需要首先将所有的训练集求和 参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ,(j=0,1,...,n )) 15 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降0 码力 | 27 页 | 1.54 MB | 1 年前3
Keras: 基于 Python 的深度学习库N 个样本的集合。每一个 batch 的样本都是独立并行处理的。在训练时, 一个 batch 的结果只会用来更新一次模型。 - 一个 batch 的样本通常比单个输入更接近于 总体输入数据的分布,batch 越大就越近似。然而,每个 batch 将花费更长的时间来处理, 并且仍然只更新模型一次。在推理(评估/预测)时,建议条件允许的情况下选择一个尽可 能大的 batch,(因为较大的 batch validation_split=0.2) print(hist.history) 快速开始 33 3.3.14 如何「冻结」网络层? 「冻结」一个层意味着将其排除在训练之外,即其权重将永远不会更新。这在微调模型或使 用固定的词向量进行文本输入中很有用。 您可以将 trainable 参数(布尔值)传递给一个层的构造器,以将该层设置为不可训练的: frozen_layer = Dense(32 Model(x, y) # 在下面的模型中,训练期间不会更新层的权重 frozen_model.compile(optimizer='rmsprop', loss='mse') layer.trainable = True trainable_model = Model(x, y) # 使用这个模型,训练期间 `layer` 的权重将被更新 # (这也会影响上面的模型,因为它使用了同一个网络层实例)0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归梯度下降的每一步中,用到一个样本,在每一次计算之后 便更新参数 ,而不需要首先将所有的训练集求和 小批量梯度下降(Mini-Batch Gradient Descent,MBGD) 梯度下降的每一步中,用到了一定批量的训练样本 14 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 15梯度下降的三种形式 随机梯度下降(Stochastic Gradient Descent) ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不 需要首先将所有的训练集求和 参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ,(j=0,1,...,n )) 17 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降0 码力 | 33 页 | 1.50 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习12 Adaboost算法 算法思想 • 初始化训练样本的权值分布,每个样本具有相同权重; • 训练弱分类器,如果样本分类正确,则在构造下一个训练集中,它的权值 就会被降低;反之提高。用更新过的样本集去训练下一个分类器; • 将所有弱分类组合成强分类器,各个弱分类器的训练过程结束后,加大分 类误差率小的弱分类器的权重,降低分类误差率大的弱分类器的权重。 13 AdaBoost算法 带权重1的训 练集 训练 数据 结合 策略 弱学习器1 基于学习的误差率1 更新学习器权重1 弱学习器2 基于学习的误差率2 更新学习器权重2 弱学习器n 基于学习的误差率n 更新学习器权重n 根据权重1更新样本权重2 根据权重n-1更新样本权重n 强学 习器 相同方式更新…… 15 GBDT算法 GBDT(Gradient Boosting Decision = 0 2 对? = 1,2, … ? (?)计算残差 ??? = ?? − ??−1 ?? , ? = 1,2, … , ? ? 拟合残差???学习一个回归树,得到?(?: ??) ? 更新??(?) = ??−1 ? + ? ?: ?? 3 得到回归提升树 ?? ? = ?=1 ? ?(?: ??) GBDT算法 21 min ? min ?1 (?? − ?1)20 码力 | 50 页 | 2.03 MB | 1 年前3
共 32 条
- 1
- 2
- 3
- 4













