热更新 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

8.5 循环神经网络的从零开始实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 8.5.1 独热编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 8.5.2 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.1 随机梯度更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 11.4.2 动态学习率 . . 词嵌入（word2vec） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.1 为何独热向量是一个糟糕的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.2 自监督的word2vec . . . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

中型特征（⼗） � 2.2 hotkey现象，且训练与推理的 hotkey⾼度重合百万级稠密交叉参数千亿级稀疏输⼊层参数单个样本命中的key ⽐如：性别，年龄等取值少的特征；热⻔⽂章的特征，活跃⽤户的特征推荐系统模型上线在线推理模型训练⽂章新闻视频 Item User Item特征⽤户反馈 Item推荐 Embedding参数本⼩时访问过的key 训练框架—基于参数服务器架构的分布式训练框架 TB级模型分⽚存储/更新百TB数据分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数参数拉取训练参数更新查询Sparse Table 查询Dense Tensor Reader Learner Worker 返回参数 Request Handler Parameter Server 查询Sparse Table 查询Dense Tensor 更新参数 � 常规训练流⽔线样本读取样本解析参数拉取参数更新查询Sparse Table

0 码力 | 22 页 | 6.76 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

特征实时化：更及时反馈用户行为，更细粒度刻画用户 • 模型实时化：根据线上样本实时训练模型，及时地反映对象的线上变化模型推理预测服务实时特征实时数据 3 在线机器学习实时样本实时模型训练实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多模型多版本：多组实验并行执行，提高实验迭代效率 • 在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 模型稳定性/… 一键打包端口探测蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换版本更新全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 • 周期使用验证样本进行点击率预估

0 码力 | 36 页 | 16.69 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 本书主页，以及源代码，电子书下载，正式版也会在此同步更新： https://github.com/dragen1860/Deep-Learning-with-PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》：则指向函数值减少的方向。利用这一性质，只需要按照 ?′ = ? − ? ∙ ∇? (2.1) 来迭代更新?′，就能获得越来越小的函数值，其中?用来缩放梯度向量，一般设置为某较小的值，如 0.01、0.001 等。特别地，对于一维函数，上述向量形式可以退化成标量形式： ?′ = ? − ? ∙ d? d? 通过上式迭代更新?′若干次，这样得到的?′处的函数值?′，总是更有可能比在?处的函数值? 小。通过式(2 通过式(2.1)方式优化参数的方法称为梯度下降算法，它通过循环计算函数的梯度∇?并更新待优化参数?，从而得到函数?获得极小值时参数?的最优数值解?∗。值得注意的是，在深度学习中，一般?表示模型输入，模型的待优化参数一般用?、?、?等符号表示。现在利用速学的梯度下降算法来求解?∗和?∗参数。这里要最小化的目标是均方误差函数ℒ： ℒ = 1 ? ∑(??(?) + ? − ?(

0 码力 | 439 页 | 29.91 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

相似度：98% 政治人物不在黑名单检索结果：林志玲相似度：99% 在版权库 SACC2017 图片场景识别 l 社交图像分类应用：微云，相册管家 Ø 标签体系：面向社交领域的热词标签200余种，涵盖人物、风景、人造物、建筑、动植物、食物等9个大类。 Ø 技术指标：20个类别平均准确率MAP>90%以上，200种MAP>63%以上，性能CPU上约200ms/张。 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控

0 码力 | 32 页 | 5.17 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据过滤数据抽取基础特征组合基础特征，构造组合特征组合基础特征，构造组合特征统计基础信息，构造统计特征独热编码，构造稀疏特征降维决策模型 11 • 骑士体验取餐距离、订单数量、订单组数 • 用户体验订单剩余时间、骑士完成时间、订单准时性 • 配送效率等餐时间、空驶距离、空闲骑士、

0 码力 | 28 页 | 6.86 MB | 1 年前
3
机器学习课程-温州大学-02深度学习-神经网络的编程基础

梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和小批量梯度下降（Mini-Batch Gradient Descent,MBGD）梯度下降的每一步中，用到了一定批量的训练样本 12 梯度下降的三种形式批量梯度下降（Batch Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 13梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 15 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本每计算常数?次训练实例，便更新一次参数 ? ?=1（随机梯度下降

0 码力 | 27 页 | 1.54 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

N 个样本的集合。每一个 batch 的样本都是独立并行处理的。在训练时，一个 batch 的结果只会用来更新一次模型。 - 一个 batch 的样本通常比单个输入更接近于总体输入数据的分布，batch 越大就越近似。然而，每个 batch 将花费更长的时间来处理，并且仍然只更新模型一次。在推理（评估/预测）时，建议条件允许的情况下选择一个尽可能大的 batch，（因为较大的 batch validation_split=0.2) print(hist.history) 快速开始 33 3.3.14 如何「冻结」网络层？「冻结」一个层意味着将其排除在训练之外，即其权重将永远不会更新。这在微调模型或使用固定的词向量进行文本输入中很有用。您可以将 trainable 参数（布尔值）传递给一个层的构造器，以将该层设置为不可训练的： frozen_layer = Dense(32 Model(x, y) # 在下面的模型中，训练期间不会更新层的权重 frozen_model.compile(optimizer='rmsprop', loss='mse') layer.trainable = True trainable_model = Model(x, y) # 使用这个模型，训练期间 `layer` 的权重将被更新 # (这也会影响上面的模型，因为它使用了同一个网络层实例)

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和小批量梯度下降（Mini-Batch Gradient Descent,MBGD）梯度下降的每一步中，用到了一定批量的训练样本 14 梯度下降的三种形式批量梯度下降（Batch Gradient Descent）梯度下降的每一步中，都用到了所有的训练样本参数更新 ??: = ?? − ? 1 ? ෍ ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ，(j=0,1,...,n )) 梯度学习率 15梯度下降的三种形式随机梯度下降（Stochastic Gradient Descent） ? = ? − ? ⋅ ??(?) ?? = ? ??? 1 2 ℎ ? ? − ? ? 2 = 2 ⋅ 1 2 ℎ ? ? − ? ? ⋅ ? 梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和参数更新 ??: = ?? − ? ℎ ?(?) − ?(?) ??(?) (同步更新?? ，(j=0,1,...,n )) 17 梯度下降的三种形式小批量梯度下降（Mini-Batch Gradient Descent）梯度下降的每一步中，用到了一定批量的训练样本每计算常数?次训练实例，便更新一次参数 ? ?=1（随机梯度下降

0 码力 | 33 页 | 1.50 MB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

12 Adaboost算法算法思想 • 初始化训练样本的权值分布，每个样本具有相同权重； • 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；反之提高。用更新过的样本集去训练下一个分类器； • 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。 13 AdaBoost算法带权重1的训练集训练数据结合策略弱学习器1 基于学习的误差率1 更新学习器权重1 弱学习器2 基于学习的误差率2 更新学习器权重2 弱学习器n 基于学习的误差率n 更新学习器权重n 根据权重1更新样本权重2 根据权重n-1更新样本权重n 强学习器相同方式更新…… 15 GBDT算法 GBDT（Gradient Boosting Decision = 0 2 对? = 1,2, … ? (?)计算残差 ??? = ?? − ??−1 ?? , ? = 1,2, … , ? ? 拟合残差???学习一个回归树，得到?(?: ??) ? 更新??(?) = ??−1 ? + ? ?: ?? 3 得到回归提升树 ?? ? = ෍ ?=1 ? ?(?: ??) GBDT算法 21 min ? min ?1 ෍(?? − ?1)2

0 码力 | 50 页 | 2.03 MB | 1 年前
3

共 32 条前往

页

分类

语言

格式

动手学深度学习 v2.0

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

微博在线机器学习和深度学习实践-黄波

【PyTorch深度学习-龙龙老师】-测试版202112

谭国富：深度学习在图像审核的应用

经典算法与人工智能在外卖物流调度中的应用

机器学习课程-温州大学-02深度学习-神经网络的编程基础

Keras: 基于 Python 的深度学习库

机器学习课程-温州大学-02机器学习-回归

机器学习课程-温州大学-08机器学习-集成学习