全连接神经网络实战. pytorch 版我们就需要保存和恢复模 型了。 model.state_dict() 函数可以得到模型的状态字典,里面包含了模型的参数权重与 bias 等信 息,我们可以用下面的代码来保存和恢复模型: # 保 存 模 型 torch . save ( model . state_dict () , path ) # 恢 复 模 型 model . load_state_dict ( torch . load load ( path ) ) 其中,path 是保存模型的路径。有时候我们希望能同时保存模型的一些其他信息,比如 epoch 和优化器的类型,这时我们可以生成一个状态字典: # 保 存 模 型 state = { ’ model ’ : model . state_dict () , ’ optimizer ’ : optimizer . state_dict () , ’ epoch 现在我们希望能够看一下训练的分类结果,为了方便起见我们的源码里删除了上一节的内容。 我们先实现一下模型的保存功能,否则每次都重新训练会非常麻烦: # 从 第 900 轮 恢 复 模 型 (取 决 于 保 存 好 的 模 型 文 件) path = ’ ./ model ’ + s t r (900) +’ . pth ’ 24 4.3. 分类结果的可视化 checkpoint = torch0 码力 | 29 页 | 1.40 MB | 1 年前3
机器学习课程-温州大学-03深度学习-PyTorch入门用 t e n s o r.grad查 看 叶 子 节 点 的 梯 度 如 果 需 要 保 存 非 叶 子 节 点 梯 度 , 需 使 对 应 张 量 调 用 retain_graph () 使 用 t e n s o r.grad.zero_() 清 除 张 量 梯 度 如 果 要 保 留 计 算 图 , 可 通 过 设 置 b a c kw a r d( ) 中 参 数 retain_graph=True0 码力 | 40 页 | 1.64 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类可以了解客户,发现客户之间的相似之处, 并对他们进行分组。 9 1.无监督学习方法概述 聚类案例 3.金融业 银行可以观察到可能的金融欺诈行为,就此 向客户发出警告。在聚类算法的帮助下,保 险公司可以发现某些客户的欺诈行为,并调 查类似客户的保单是否有欺诈行为。 10 1.无监督学习方法概述 聚类案例 4.搜索引擎 百度是人们使用的搜索引擎之一。举个例子,当 我们搜索一些信息,如在某地的超市,百度将为 算法使用 一个没有标签的数据集,然后将数据聚类成不同的组。 K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干 个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保 持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的 平方距离之和最小,在这个位置,簇的质心是簇中数据点的算术平均值。 15 距离度量 闵可夫斯基距离(Minkowski distance)0 码力 | 48 页 | 2.59 MB | 1 年前3
《TensorFlow 2项目进阶实战》5-商品识别篇:使用ResNet识别你的货架商品Caltech 101 & Caltech 256 https://www.pinlandata.com/rp2k_dataset 扩展:图像分类更多应⽤用场景介绍 图像分类应用:牛脸识别与畜牧险维保 图像分类应用:户型图识别(空间、家具) 原始户型图 空间分割 (整体效果) 空间分割 (中间结果) 图像分类应用:智能相册 图像分类应用:瑕疵检测 扫码试看/订阅 《 TensorFlow0 码力 | 58 页 | 23.92 MB | 1 年前3
机器学习课程-温州大学-13深度学习-Transformer它们的维度是64,而词嵌入和编码器的输入/输 出向量的维度是512. 但实际上不强求维度更小, 这只是一种基于架构上的选择,它可以使多头注 意力(multiheaded attention)的大部分计算保 持不变。 X1与WQ权重矩阵相乘得到q1, 就是与这个单词相关 的查询向量。最终使得输入序列的每个单词的创建 一个查询向量Q、一个键向量K和一个值向量V。 24 2.Transformer的工作流程0 码力 | 60 页 | 3.51 MB | 1 年前3
AI大模型千问 qwen 中文文档save_pretrained(quant_path) ... 通 过 上 述 的 model.save_quantized(), 一 个 带 有 AWQ scales 的 fp16 模 型 将 被 保 存。 然 后, 当 你 运 行 convert-hf-to-gguf.py 脚本时,请记得将模型路径替换为带有 AWQ scales 的 fp16 模型的路径,例 如: python convert-hf-to-gguf0 码力 | 56 页 | 835.78 KB | 1 年前3
Keras: 基于 Python 的深度学习库模式中,方向会自动从被监测的数据的名 字中判断出来。 • save_weights_only: 如 果 True, 那 么 只 有 模 型 的 权 重 会 被 保 存 (model.save_weights(filepath)), 否 则 的 话, 整 个 模 型 会 被 保 存 (model.save(filepath))。 • period: 每个检查点之间的间隔(训练轮数)。 回调函数 CALLBACKS0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0另一方面,当我们的训练误差明显低于验证误差时要小心,这表明严重的过拟合(overfitting)。注意,过拟 合并不总是一件坏事。特别是在深度学习领域,众所周知,最好的预测模型在训练数据上的表现往往比在保 留(验证)数据上好得多。最终,我们通常更关心验证误差,而不是训练误差和验证误差之间的差距。 是否过拟合或欠拟合可能取决于模型复杂性和可用训练数据集的大小,这两个点将在下面进行讨论。 模型复杂性 2. 设计一个返回输入数据的傅立叶系数前半部分的层。 Discussions78 5.5 读写文件 到目前为止,我们讨论了如何处理数据,以及如何构建、训练和测试深度学习模型。然而,有时我们希望保 存训练的模型,以备将来在各种环境中使用(比如在部署中进行预测)。此外,当运行一个耗时较长的训练过 程时,最佳的做法是定期保存中间结果,以确保在服务器电源被不小心断掉时,我们不会损失几天的计算结 们处 理循环神经网络中的梯度消失问题,并更好地捕获时间步距离很长的序列的依赖关系。例如,如果整个子序 列的所有时间步的更新门都接近于1,则无论序列的长度如何,在序列起始时间步的旧隐状态都将很容易保 留并传递到序列结束。 图9.1.3说明了更新门起作用后的计算流。 图9.1.3: 计算门控循环单元模型中的隐状态 总之,门控循环单元具有以下两个显著特征: • 重置门有助于捕获序列中的短期依赖关系;0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112门科目 [1,0]], # 班级 2,学生 3,采样第 2、1 门科目 ]) 采样方案张量的 shape 为[2,3,2],除了采样维度 dim=2 外,其他维度与成绩张量的长度保 持一致。上述采样方法的实现如下: In [51]: x = torch.randint(0,9,[2,3,4]) # 随机生成成绩张量 print('x:', x) out = torch log_P(a|s) self.data.append(item) 14.1.4 梯度更新 如果需要利用梯度下降算法来优化网络,需要知道每个输入??的标注信息??,并且确 保从输入到损失值是连续可导的。但是强化学习与传统的有监督学习并不相同,主要体现 为强化学习在每一个时间戳?上面的动作??并没有一个明确的好与坏的标准。奖励??可以在 一定程度上反映动作的好坏,但不能直接0 码力 | 439 页 | 29.91 MB | 1 年前3
共 9 条
- 1













