【PyTorch深度学习-龙龙老师】-测试版202112络参数的偏导数。考虑如下函数的表达式: = ?? + ?? + ? 输出 对于变量?的导数关系为: d d? = 2?? + ? 考虑在(?, ?, ?, ?) = (1,2,3,4)处的导数,代入上式可得 d? d? = 2 ∙ 1 ∙ 4 + 2 = 10。因此通过手 动推导的方式计算出 d? d?导数值为 10。 借助于 PyTorch,可以不需要手动推导导数的表达式,只需要给出函数的表达式,即 出函数的表达式,即 可由 PyTorch 自动求导。上式的自动求导代码实现如下: import torch # 导入梯度计算函数 from torch import autograd # 创建 4 个张量 a = torch.tensor(1.) b = torch.tensor(2.) 预览版202112 1.6 开发环境安装 17 最后的误差和除以数据样本总数,从而得到每个样本上的平均误差。 3. 计算梯度 根据之前介绍的梯度下降算法,只需要计算出函数在每一个点上的梯度信息: ( ∂ℒ ∂? , ∂ℒ ∂?)。根据函数的表达式,简单来推导一下梯度的计算方法。首先考虑偏导数 ∂ℒ ∂?,将均 方误差函数展开: ∂ℒ ∂? = ∂ 1 ? (??(?) + ? − ?(?)) 2 ? ?=1 ∂? = 10 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra都是特征向量,但我们必须接受这一点)。 我们可以重写上面的等式来说明 是 的特征值和特征向量的组合: 但是 只有当 有一个非空零空间时,同时 是奇异的, 才具有非零解, 即: 现在,我们可以使用行列式的先前定义将表达式 扩展为 中的(非常大的)多项式,其中, 的度为 。它通常被称为矩阵 的特征多项式。 然后我们找到这个特征多项式的 (可能是复数)根,并用 表示。这些都是矩阵 的特征 值,但我们注意到它们可能不明显。为了找到特征值 原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是 很困难的。例如,假设 是一个固定系数矩阵,假设 是一个固定系数向量。设 为 定义的函数,因此 。但现在考虑表达式, 该表达式应该如何解释? 至少有两种可能性: 1.在第一个解释中,回想起 。 在这里,我 们将 解释为评估点 处的梯度,因此: 2.在第二种解释中,我们将数量 视为输入变量 的函数。 更正式地说,设 这种直觉通常是正确的,但需要记住以下几个注意事项。 首先,对于一个变量 的实值函数,它的基本定义:二阶导数是一阶导数的导数,即: 然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即: 上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确 的:如果我们看一下梯度 的第 个元素,并取关于于 的梯度我们得到: 这是黑塞矩阵第 行(列),所以: 简单地说:我们可以说由于:0 码力 | 19 页 | 1.66 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob(线性期望): 对于一个离散随机变量 , 2.5 方差 随机变量 的方差是随机变量 的分布围绕其平均值集中程度的度量。形式上,随机变量 的方差定义 为: 使用上一节中的性质,我们可以导出方差的替代表达式: 其中第二个等式来自期望的线性,以及 相对于外层期望实际上是常数的事实。 性质: 对于任意常数 , 对于任意常数 , 举例: 计算均匀随机变量 的平均值和方差,任意 , ,其PDF为 连续随机变量的概率等于零。忽略这一技术点,我们通过 类比离散情况,简单地定义给定 的条件概率密度为: 假设分母不等于0。 3.5 贝叶斯定理 当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理。 对于离散随机变量 和 : 对于连续随机变量 和 : 3.6 独立性 如果对于 和 的所有值, ,则两个随机变量 和 是独立的。等价地, 对于离散随机变量 的任何函数都与 的任何函数无关。 3.7 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 , ,类似的表达式是: 我们可以用期望的概念来研究两个随机变量之间的关系。特别地,两个随机变量的协方差定义为: 使用类似于方差的推导,我们可以将它重写为: 在这里,说明两种协方差形式相等的关键步骤是第三个等号,在这里我们使用了这样一个事实,即0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结2, 3]) < np.array([3, 2, 1]) array([ True, False, False], dtype=bool) 布尔运算在NumPy中也有对应的ufunc函数。 表达式 ufunc函数 y=x1==x2 equal(x1,x2[,y]) y=x1!=x2 not_equal(x1,x2[,y]) y=x1x2 greater(x1,x2[,y]) y=x1>=x2 gerater_equal(x1,x2[,y]) 27 自定义ufunc函数 NumPy提供的标准ufunc函数可以组合出复合的表达式,但是有些情况下, 自己编写的则更为方便。我们可以把自己编写的函数用frompyfunc()转化 成ufunc函数。 > def num_judge(x, a): #对于一个数字如果是3或5的倍数就 0 码力 | 49 页 | 1.52 MB | 1 年前3
Keras: 基于 Python 的深度学习库9 Lambda [source] keras.layers.Lambda(function, output_shape=None, mask=None, arguments=None) 将任意表达式封装为 Layer 对象。 例 # 添加一个 x -> x^2 层 model.add(Lambda(lambda x: x ** 2)) 关于 KERAS 网络层 64 # 添加一个网络层,返回输入的正数部分 后端函数 epsilon keras.backend.epsilon() 返回数字表达式中使用的模糊因子的值。 返回 一个浮点数。 例子 >>> keras.backend.epsilon() 1e-07 set_epsilon keras.backend.set_epsilon(e) 设置数字表达式中使用的模糊因子的值。 参数 • e: 浮点数。新的 epsilon 值。 例子 张量或返回张量的可调用函数。 • else_expression: 张量或返回张量的可调用函数。 返回 选择的张量。 异常 • ValueError: 如果 condition 的秩大于两个表达式的秩序。 in_train_phase keras.backend.in_train_phase(x, alt, training=None) 在训练阶段选择 x,其他阶段选择 alt。 请注意0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0常用的摄氏度,则可以计算表达式c = 5 9(f − 32),并将f赋为52。在 此等式中,每一项(5、9和32)都是标量值。符号c和f称为变量(variable),它们表示未知的标量值。 本书采用了数学表示法,其中标量变量由普通小写字母表示(例如,x、y和z)。本书用R表示所有(连续)实 数标量的空间,之后将严格定义空间(space)是什么,但现在只要记住表达式x ∈ R是表示x是一个实值标量 批量的样本X,其中特征维度(输入数量)为d,批量大小为n。此外,假设我们在输出中有q个类别。那么小 批量样本的特征为X ∈ Rn×d,权重为W ∈ Rd×q,偏置为b ∈ R1×q。softmax回归的矢量计算表达式为: O = XW + b, ˆY = softmax(O). (3.4.5) 相对于一次处理一个样本,小批量样本的矢量化加快了X�W的矩阵‐向量乘法。由于X中的每一行代表一个数 据样本,那 对每个项求幂(使用exp); 2. 对每一行求和(小批量中每个样本是一行),得到每个样本的规范化常数; 3. 将每一行除以其规范化常数,确保结果的和为1。 在查看代码之前,我们回顾一下这个表达式: softmax(X)ij = exp(Xij) � k exp(Xik). (3.6.1) 分母或规范化常数,有时也称为配分函数(其对数称为对数‐配分函数)。该名称来自统计物理学55中一个模0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-03机器学习-逻辑回归小于0.5时,预测 y=0 Sigmoid 函数 ?=?T? + ? ൯ L ̰? , ? = −?log(̰?) − (1 − ?)log(1 − ̰? 2.Sigmoid函数 注意:若表达式 ℎ ? = ? = ?0 + ?1?1 + ?2?2+. . . +???? + ? = ?T? + ?, 则?可以融入到?0,即:?=?T? 9 2.Sigmoid函数 线性回归的函数 ℎ0 码力 | 23 页 | 1.20 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归+ ?1?1 + ?2?2 + . . . +???? ? 和 ? 的关系 可以设?0 = 1 则:ℎ ? = ?0?0 + ?1?1 + ?2?2+. . . +????=?T? 注意:若表达式 ℎ ? = ?0 + ?1?1 + ?2?2+. . . +???? + ?, 则?可以融入到?0 模型 机器学习算法 训练数据 特征 预测结果 8 线性回归-算法流程 ℎ ? =0 码力 | 33 页 | 1.50 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树划分点。 对于任意划分特征 ?,对应的任意划分点? 两边划分成的数据集 ?1和?2 ,求出使 ?1和?2各自集合的均方差最小,同时 ?1和?2的均方差之和最小所对应的特征和特 征值划分点。表达式为: min?,?[min?1 ??∈?1 ( ?? − ?1)2 + min?2 ??∈?2 ( ?? − ?2)2] 其中,?1为?1数据集的样本输出均值,?2为?2 数据集的样本输出均值。0 码力 | 39 页 | 1.84 MB | 1 年前3
共 9 条
- 1













