 链式法则链式法则 主讲人:龙良曲 Derivative Rules Basic Rule ▪ ? + ? ▪ ? − ? Product rule ▪ ?? ′ = ?′? + ??′ ▪ ?4′ = ?2 ∗ ?2 ′ = 2? ∗ ?2 + ?2 ∗ 2? = 4?3 Quotient Rule ▪ ? ? = ?′?+??′ ?2 ▪ e.g. Softmax Chain0 码力 | 10 页 | 610.60 KB | 1 年前3 链式法则链式法则 主讲人:龙良曲 Derivative Rules Basic Rule ▪ ? + ? ▪ ? − ? Product rule ▪ ?? ′ = ?′? + ??′ ▪ ?4′ = ?2 ∗ ?2 ′ = 2? ∗ ?2 + ?2 ∗ 2? = 4?3 Quotient Rule ▪ ? ? = ?′?+??′ ?2 ▪ e.g. Softmax Chain0 码力 | 10 页 | 610.60 KB | 1 年前3
 机器学习课程-温州大学-13机器学习-人工神经网络v dh v 1 j w 2 j w hj w qj w . . . . . . kx ˆky 20 3.BP算法 第三步,计算输出层阈值??的梯度 ??? ??? 利用链式法则,可得 其中, 所以, 更新公式 1h v 输入层 输出层 隐层 ,1 nx , k i x , k d x 1b 2b hb qb . . . . . . . . ො?? ? 1 − ො?? ? ?? ? − ො?? ? ?? ≔ ?? − ??? 21 3.BP算法 第四步,计算隐层到输出层连接 权值???的梯度 ??? ??ℎ? 利用链式法则,可得 其中, 可得 综上可得 1h v 输入层 输出层 隐层 ,1 kx , k i x , k d x 1b 2b hb qb . . . . . . . . ?ℎ? = ො?? ? ⋅ ො?? ? − ?? ? ⋅ 1 − ො?? ? ⋅ ?ℎ = −???ℎ 22 3.BP算法 第五步,计算隐层阈值??的梯度 ??? ??ℎ 利用链式法则,可得 其中, 所以有 令 更新公式 1h v 输入层 输出层 隐层 ,1 kx , k i x , k d x 1b 2b hb qb . . . . . .0 码力 | 29 页 | 1.60 MB | 1 年前3 机器学习课程-温州大学-13机器学习-人工神经网络v dh v 1 j w 2 j w hj w qj w . . . . . . kx ˆky 20 3.BP算法 第三步,计算输出层阈值??的梯度 ??? ??? 利用链式法则,可得 其中, 所以, 更新公式 1h v 输入层 输出层 隐层 ,1 nx , k i x , k d x 1b 2b hb qb . . . . . . . . ො?? ? 1 − ො?? ? ?? ? − ො?? ? ?? ≔ ?? − ??? 21 3.BP算法 第四步,计算隐层到输出层连接 权值???的梯度 ??? ??ℎ? 利用链式法则,可得 其中, 可得 综上可得 1h v 输入层 输出层 隐层 ,1 kx , k i x , k d x 1b 2b hb qb . . . . . . . . ?ℎ? = ො?? ? ⋅ ො?? ? − ?? ? ⋅ 1 − ො?? ? ⋅ ?ℎ = −???ℎ 22 3.BP算法 第五步,计算隐层阈值??的梯度 ??? ??ℎ 利用链式法则,可得 其中, 所以有 令 更新公式 1h v 输入层 输出层 隐层 ,1 kx , k i x , k d x 1b 2b hb qb . . . . . .0 码力 | 29 页 | 1.60 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版2021127 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 。 在介绍反向传播算法之前,我们先学习导数传播的一个核心法则:链式法则。 7.6 链式法则 前面我们介绍了输出层的梯度 ∂ℒ ?? ?计算方法,我们现在来介绍链式法则,它是能在不 显式推导神经网络的数学表达式的情况下,逐层推导梯度的核心公式,非常重要。 实际上,前面在推导梯度的过程中已经或多或少地用到了链式法则。考虑复合函数 ? = ?(?),? = ?(?),则 ?? ?? ?? ?? ?? 例如,? = (2? + 1)2 + ??2,令? = 2? + 1, ? = ?2,则? = ?2 + ??,利用上式,可得: 预览版202112 7.6 链式法则 15 ?? ?? = ?? ?? ?? ?? + ?? ?? ?? ?? = 2? ∙ 2 + ?? ∙ 2? 将? = 2? + 1, ? = ?2代入可得:0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版2021127 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 。 在介绍反向传播算法之前,我们先学习导数传播的一个核心法则:链式法则。 7.6 链式法则 前面我们介绍了输出层的梯度 ∂ℒ ?? ?计算方法,我们现在来介绍链式法则,它是能在不 显式推导神经网络的数学表达式的情况下,逐层推导梯度的核心公式,非常重要。 实际上,前面在推导梯度的过程中已经或多或少地用到了链式法则。考虑复合函数 ? = ?(?),? = ?(?),则 ?? ?? ?? ?? ?? 例如,? = (2? + 1)2 + ??2,令? = 2? + 1, ? = ?2,则? = ?2 + ??,利用上式,可得: 预览版202112 7.6 链式法则 15 ?? ?? = ?? ?? ?? ?? + ?? ?? ?? ?? = 2? ∙ 2 + ?? ∙ 2? 将? = 2? + 1, ? = ?2代入可得:0 码力 | 439 页 | 29.91 MB | 1 年前3
 动手学深度学习 v2.0梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.4.4 链式法则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.5 自动微分 . 2X。正如我们之后将看到的,梯度对于设计深度学习中的优化算法 有很大用处。 2.4.4 链式法则 然而,上面方法可能很难找到梯度。这是因为在深度学习中,多元函数通常是复合(composite)的,所以难 以应用上述任何规则来微分这些函数。幸运的是,链式法则可以被用来微分复合函数。 让我们先考虑单变量函数。假设函数y = f(u)和u = g(x)都是可微的,根据链式法则: dy dx = dy du du dx. (2.4 数。 • 链式法则可以用来微分复合函数。 练习 1. 绘制函数y = f(x) = x3 − 1 x和其在x = 1处切线的图像。 2. 求函数f(x) = 3x2 1 + 5ex2的梯度。 3. 函数f(x) = ∥x∥2的梯度是什么? 4. 尝试写出函数u = f(x, y, z),其中x = x(a, b),y = y(a, b),z = z(a, b)的链式法则。 Discussions400 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.4.4 链式法则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.5 自动微分 . 2X。正如我们之后将看到的,梯度对于设计深度学习中的优化算法 有很大用处。 2.4.4 链式法则 然而,上面方法可能很难找到梯度。这是因为在深度学习中,多元函数通常是复合(composite)的,所以难 以应用上述任何规则来微分这些函数。幸运的是,链式法则可以被用来微分复合函数。 让我们先考虑单变量函数。假设函数y = f(u)和u = g(x)都是可微的,根据链式法则: dy dx = dy du du dx. (2.4 数。 • 链式法则可以用来微分复合函数。 练习 1. 绘制函数y = f(x) = x3 − 1 x和其在x = 1处切线的图像。 2. 求函数f(x) = 3x2 1 + 5ex2的梯度。 3. 函数f(x) = ∥x∥2的梯度是什么? 4. 尝试写出函数u = f(x, y, z),其中x = x(a, b),y = y(a, b),z = z(a, b)的链式法则。 Discussions400 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra从这里可以知道,它直接从伴随矩阵的性质得出: 现在我们来考虑函数 , 。注意,我们必须将 的域限制为正定矩阵,因为 这确保了 ,因此 的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只 是单变量演算中的普通链式法则)来看看: 从这一点可以明显看出: 我们可以在最后一个表达式中删除转置,因为 是对称的。注意与单值情况的相似性,其中 。 4.6 特征值优化 最后,我们使用矩0 码力 | 19 页 | 1.66 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra从这里可以知道,它直接从伴随矩阵的性质得出: 现在我们来考虑函数 , 。注意,我们必须将 的域限制为正定矩阵,因为 这确保了 ,因此 的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只 是单变量演算中的普通链式法则)来看看: 从这一点可以明显看出: 我们可以在最后一个表达式中删除转置,因为 是对称的。注意与单值情况的相似性,其中 。 4.6 特征值优化 最后,我们使用矩0 码力 | 19 页 | 1.66 MB | 1 年前3
 清华大学 普通人如何抓住DeepSeek红利场景1:课堂上突然跟不上了,怎么办 场景:数学课上,老师正在讲解“隐函数求导”,步骤写到第三行时突然跳过了中间推导,直接给出结果:“所 以这里的dy/dx=(-2x-y)/(x+3y²)”。你盯着白板上的公式一脸懵——前两步的链式法则展开去哪了?为什么分 母突然多了3y²? 周围同学纷纷点头,老师已经翻到下一页讲应用题了。你手心冒汗,想举手提问又怕被说“这 么简单还不会”,不提问又担心后面全听不懂…… 场景1:课堂上突然跟不上了,怎么办 操作技巧: Ø 在笔记软件中快速标注困惑点(如:“疑问:第二 步到第三步如何展开?”) Ø 输入精准问题: “隐函数求导例题:从方程x² + xy + y³ = 0推导 dy/dx,请展示完整的链式法则展开步骤,特别是分母 3y²的来源。” Ø 秒速获取步骤解析: 立即对照补全笔记,跟上老师进度。 2. 课间5分钟(深度追问) p 适用场景:老师已下课,但10分钟后还有后续课程 p 操作技巧:0 码力 | 65 页 | 4.47 MB | 8 月前3 清华大学 普通人如何抓住DeepSeek红利场景1:课堂上突然跟不上了,怎么办 场景:数学课上,老师正在讲解“隐函数求导”,步骤写到第三行时突然跳过了中间推导,直接给出结果:“所 以这里的dy/dx=(-2x-y)/(x+3y²)”。你盯着白板上的公式一脸懵——前两步的链式法则展开去哪了?为什么分 母突然多了3y²? 周围同学纷纷点头,老师已经翻到下一页讲应用题了。你手心冒汗,想举手提问又怕被说“这 么简单还不会”,不提问又担心后面全听不懂…… 场景1:课堂上突然跟不上了,怎么办 操作技巧: Ø 在笔记软件中快速标注困惑点(如:“疑问:第二 步到第三步如何展开?”) Ø 输入精准问题: “隐函数求导例题:从方程x² + xy + y³ = 0推导 dy/dx,请展示完整的链式法则展开步骤,特别是分母 3y²的来源。” Ø 秒速获取步骤解析: 立即对照补全笔记,跟上老师进度。 2. 课间5分钟(深度追问) p 适用场景:老师已下课,但10分钟后还有后续课程 p 操作技巧:0 码力 | 65 页 | 4.47 MB | 8 月前3
 深度学习与PyTorch入门实战 - 18.2 LOSS及其梯度soft version of max Derivative when ? = ? Derivative when ? ≠ ? Derivative F.softmax 下一课时 链式法则 Thank You.0 码力 | 14 页 | 989.18 KB | 1 年前3 深度学习与PyTorch入门实战 - 18.2 LOSS及其梯度soft version of max Derivative when ? = ? Derivative when ? ≠ ? Derivative F.softmax 下一课时 链式法则 Thank You.0 码力 | 14 页 | 989.18 KB | 1 年前3
 深度学习与PyTorch入门实战 - 19.2 多输出感知机0 1 ?0 1 t ∑ ∑ ∑ ∑ ?? t ?? 1 ?? 1 ?? 1 ?? 1 ?? ????= ?? − ?? Ok (1 − ??) ?? 0 下一课时 链式法则 Thank You.0 码力 | 9 页 | 584.25 KB | 1 年前3 深度学习与PyTorch入门实战 - 19.2 多输出感知机0 1 ?0 1 t ∑ ∑ ∑ ∑ ?? t ?? 1 ?? 1 ?? 1 ?? 1 ?? ????= ?? − ?? Ok (1 − ??) ?? 0 下一课时 链式法则 Thank You.0 码力 | 9 页 | 584.25 KB | 1 年前3
 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别别的概率。 前向传播 前向传播 简化形式: 后向传播( Back Propagation, BP) BP算法的基本思想是通过损失函数对模型参数进行求导, 并根据复合函数求导常用的“链式法则”将不同层的模型参 数的梯度联系起来,使得计算所有模型参数的梯度更简单。 BP算法的思想早在 1960s 就被提出来了。 直到1986年, David Rumelhart 和 Geoffrey0 码力 | 38 页 | 1.82 MB | 1 年前3 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别别的概率。 前向传播 前向传播 简化形式: 后向传播( Back Propagation, BP) BP算法的基本思想是通过损失函数对模型参数进行求导, 并根据复合函数求导常用的“链式法则”将不同层的模型参 数的梯度联系起来,使得计算所有模型参数的梯度更简单。 BP算法的思想早在 1960s 就被提出来了。 直到1986年, David Rumelhart 和 Geoffrey0 码力 | 38 页 | 1.82 MB | 1 年前3
 MoonBit月兔编程语言 现代编程思想 第十二课 案例:自动微分	- value / derivative, true) 10. } 11. } |> debug // 0.37851665401644224 12. } 25 后向微分 利⽤链式法则 若有 ,那么 例如: 分解: 微分: 组合: 从 开始,向后计算中间过程的偏微分 ,直⾄输⼊参数的微分 可以同时求出每⼀个输⼊的偏微分,适⽤于输⼊参数多于输出参数 26 后向微分0 码力 | 30 页 | 3.24 MB | 1 年前3 MoonBit月兔编程语言 现代编程思想 第十二课 案例:自动微分	- value / derivative, true) 10. } 11. } |> debug // 0.37851665401644224 12. } 25 后向微分 利⽤链式法则 若有 ,那么 例如: 分解: 微分: 组合: 从 开始,向后计算中间过程的偏微分 ,直⾄输⼊参数的微分 可以同时求出每⼀个输⼊的偏微分,适⽤于输⼊参数多于输出参数 26 后向微分0 码力 | 30 页 | 3.24 MB | 1 年前3
共 12 条
- 1
- 2













