机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究 假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 和 的事件的概率。 联合CDF: 和每个变量的联合分布函数 和 分别由下式关联: 这里我们称 和 为 的边缘累积概率分布函数。 性质: 3 在连续的情况下,在技术上要复杂一点,因为连续随机变量的概率等于零。忽略这一技术点,我们通过 类比离散情况,简单地定义给定 的条件概率密度为: 假设分母不等于0。 3.5 贝叶斯定理 当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理。 对于离散随机变量 和 : 对于连续随机变量 和 : 3.6 独立性 如果对于 和 的所有值, ,则两个随机变量 和 是独立的。等价地,0 码力 | 12 页 | 1.17 MB | 1 年前3
动手学深度学习 v2.0器学习科学家提供起步;(3)包括可运行的代码,向读者展示如何解决实践中的问题;(4)允许我们和社区 的快速更新;(5)由一个论坛2作为补充,用于技术细节的互动讨论和回答问题。 这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页 原生是HTML和JavaScript的。此外,我们希望内容既可以作为可执行代码访问、作为纸质书访问,作为可下 载的PDF访问 写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性,核方法 (kernel method)、决策树(decision tree)和图模型(graph models)等强大的统计工具(在经验上)证明 是更为优越的。与神经网络不同的是,这些算法不需要数周的训练,而且有很强的理论依据,可以提供可预 测的结果。 1.5 深度学习的发展 大约2010年开始,那些在计算上看起来不可行的神经网络算 和真实数 据。通过使用任意算法生成数据的能力,它为各种技术打开了密度估计的大门。驰骋的斑马 (Zhu et al., 2017) 和假名人脸 (Karras et al., 2017) 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述 场景布局的草图生成照片级真实图像((Park et al., 2019) )。 • 在许多情况下,单个GPU不足以处理可用于训练的大量数据。在过去的十年中,构建并行和分布式训练0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)= ? 机器学习的数学基础 4 9.微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 Th2:(罗尔定理) 设函数?(?)满足条件: (1)在闭区间[? ) 则在(?, ?)内∃一个?,使 ?′(?) = 0 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?−? = ?′(?) Th4: (柯西中值定理) 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在( 函数凹凸性的判断 Th1: (凹凸性的判别定理)若在 I 上?″(?) < 0(或?″(?) > 0), 则?(?)在 I 上是凸的 (或凹的)。 Th2: (拐点的判别定理 1)若在?0处?″(?) = 0,(或?″(?)不存在),当?变动经过?0时, ?″(?)变号,则(?0, ?(?0))为拐点。 Th3: (拐点的判别定理 2)设?(?)在?0点的某邻域内有三阶导数,且0 码力 | 31 页 | 1.18 MB | 1 年前3
机器学习课程-温州大学-高等数学回顾(0) = ? 13 高等数学 9.微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 14 高等数学 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?−? = ?′(?) 15 高等数学 Th4: (柯西中值定理) 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在(?, ?)内可导且?′(?),?′(?)均存在,且?′(?) ≠ 0 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?(?)−?( 25 14.函数凹凸性的判断 Th1: (凹凸性的判别定理)若在I上?″(?) < 0(或?″(?) > 0), 则?(?)在I上是凸的(或凹的) 。 Th2: (拐点的判别定理1)若在?0处?″(?) = 0,(或?″(?)不存在),当?变动经过?0时,?″(?)变 号,则(?0, ?(?0))为拐点。 Th3: (拐点的判别定理2)设?(?)在?0点的某邻域内有三阶导数,且?″(?)0 码力 | 28 页 | 787.86 KB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 4 1.贝叶斯方法-背景知识 先验概率: 后验概率: 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为 基础,故统称为贝叶斯分类。 根据以往经验和分析得到的概率。我们用?(?)来代表在没有训练 数据前假设?拥有的初始概率。 根据已经发生的事件来分析得到的概率。以?(?|?)代表假设? 成 这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减 少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易 于实现。其缺点是分类的性能不一定很高。 11 2.朴素贝叶斯原理 3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测 我们要求的是?(?|?),根据生成模型定义我们可以求?(?, ?)和?(?)假设中的 特征是条件独立的。这个称作朴素贝叶斯假设。 形式化表示为,(如果给定 ?的情况下, = ?? 1 16 2.朴素贝叶斯原理 朴素贝叶斯法分类时,对给定的输入?,通过学习到的模型计算 后验概率分布? ? = ?? ? = ? ,将后验概率最大的类作为?的类输 出。根据贝叶斯定理: ? ? ? = ? ? ? ? ? ? ? 可以计算后验概率 ? ? = ?? ? = ? = ? ? = ? ? = ?? ? ? = ?? σ?=1 ? ? ? = ? ? =0 码力 | 31 页 | 1.13 MB | 1 年前3
机器学习课程-温州大学-线性代数回顾04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 1.行列式按行(列)展开定理 或?1??1? + ?2??2? + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 即 ??∗ = ?∗? = ? ?,其中:?∗ = ?11 ?12 … ?1? ?21 ),所以二次型矩阵均为对称矩阵,且二次型与对称矩 阵一一对应,并把矩阵?的秩称为二次型的秩。 6.二次型 35 2.惯性定理,二次型的标准形和规范形 (1) 惯性定理 对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负 惯性指数与所选变换无关,这就是所谓的惯性定理。 (2) 标准形 二次型? = ?1, ?2, ⋯ , ?? = ????经过合同变换? = ??化为? =0 码力 | 39 页 | 856.89 KB | 1 年前3
机器学习课程-温州大学-01机器学习-引言训练数据集的平均损失称为经验风险。基于经验风险最小化原则,可构建全局损失函数求解最优 化问题: min ? 1 ? ?=1 ? L ??, ? ?? 机器学习的概念-损失函数 24 当样本数量足够大时,根据大数定理,经验风险会近似于模型的期望风险。此时,经验风险最 小化能确保有好的学习性能。然而,当样本数量不足时,单单利用经验风险最小化可能会导致 “过拟合”的问题。 为此,我们再原有基础上加上用于控制模 ? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 42 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ + ??0 码力 | 78 页 | 3.69 MB | 1 年前3
深度学习与PyTorch入门实战 - 35. Early-stopping-Dropout??? Stochastic Gradient Descent ▪ Not single usually ▪ batch = 16, 32, 64, 128… Why 下一课时 贝叶斯定理 Thank You.0 码力 | 16 页 | 1.15 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 43 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ + ??0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra转置的以下属性很容易验证: 3.3 对称矩阵 如果 ,则矩阵 是对称矩阵。 如果 ,它是反对称的。 很容易证明,对于任 何矩阵 ,矩阵 是对称的,矩阵 是反对称的。 由此得出,任何方矩阵 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 , 为方阵, 则: 对于矩阵 , , , 为方阵, 则: , 同理,更多矩阵的积也是有 这个性质。 作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设 和 (因 此 是方阵)。 观察到 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明 ,请注意: 这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可 交换性来反转每 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性: 对于 , ,如果 ,则: 被称作满秩。 对于 , 对于 , , 对于 , 3.70 码力 | 19 页 | 1.66 MB | 1 年前3
共 28 条
- 1
- 2
- 3













