 动手学深度学习 v2.00-Linux-x86_64.sh -b 接下来,初始化终端Shell,以便我们可以直接运行conda。 ~/miniconda3/bin/conda init 现在关闭并重新打开当前的shell。并使用下面的命令创建一个新的环境: 8 https://conda.io/en/latest/miniconda.html 9 conda create --name d2l python=3.9 -y 现在激活 zip cd pytorch 注意:如果没有安装unzip,则可以通过运行sudo apt install unzip进行安装。 安装完成后我们可以通过运行以下命令打开Jupyter笔记本(在Window系统的命令行窗口中运行以下命令前, 需先将当前路径定位到刚下载的本书代码解压后的目录): jupyter notebook 9 https://developer.nvidia.com/cuda‐downloads 写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性,核方法 (kernel method)、决策树(decision tree)和图模型(graph models)等强大的统计工具(在经验上)证明 是更为优越的。与神经网络不同的是,这些算法不需要数周的训练,而且有很强的理论依据,可以提供可预 测的结果。 1.5 深度学习的发展 大约2010年开始,那些在计算上看起来不可行的神经网络算0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.00-Linux-x86_64.sh -b 接下来,初始化终端Shell,以便我们可以直接运行conda。 ~/miniconda3/bin/conda init 现在关闭并重新打开当前的shell。并使用下面的命令创建一个新的环境: 8 https://conda.io/en/latest/miniconda.html 9 conda create --name d2l python=3.9 -y 现在激活 zip cd pytorch 注意:如果没有安装unzip,则可以通过运行sudo apt install unzip进行安装。 安装完成后我们可以通过运行以下命令打开Jupyter笔记本(在Window系统的命令行窗口中运行以下命令前, 需先将当前路径定位到刚下载的本书代码解压后的目录): jupyter notebook 9 https://developer.nvidia.com/cuda‐downloads 写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性,核方法 (kernel method)、决策树(decision tree)和图模型(graph models)等强大的统计工具(在经验上)证明 是更为优越的。与神经网络不同的是,这些算法不需要数周的训练,而且有很强的理论依据,可以提供可预 测的结果。 1.5 深度学习的发展 大约2010年开始,那些在计算上看起来不可行的神经网络算0 码力 | 797 页 | 29.45 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 的。 怎么实现人工智能是一个非常广袤的问题。人工智能的发展主要经历了三个阶段,每 个阶段都代表了人们从不同的角度尝试实现人工智能的探索足迹。早期,人们试图通过总 结、归纳出一些逻辑规则 PyTorch 继承获得的优良基因。但是由于 Lua 语言使用人群较少,Torch 一直未能获得主流应用。 ❑ MXNet 由华人陈天奇和李沐等人开发,是亚马逊公司的官方深度学习框架。采用了 命令式编程和符号式编程混合方式,灵活性高,运行速度快,文档和案例也较为丰 富。 ❑ Keras 是一个基于 Theano 和 TensorFlow 等框架提供的底层运算而实现的高层框架, 提供了大 版本的诸多缺陷。 ❑ PyTorch 是 Facebook 基于原 Torch 框架推出的采用 Python 作为主要开发语言的深度学 习框架。PyTorch 借鉴了 Chainer 的设计风格,采用命令式编程,使得搭建网络和调试 网络非常方便。尽管 PyTorch 在 2017 年才发布,但是由于精良紧凑的接口设计, PyTorch 在学术界获得了广泛好评。在 PyTorch 1.0 版本后,原来的0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 的。 怎么实现人工智能是一个非常广袤的问题。人工智能的发展主要经历了三个阶段,每 个阶段都代表了人们从不同的角度尝试实现人工智能的探索足迹。早期,人们试图通过总 结、归纳出一些逻辑规则 PyTorch 继承获得的优良基因。但是由于 Lua 语言使用人群较少,Torch 一直未能获得主流应用。 ❑ MXNet 由华人陈天奇和李沐等人开发,是亚马逊公司的官方深度学习框架。采用了 命令式编程和符号式编程混合方式,灵活性高,运行速度快,文档和案例也较为丰 富。 ❑ Keras 是一个基于 Theano 和 TensorFlow 等框架提供的底层运算而实现的高层框架, 提供了大 版本的诸多缺陷。 ❑ PyTorch 是 Facebook 基于原 Torch 框架推出的采用 Python 作为主要开发语言的深度学 习框架。PyTorch 借鉴了 Chainer 的设计风格,采用命令式编程,使得搭建网络和调试 网络非常方便。尽管 PyTorch 在 2017 年才发布,但是由于精良紧凑的接口设计, PyTorch 在学术界获得了广泛好评。在 PyTorch 1.0 版本后,原来的0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra转置的以下属性很容易验证: 3.3 对称矩阵 如果 ,则矩阵 是对称矩阵。 如果 ,它是反对称的。 很容易证明,对于任 何矩阵 ,矩阵 是对称的,矩阵 是反对称的。 由此得出,任何方矩阵 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 , 为方阵, 则: 对于矩阵 , , , 为方阵, 则: , 同理,更多矩阵的积也是有 这个性质。 作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设 和 (因 此 是方阵)。 观察到 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明 ,请注意: 这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可 交换性来反转每 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性: 对于 , ,如果 ,则: 被称作满秩。 对于 , 对于 , , 对于 , 3.70 码力 | 19 页 | 1.66 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra转置的以下属性很容易验证: 3.3 对称矩阵 如果 ,则矩阵 是对称矩阵。 如果 ,它是反对称的。 很容易证明,对于任 何矩阵 ,矩阵 是对称的,矩阵 是反对称的。 由此得出,任何方矩阵 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 , 为方阵, 则: 对于矩阵 , , , 为方阵, 则: , 同理,更多矩阵的积也是有 这个性质。 作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设 和 (因 此 是方阵)。 观察到 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明 ,请注意: 这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可 交换性来反转每 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性: 对于 , ,如果 ,则: 被称作满秩。 对于 , 对于 , , 对于 , 3.70 码力 | 19 页 | 1.66 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 和 的事件的概率。 联合CDF: 和每个变量的联合分布函数 和 分别由下式关联: 这里我们称 和 为 的边缘累积概率分布函数。 性质: 3 和 是独立的,也就是说,你只要知道 和 就知道关于这对变量 , 的所有信息。 以下引理将这一观察形式化: 引理3.1 如果 和 是独立的,那么对于任何 , ,我们有: 利用上述引理,我们可以证明如果 与 无关,那么 的任何函数都与 的任何函数无关。 3.7 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况 下,我们有: 尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练 集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集 的“有效大小”的效果。 4.2 随机向量 假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向0 码力 | 12 页 | 1.17 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 和 的事件的概率。 联合CDF: 和每个变量的联合分布函数 和 分别由下式关联: 这里我们称 和 为 的边缘累积概率分布函数。 性质: 3 和 是独立的,也就是说,你只要知道 和 就知道关于这对变量 , 的所有信息。 以下引理将这一观察形式化: 引理3.1 如果 和 是独立的,那么对于任何 , ,我们有: 利用上述引理,我们可以证明如果 与 无关,那么 的任何函数都与 的任何函数无关。 3.7 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况 下,我们有: 尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练 集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集 的“有效大小”的效果。 4.2 随机向量 假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向0 码力 | 12 页 | 1.17 MB | 1 年前3
 机器学习课程-温州大学-11机器学习-降维T的所有特征向量组成一个 ? × ?的矩阵?,就是我们 ??? 公式里面的 ? 矩阵了。 一般我们将?中的每个特征向量叫做? 的左奇异向量。 注意:??T = (???T)(???T)T = ?(??T)?T 上式证明使用了?T? = ?, ?T = ?。可以看出的??T特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 19 2.SVD(奇异值分解) ?矩阵求解 如果我们将 ? 的转置和 ? 做矩阵乘法,那么会得到 × ? 的矩阵?,就是我们 SVD 公式里 面的 ? 矩阵了。一般我们将 ?中的每个特征向量叫做 ? 的右奇异向量。 注意:由于?T? = (???T)T(???T) = ?(?T?)?T 上式证明使用了??? = ?, ?? = ?。可以看出?T?的特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 21 2.SVD(奇异值分解) ? 矩阵求解 进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就0 码力 | 51 页 | 3.14 MB | 1 年前3 机器学习课程-温州大学-11机器学习-降维T的所有特征向量组成一个 ? × ?的矩阵?,就是我们 ??? 公式里面的 ? 矩阵了。 一般我们将?中的每个特征向量叫做? 的左奇异向量。 注意:??T = (???T)(???T)T = ?(??T)?T 上式证明使用了?T? = ?, ?T = ?。可以看出的??T特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 19 2.SVD(奇异值分解) ?矩阵求解 如果我们将 ? 的转置和 ? 做矩阵乘法,那么会得到 × ? 的矩阵?,就是我们 SVD 公式里 面的 ? 矩阵了。一般我们将 ?中的每个特征向量叫做 ? 的右奇异向量。 注意:由于?T? = (???T)T(???T) = ?(?T?)?T 上式证明使用了??? = ?, ?? = ?。可以看出?T?的特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 21 2.SVD(奇异值分解) ? 矩阵求解 进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就0 码力 | 51 页 | 3.14 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, 记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输,0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, 记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输,0 码力 | 44 页 | 2.36 MB | 1 年前3
 机器学习课程-温州大学-04深度学习-深层神经网络ሾ2]的维度是:(?ሾ2], ?ሾ1])。 ?ሾ2] , ??ሾ2]的维度都是:(?ሾ2], 1),如果是二分类,那维度就是(1,1)。 ?ሾ1],??ሾ1]的维度都是:(?ሾ1], 1)。 证明过程: 其中?ሾ2]???ሾ2]维度为:(?ሾ1], ?ሾ2])、(?ሾ2], 1)相乘得到(?ሾ1], 1),和?ሾ1]维度相同, ?ሾ1]′(?ሾ1])的维度为(?ሾ1], 1),这就变成了两个都是(0 码力 | 28 页 | 1.57 MB | 1 年前3 机器学习课程-温州大学-04深度学习-深层神经网络ሾ2]的维度是:(?ሾ2], ?ሾ1])。 ?ሾ2] , ??ሾ2]的维度都是:(?ሾ2], 1),如果是二分类,那维度就是(1,1)。 ?ሾ1],??ሾ1]的维度都是:(?ሾ1], 1)。 证明过程: 其中?ሾ2]???ሾ2]维度为:(?ሾ1], ?ሾ2])、(?ሾ2], 1)相乘得到(?ሾ1], 1),和?ሾ1]维度相同, ?ሾ1]′(?ሾ1])的维度为(?ሾ1], 1),这就变成了两个都是(0 码力 | 28 页 | 1.57 MB | 1 年前3
 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别Networks,简称CNN)。 卷积(Convolution) 卷积是分析数学中的一种基础运算,其中对输入数据做运算时所用到的函数称为卷积核。 设:f(x), g(x)是R上的两个可积函数,作积分: 可以证明,关于几乎所有的实数x,上述积分是存在的。这样,随着x的不同取值,这个积分就 定义了一个如下的新函数,称为函数f与g的卷积 卷积层(Convolutional Layer, conv) 卷积层0 码力 | 38 页 | 1.82 MB | 1 年前3 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别Networks,简称CNN)。 卷积(Convolution) 卷积是分析数学中的一种基础运算,其中对输入数据做运算时所用到的函数称为卷积核。 设:f(x), g(x)是R上的两个可积函数,作积分: 可以证明,关于几乎所有的实数x,上述积分是存在的。这样,随着x的不同取值,这个积分就 定义了一个如下的新函数,称为函数f与g的卷积 卷积层(Convolutional Layer, conv) 卷积层0 码力 | 38 页 | 1.82 MB | 1 年前3
 机器学习课程-温州大学-15深度学习-GAN码样本,实验结果表明基于 GAN 的方法可以比传统基于黑盒检测模型的方法 性能更好。 b. 也有人提出了一个扩展 GAN 的生成器,用判别器来正则化生成器而不是 用一个损失函数,用国际象棋实验示例证明了所提方法的有效性。 3. GAN的应用 29 03 GAN 的应用 01 生成式深度学习简介 02 GAN的理论与实现模型 04 GAN的思考与前景 4. GAN的思考与前景0 码力 | 35 页 | 1.55 MB | 1 年前3 机器学习课程-温州大学-15深度学习-GAN码样本,实验结果表明基于 GAN 的方法可以比传统基于黑盒检测模型的方法 性能更好。 b. 也有人提出了一个扩展 GAN 的生成器,用判别器来正则化生成器而不是 用一个损失函数,用国际象棋实验示例证明了所提方法的有效性。 3. GAN的应用 29 03 GAN 的应用 01 生成式深度学习简介 02 GAN的理论与实现模型 04 GAN的思考与前景 4. GAN的思考与前景0 码力 | 35 页 | 1.55 MB | 1 年前3
 全连接神经网络实战. pytorch 版checkpoint [ ’ optimizer ’ ] ) test_loop ( test_dataloader , model2 , loss_function ) model2 的预测正确率为 70.5%,证明我们的模型保存和恢复机制是正确的。 本节代码见 chapter3.py。 3.2 初始化网络权重-方法一 我们通过自定义初始化函数,来实现对网络参数的初始化。有时候,好的初始化可以为网络 的训练带来极大好处。0 码力 | 29 页 | 1.40 MB | 1 年前3 全连接神经网络实战. pytorch 版checkpoint [ ’ optimizer ’ ] ) test_loop ( test_dataloader , model2 , loss_function ) model2 的预测正确率为 70.5%,证明我们的模型保存和恢复机制是正确的。 本节代码见 chapter3.py。 3.2 初始化网络权重-方法一 我们通过自定义初始化函数,来实现对网络参数的初始化。有时候,好的初始化可以为网络 的训练带来极大好处。0 码力 | 29 页 | 1.40 MB | 1 年前3
共 16 条
- 1
- 2













