 动手学深度学习 v2.0如果读者以前没有使用过Python语言,那么可以仔细阅读这个Python教程3。 论坛 与本书相关,我们已经启动了一个论坛,在discuss.d2l.ai4。当对本书的任何一节有疑问时,请在每一节的末 尾找到相关的讨论页链接。 致谢 感谢中英文草稿的数百位撰稿人。他们帮助改进了内容并提供了宝贵的反馈。感谢Anirudh Dagar和唐源将 部分较早版本的MXNet实现分别改编为PyTorch和T 颠倒输入和输出的顺序非常 重要。换句话说,虽然我们仍将一个序列转换成另一个序列,但是输入和输出的数量以及相应序列的顺序大 都不会相同。比如下面这个例子,“错误的对齐”反应了德国人喜欢把动词放在句尾的特殊倾向。 德语: Haben Sie sich schon dieses grossartige Lehrwerk angeschaut? 英语: Did you already check out 是普遍存在。 为了实现这些复杂的网络,我们引入了神经网络块的概念。块(block)可以描述单个层、由多个层组成的组 件或整个模型本身。使用块进行抽象的一个好处是可以将一些块组合成更大的组件,这一过程通常是递归的, 如 图5.1.1所示。通过定义代码来按需生成任意复杂度的块,我们可以通过简洁的代码实现复杂的神经网络。 图5.1.1: 多个层被组合成块,形成更大的模型 从编程的角度来看,块由类(cla0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0如果读者以前没有使用过Python语言,那么可以仔细阅读这个Python教程3。 论坛 与本书相关,我们已经启动了一个论坛,在discuss.d2l.ai4。当对本书的任何一节有疑问时,请在每一节的末 尾找到相关的讨论页链接。 致谢 感谢中英文草稿的数百位撰稿人。他们帮助改进了内容并提供了宝贵的反馈。感谢Anirudh Dagar和唐源将 部分较早版本的MXNet实现分别改编为PyTorch和T 颠倒输入和输出的顺序非常 重要。换句话说,虽然我们仍将一个序列转换成另一个序列,但是输入和输出的数量以及相应序列的顺序大 都不会相同。比如下面这个例子,“错误的对齐”反应了德国人喜欢把动词放在句尾的特殊倾向。 德语: Haben Sie sich schon dieses grossartige Lehrwerk angeschaut? 英语: Did you already check out 是普遍存在。 为了实现这些复杂的网络,我们引入了神经网络块的概念。块(block)可以描述单个层、由多个层组成的组 件或整个模型本身。使用块进行抽象的一个好处是可以将一些块组合成更大的组件,这一过程通常是递归的, 如 图5.1.1所示。通过定义代码来按需生成任意复杂度的块,我们可以通过简洁的代码实现复杂的神经网络。 图5.1.1: 多个层被组合成块,形成更大的模型 从编程的角度来看,块由类(cla0 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-07机器学习-决策树⑥ ⑤ ④ ③ ② {6,7,15} {7,15} {1,2,3,14} 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针 对每一个非叶子节点,评估用一个最佳叶子节点去代 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 后剪枝决策树的欠拟合风险很小,泛化性能往往优于 预剪枝决策树。 25 C4.5的剪枝 后剪枝 后剪枝的决策树 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针 对每一个非叶子节点,评估用一个最佳叶子节点去代 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 这种方法需要使用一个单独的测试数据集来评估所有的树,根据它们在测试数据 集熵的分类性能选出最佳的树。 36 CART算法 CART剪枝 具体流程: (1)计算每一个结点的条件熵 (2)递归的从叶子节点开始往上遍历, 减掉叶子节点,然后判断损失函数的 值是否减少,如果减少,则将父节点 作为新的叶子节点 (3)重复(2),直到完全不能剪枝. 平坦 纹理 色泽 好瓜 坏瓜 根蒂0 码力 | 39 页 | 1.84 MB | 1 年前3 机器学习课程-温州大学-07机器学习-决策树⑥ ⑤ ④ ③ ② {6,7,15} {7,15} {1,2,3,14} 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针 对每一个非叶子节点,评估用一个最佳叶子节点去代 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 后剪枝决策树的欠拟合风险很小,泛化性能往往优于 预剪枝决策树。 25 C4.5的剪枝 后剪枝 后剪枝的决策树 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针 对每一个非叶子节点,评估用一个最佳叶子节点去代 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 这种方法需要使用一个单独的测试数据集来评估所有的树,根据它们在测试数据 集熵的分类性能选出最佳的树。 36 CART算法 CART剪枝 具体流程: (1)计算每一个结点的条件熵 (2)递归的从叶子节点开始往上遍历, 减掉叶子节点,然后判断损失函数的 值是否减少,如果减少,则将父节点 作为新的叶子节点 (3)重复(2),直到完全不能剪枝. 平坦 纹理 色泽 好瓜 坏瓜 根蒂0 码力 | 39 页 | 1.84 MB | 1 年前3
 TensorFlow on Yarn:深度学习遇上大数据NodeManager上可用的GPU卡数是: 2 + 2 + 2 + 2 = 8� � � TensorFlow on Yarn技术细节揭秘 NodeManager端GPU亲和性调度:� 后序、递归、深度优先分配算法 深度学习平台演进 SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinato0 码力 | 32 页 | 4.06 MB | 1 年前3 TensorFlow on Yarn:深度学习遇上大数据NodeManager上可用的GPU卡数是: 2 + 2 + 2 + 2 = 8� � � TensorFlow on Yarn技术细节揭秘 NodeManager端GPU亲和性调度:� 后序、递归、深度优先分配算法 深度学习平台演进 SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinato0 码力 | 32 页 | 4.06 MB | 1 年前3
 机器学习课程-温州大学-Scikit-learnnc, k) 过滤式(Filter),保留得分排名前k的特征(top k方式) fs.RFECV(estimator, scoring=“r2”) 封装式(Wrap- per),结合交叉验证的递归特征消除法,自动选择最优特征个数 fs.SelectFromModel(estimator) 嵌入式(Embedded),从 模型中自动选择特征,任何具有coef_或者 feature_importances_的0 码力 | 31 页 | 1.18 MB | 1 年前3 机器学习课程-温州大学-Scikit-learnnc, k) 过滤式(Filter),保留得分排名前k的特征(top k方式) fs.RFECV(estimator, scoring=“r2”) 封装式(Wrap- per),结合交叉验证的递归特征消除法,自动选择最优特征个数 fs.SelectFromModel(estimator) 嵌入式(Embedded),从 模型中自动选择特征,任何具有coef_或者 feature_importances_的0 码力 | 31 页 | 1.18 MB | 1 年前3
 机器学习课程-温州大学-特征工程中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) ➢ 使用一个基模型来进行多轮训练,每轮 训练后,消除若干权值系数的特征,再 基于新的特征集进行下一轮训练。 2. 递归特征消除法 包裹式 4. 特征选择 原始特征集合 基模型训练 新特征子集合 特征个数是否达到预设值 输出子集合 否 是 35 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J]0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) ➢ 使用一个基模型来进行多轮训练,每轮 训练后,消除若干权值系数的特征,再 基于新的特征集进行下一轮训练。 2. 递归特征消除法 包裹式 4. 特征选择 原始特征集合 基模型训练 新特征子集合 特征个数是否达到预设值 输出子集合 否 是 35 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J]0 码力 | 38 页 | 1.28 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入析,可以很好地推广到其他任务 ✓ 2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入析,可以很好地推广到其他任务 ✓ 2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了0 码力 | 44 页 | 2.36 MB | 1 年前3
 经典算法与人工智能在外卖物流调度中的应用Descent 仿真系统 离线训练 在线学习 优化 模型 加载 数据 仿真 调度 评估 结果 计算 偏导 求得 梯度 24 智能调度系统对顾客等待时间的优化 数据分析和技术是减少肥尾从而 提高用户体验的最大贡献者,降 低客户流失的可能性 顾客等待时间 订 单 的 百 分 比 平均等待时间显著缩短 0% 5% 10% 15% 20% 25% 30% 35% 00 码力 | 28 页 | 6.86 MB | 1 年前3 经典算法与人工智能在外卖物流调度中的应用Descent 仿真系统 离线训练 在线学习 优化 模型 加载 数据 仿真 调度 评估 结果 计算 偏导 求得 梯度 24 智能调度系统对顾客等待时间的优化 数据分析和技术是减少肥尾从而 提高用户体验的最大贡献者,降 低客户流失的可能性 顾客等待时间 订 单 的 百 分 比 平均等待时间显著缩短 0% 5% 10% 15% 20% 25% 30% 35% 00 码力 | 28 页 | 6.86 MB | 1 年前3
 机器学习课程-温州大学-01深度学习-引言… … … b + w1 wk wK x1 xk xK 神经元 (z ) 1 (z ) = e− z 1 + z 24 主要的几种神经网络 标准神经网络(NN) 递归神经网络 (RNN) 卷积神经网络(CNN) 25 深度学习的硬件 26 • TPU (Tensor Processing Units) Google Cloud TPU. https://cloud0 码力 | 80 页 | 5.38 MB | 1 年前3 机器学习课程-温州大学-01深度学习-引言… … … b + w1 wk wK x1 xk xK 神经元 (z ) 1 (z ) = e− z 1 + z 24 主要的几种神经网络 标准神经网络(NN) 递归神经网络 (RNN) 卷积神经网络(CNN) 25 深度学习的硬件 26 • TPU (Tensor Processing Units) Google Cloud TPU. https://cloud0 码力 | 80 页 | 5.38 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra对于 , 有且只有当 是奇异的(比如不可逆) ,则: 对于 同时, 为非奇异的,则: 在给出行列式的一般定义之前,我们定义,对于 , 是由于删除第 行和 第 列而产生的矩阵。 行列式的一般(递归)公式是: 对于 ,初始情况为 。如果我们把这个公式完全展开为 ,就等于 ( 阶 乘)不同的项。因此,对于大于 的矩阵,我们几乎没有明确地写出完整的行列式方程。然而, 大小的矩阵的行列式方程是相当常见的,建议好好地了解它们:0 码力 | 19 页 | 1.66 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra对于 , 有且只有当 是奇异的(比如不可逆) ,则: 对于 同时, 为非奇异的,则: 在给出行列式的一般定义之前,我们定义,对于 , 是由于删除第 行和 第 列而产生的矩阵。 行列式的一般(递归)公式是: 对于 ,初始情况为 。如果我们把这个公式完全展开为 ,就等于 ( 阶 乘)不同的项。因此,对于大于 的矩阵,我们几乎没有明确地写出完整的行列式方程。然而, 大小的矩阵的行列式方程是相当常见的,建议好好地了解它们:0 码力 | 19 页 | 1.66 MB | 1 年前3
 Keras: 基于 Python 的深度学习库添加的 Keras 属性是:- _keras_shape: 通过 Keras 端的尺寸推理进行传播的整数尺寸元组。 - _keras_history: 应用于张量的最后一层。整个网络层计算图可以递归地从该层中检索。 参数 • shape: 一个尺寸元组(整数),不包含批量大小。A shape tuple (integer), not including the batch size. 例如,shape=(320 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库添加的 Keras 属性是:- _keras_shape: 通过 Keras 端的尺寸推理进行传播的整数尺寸元组。 - _keras_history: 应用于张量的最后一层。整个网络层计算图可以递归地从该层中检索。 参数 • shape: 一个尺寸元组(整数),不包含批量大小。A shape tuple (integer), not including the batch size. 例如,shape=(320 码力 | 257 页 | 1.19 MB | 1 年前3
共 11 条
- 1
- 2













