 机器学习课程-温州大学-08机器学习-集成学习预测1 预测2 训练 数据 第二 层数 据 Stacking 最终 预测 结果 Stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训 练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过 所有基模型的预测形成新的测试集,最后再对测试集进行预测。 测试 数据 7 Random Forest(随机森林) 到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。 后一个模型的训练永远是在前一个模型的基础上完成! 12 Adaboost算法 算法思想 • 初始化训练样本的权值分布,每个样本具有相同权重; • 训练弱分类器,如果样本分类正确,则在构造下一个训练集中,它的权值 就会被降低;反之提高。用更新过的样本集去训练下一个分类器; • 将所有弱分类组合成强分类器,各个弱分类器的训练过程结束后,加大分 类误差率小的 + ?(??: ??) ?0 ? = 0 前向分步算法: ?? ? =  ?=1 ? ?(?: ??) 初始化提升树 第?棵决策树 迭代?次,包 含?棵决策树 的提升树 真实值 损失函数 备注:损失函数选择:如分类用指数损失函数,回归使用平方误差损失。 GBDT算法 18 GBDT算法 ?0 ? ?1 ? ?2 ? ?3 ? ?4 ? ?0 ? ?0 码力 | 50 页 | 2.03 MB | 1 年前3 机器学习课程-温州大学-08机器学习-集成学习预测1 预测2 训练 数据 第二 层数 据 Stacking 最终 预测 结果 Stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训 练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过 所有基模型的预测形成新的测试集,最后再对测试集进行预测。 测试 数据 7 Random Forest(随机森林) 到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。 后一个模型的训练永远是在前一个模型的基础上完成! 12 Adaboost算法 算法思想 • 初始化训练样本的权值分布,每个样本具有相同权重; • 训练弱分类器,如果样本分类正确,则在构造下一个训练集中,它的权值 就会被降低;反之提高。用更新过的样本集去训练下一个分类器; • 将所有弱分类组合成强分类器,各个弱分类器的训练过程结束后,加大分 类误差率小的 + ?(??: ??) ?0 ? = 0 前向分步算法: ?? ? =  ?=1 ? ?(?: ??) 初始化提升树 第?棵决策树 迭代?次,包 含?棵决策树 的提升树 真实值 损失函数 备注:损失函数选择:如分类用指数损失函数,回归使用平方误差损失。 GBDT算法 18 GBDT算法 ?0 ? ?1 ? ?2 ? ?3 ? ?4 ? ?0 ? ?0 码力 | 50 页 | 2.03 MB | 1 年前3
 动手学深度学习 v2.0读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 处理缺失值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 转换为张量格式 . 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5.2.3 参数绑定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.3 延后初始化 . 10.1.1 生物学中的注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 10.1.2 查询、键和值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.1.3 注意力的可视化 . .0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 处理缺失值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 转换为张量格式 . 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5.2.3 参数绑定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.3 延后初始化 . 10.1.1 生物学中的注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 10.1.2 查询、键和值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.1.3 注意力的可视化 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
 Keras: 基于 Python 的深度学习库1.1 参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.2 返回值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.2 可使用的评价函数 . . 所有 epoch 都使用相同的验证集(在同一个 fit 中调用)。 3.3.12 在训练过程中数据是否会混洗? 是的,如果 model.fit 中的 shuffle 参数设置为 True(默认值),则训练数据将在每个 epoch 混洗。 验证集永远不会混洗。 3.3.13 如何在每个 epoch 后记录训练集和验证集的误差和准确率? model.fit 方法返回一个 History 3.14 如何「冻结」网络层? 「冻结」一个层意味着将其排除在训练之外,即其权重将永远不会更新。这在微调模型或使 用固定的词向量进行文本输入中很有用。 您可以将 trainable 参数(布尔值)传递给一个层的构造器,以将该层设置为不可训练的: frozen_layer = Dense(32, trainable=False) 另外,可以在实例化之后将网络层的 trainable 属性设置为0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库1.1 参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.2 返回值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.2 可使用的评价函数 . . 所有 epoch 都使用相同的验证集(在同一个 fit 中调用)。 3.3.12 在训练过程中数据是否会混洗? 是的,如果 model.fit 中的 shuffle 参数设置为 True(默认值),则训练数据将在每个 epoch 混洗。 验证集永远不会混洗。 3.3.13 如何在每个 epoch 后记录训练集和验证集的误差和准确率? model.fit 方法返回一个 History 3.14 如何「冻结」网络层? 「冻结」一个层意味着将其排除在训练之外,即其权重将永远不会更新。这在微调模型或使 用固定的词向量进行文本输入中很有用。 您可以将 trainable 参数(布尔值)传递给一个层的构造器,以将该层设置为不可训练的: frozen_layer = Dense(32, trainable=False) 另外,可以在实例化之后将网络层的 trainable 属性设置为0 码力 | 257 页 | 1.19 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献 第 14 章 强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法 14.4 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献 第 15 章 自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 2 机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本 要自行发现数据的模态,这种方式叫作无监督学习。无监督学习中有一类算法将自身作为 监督信号,即模型需要学习的映射为??: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献 第 14 章 强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法 14.4 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献 第 15 章 自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 2 机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本 要自行发现数据的模态,这种方式叫作无监督学习。无监督学习中有一类算法将自身作为 监督信号,即模型需要学习的映射为??: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-11机器学习-降维1 2022年02月 机器学习-降维 黄海广 副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验 法则 12 1.降维概述 13 2.SVD(奇异值分解) 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 14 2.SVD(奇异值分解) 奇异值分解 (Singular Value Decomposition,以下简称 SVD)是在机器 学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还 matrix), 一个正交矩阵?的转置。 15 2.SVD(奇异值分解) 假设矩阵 ? 是一个 ? × ? 的矩阵,通过SVD是对矩阵进行分解, 那么我们定义矩阵 ? 的 SVD 为: ? = ???T ? ?T ? ? ? × ? ? × ? ? × ? ? × ? ? ? 奇异值 · · 16 2.SVD(奇异值分解) 符号定义 ? = ???T = ?1?1?1 T0 码力 | 51 页 | 3.14 MB | 1 年前3 机器学习课程-温州大学-11机器学习-降维1 2022年02月 机器学习-降维 黄海广 副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验 法则 12 1.降维概述 13 2.SVD(奇异值分解) 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 14 2.SVD(奇异值分解) 奇异值分解 (Singular Value Decomposition,以下简称 SVD)是在机器 学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还 matrix), 一个正交矩阵?的转置。 15 2.SVD(奇异值分解) 假设矩阵 ? 是一个 ? × ? 的矩阵,通过SVD是对矩阵进行分解, 那么我们定义矩阵 ? 的 SVD 为: ? = ???T ? ?T ? ? ? × ? ? × ? ? × ? ? × ? ? ? 奇异值 · · 16 2.SVD(奇异值分解) 符号定义 ? = ???T = ?1?1?1 T0 码力 | 51 页 | 3.14 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4.矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 也就是说,集合 是 受到系数 的限制的线性组合, 满足 。从形式上看, 事实证明, 的行列式的绝对值是对集合 的“体积”的度量。 比方说:一个 的矩阵(4): 它的矩阵的行是: 对应于这些行对应的集合 如图1所示。对于二维矩阵, 通常具有平行四边形的形状。 在我们的例子 中,行列式的值是 (可以使用本节后面显示的公式计算),因此平行四边形的面积为7。(请 自己验证!) 在三维中,集合 斜边的三维框,这样每个面都有一个平 行四边形)。行定义 的 矩阵S的行列式的绝对值给出了平行六面体的三维体积。在更高的维度 中,集合 是一个称为 维平行切的对象。 图1:(4)中给出的 矩阵 的行列式的图示。 这里, 和 是对应于 行的向量,并且集合 对 应于阴影区域(即,平行四边形)。 这个行列式的绝对值, ,即平行四边形的面积。 在代数上,行列式满足以下三个属性(所有其他属性都遵循这些属性,包括通用公式):0 码力 | 19 页 | 1.66 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4.矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 也就是说,集合 是 受到系数 的限制的线性组合, 满足 。从形式上看, 事实证明, 的行列式的绝对值是对集合 的“体积”的度量。 比方说:一个 的矩阵(4): 它的矩阵的行是: 对应于这些行对应的集合 如图1所示。对于二维矩阵, 通常具有平行四边形的形状。 在我们的例子 中,行列式的值是 (可以使用本节后面显示的公式计算),因此平行四边形的面积为7。(请 自己验证!) 在三维中,集合 斜边的三维框,这样每个面都有一个平 行四边形)。行定义 的 矩阵S的行列式的绝对值给出了平行六面体的三维体积。在更高的维度 中,集合 是一个称为 维平行切的对象。 图1:(4)中给出的 矩阵 的行列式的图示。 这里, 和 是对应于 行的向量,并且集合 对 应于阴影区域(即,平行四边形)。 这个行列式的绝对值, ,即平行四边形的面积。 在代数上,行列式满足以下三个属性(所有其他属性都遵循这些属性,包括通用公式):0 码力 | 19 页 | 1.66 MB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们10次投掷 中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。 更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中 隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个 特定值 的概率为: 图1:一个累计分布函数(CDF) 举例: 假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能 值,因此它被称为连续随机变量。我们将 在两个实常数 和 之间取值的概率(其中 )表示为: 2.1 累积分布函数 DF函数。 性质: 2.2 概率质量函数 当随机变量 取有限种可能值(即, 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单 的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样: 在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么 , , , ,0 码力 | 12 页 | 1.17 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们10次投掷 中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。 更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中 隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个 特定值 的概率为: 图1:一个累计分布函数(CDF) 举例: 假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能 值,因此它被称为连续随机变量。我们将 在两个实常数 和 之间取值的概率(其中 )表示为: 2.1 累积分布函数 DF函数。 性质: 2.2 概率质量函数 当随机变量 取有限种可能值(即, 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单 的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样: 在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么 , , , ,0 码力 | 12 页 | 1.17 MB | 1 年前3
 机器学习课程-温州大学-线性代数回顾副教授 2 目录 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + −1 == ς1≤?≤? (?? − ??) 设?是?阶方阵,??(? = 1,2 ⋯ , ?)是?的?个特征值,则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?(?) < ? − 1 2.矩阵 11 6.有关?−?的结论 ?可逆⇔ ?? = ?; ⇔ |?| ≠ 0; ⇔ ?(?) = ?; ⇔ ?可以表示为初等矩阵的乘积; ⇔ ?无零特征值; ⇔ Ax = 0 只有零解。 2.矩阵 12 7.有关矩阵秩的结论 (1) 秩?(?)=行秩=列秩; (2) ?(??×?) ≤ min(?, ?); (3) ? ≠ 0 ⇒ ?(?)0 码力 | 39 页 | 856.89 KB | 1 年前3 机器学习课程-温州大学-线性代数回顾副教授 2 目录 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + −1 == ς1≤?≤? (?? − ??) 设?是?阶方阵,??(? = 1,2 ⋯ , ?)是?的?个特征值,则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?(?) < ? − 1 2.矩阵 11 6.有关?−?的结论 ?可逆⇔ ?? = ?; ⇔ |?| ≠ 0; ⇔ ?(?) = ?; ⇔ ?可以表示为初等矩阵的乘积; ⇔ ?无零特征值; ⇔ Ax = 0 只有零解。 2.矩阵 12 7.有关矩阵秩的结论 (1) 秩?(?)=行秩=列秩; (2) ?(??×?) ≤ min(?, ?); (3) ? ≠ 0 ⇒ ?(?)0 码力 | 39 页 | 856.89 KB | 1 年前3
 机器学习课程-温州大学-07机器学习-决策树⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 根节点 (root node) 叶节点 (leaf node) 5 1.决策树原理 根节点 (root node) 非叶子节点 容易造成过拟合,需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特 征。 决策树的特点 7 算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝 特征属性多次使用 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益率 支持 支持 支持 不支持 CART 分类 回归 二叉树 基尼指数 初始化特征集合和数据集合; 2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 前决策节点; 3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不 同分支的数据集合); 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 11 ? ? = −  ?=1 ? ?? ? ???2 ?? ? 信息熵 ?是类别,?是数据集,??是类别?下的数据集0 码力 | 39 页 | 1.84 MB | 1 年前3 机器学习课程-温州大学-07机器学习-决策树⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 根节点 (root node) 叶节点 (leaf node) 5 1.决策树原理 根节点 (root node) 非叶子节点 容易造成过拟合,需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特 征。 决策树的特点 7 算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝 特征属性多次使用 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益率 支持 支持 支持 不支持 CART 分类 回归 二叉树 基尼指数 初始化特征集合和数据集合; 2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 前决策节点; 3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不 同分支的数据集合); 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 11 ? ? = −  ?=1 ? ?? ? ???2 ?? ? 信息熵 ?是类别,?是数据集,??是类别?下的数据集0 码力 | 39 页 | 1.84 MB | 1 年前3
 机器学习课程-温州大学-机器学习项目流程数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术 数据挖掘技术 脏数据 数据清理策略、规则 满足数据质量要求的数据 况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。 13 探索性数据分析(EDA) IQR = Q3-Q1,即上四分位数与下四分位数之间的 差,也就是盒子的长度。 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点 小于最小观测值,则下限为最小观测值,离群点单 独以点汇出。 最大观测值为max = Q3 +1.5*IQR,如果存在离群 点大于最大观测值,则上限为最大观测值,离群点 点大于最大观测值,则上限为最大观测值,离群点 单独以点汇出。如果没有比最大观测值大的数,则 上限为最大值。 14 探索性数据分析(EDA) 寻找关系 为了查看分类变量 - categorical variables对分数的影 响,我们可以通过分类变量的值来绘制密度图。 密度图 还显示单个变量的分布,可以认为是平滑的直方图。 如 果我们通过为分类变量密度曲线着色,这将向我们展示 分布如何基于类别变化的。 150 码力 | 26 页 | 1.53 MB | 1 年前3 机器学习课程-温州大学-机器学习项目流程数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术 数据挖掘技术 脏数据 数据清理策略、规则 满足数据质量要求的数据 况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。 13 探索性数据分析(EDA) IQR = Q3-Q1,即上四分位数与下四分位数之间的 差,也就是盒子的长度。 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点 小于最小观测值,则下限为最小观测值,离群点单 独以点汇出。 最大观测值为max = Q3 +1.5*IQR,如果存在离群 点大于最大观测值,则上限为最大观测值,离群点 点大于最大观测值,则上限为最大观测值,离群点 单独以点汇出。如果没有比最大观测值大的数,则 上限为最大值。 14 探索性数据分析(EDA) 寻找关系 为了查看分类变量 - categorical variables对分数的影 响,我们可以通过分类变量的值来绘制密度图。 密度图 还显示单个变量的分布,可以认为是平滑的直方图。 如 果我们通过为分类变量密度曲线着色,这将向我们展示 分布如何基于类别变化的。 150 码力 | 26 页 | 1.53 MB | 1 年前3
共 52 条
- 1
- 2
- 3
- 4
- 5
- 6













