值绑定 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-08机器学习-集成学习

预测1 预测2 训练数据第二层数据 Stacking 最终预测结果 Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。测试数据 7 Random Forest（随机森林）到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。后一个模型的训练永远是在前一个模型的基础上完成！ 12 Adaboost算法算法思想 • 初始化训练样本的权值分布，每个样本具有相同权重； • 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；反之提高。用更新过的样本集去训练下一个分类器； • 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的 + ?(??: ??) ?0 ? = 0 前向分步算法： ?? ? = ෍ ?=1 ? ?(?: ??) 初始化提升树第?棵决策树迭代?次，包含?棵决策树的提升树真实值损失函数备注：损失函数选择：如分类用指数损失函数,回归使用平方误差损失。 GBDT算法 18 GBDT算法 ?0 ? ?1 ? ?2 ? ?3 ? ?4 ? ?0 ? ?

0 码力 | 50 页 | 2.03 MB | 1 年前
3
动手学深度学习 v2.0

读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 处理缺失值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 转换为张量格式 . 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5.2.3 参数绑定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.3 延后初始化 . 10.1.1 生物学中的注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 10.1.2 查询、键和值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 10.1.3 注意力的可视化 . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

1.1 参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.2 返回值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.2 可使用的评价函数 . . 所有 epoch 都使用相同的验证集（在同一个 fit 中调用）。 3.3.12 在训练过程中数据是否会混洗？是的，如果 model.fit 中的 shuffle 参数设置为 True（默认值），则训练数据将在每个 epoch 混洗。验证集永远不会混洗。 3.3.13 如何在每个 epoch 后记录训练集和验证集的误差和准确率？ model.fit 方法返回一个 History 3.14 如何「冻结」网络层？「冻结」一个层意味着将其排除在训练之外，即其权重将永远不会更新。这在微调模型或使用固定的词向量进行文本输入中很有用。您可以将 trainable 参数（布尔值）传递给一个层的构造器，以将该层设置为不可训练的： frozen_layer = Dense(32, trainable=False) 另外，可以在实例化之后将网络层的 trainable 属性设置为

0 码力 | 257 页 | 1.19 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献第 14 章强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法 14.4 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献第 15 章自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 2 机器学习的分类有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到映射关系??: ? → ?，其中??代表模型函数，?为模型的参数。在训练时，通过计算模型的预测值??(?)与真实标签?之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本要自行发现数据的模态，这种方式叫作无监督学习。无监督学习中有一类算法将自身作为监督信号，即模型需要学习的映射为??: ? → ?，称为自监督学习(Self-supervised Learning)。在训练时，通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。常见的无监督学习算法有自编码器、生成对抗网络等。强化学习也称为增强学习，通过与环境进行交互来学习解决问题的策略的一类算法。与有监督学习、无监

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

1 2022年02月机器学习-降维黄海广副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题在主成分分析(PCA)降维技术中，有时需要考虑多少主成分是难以确定的，往往使用经验法则 12 1.降维概述 13 2.SVD(奇异值分解) 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 14 2.SVD(奇异值分解) 奇异值分解 (Singular Value Decomposition，以下简称 SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还 matrix)，一个正交矩阵?的转置。 15 2.SVD(奇异值分解) 假设矩阵 ? 是一个 ? × ? 的矩阵，通过SVD是对矩阵进行分解，那么我们定义矩阵 ? 的 SVD 为： ? = ???T ? ?T ? ? ? × ? ? × ? ? × ? ? × ? ? ? 奇异值 · · 16 2.SVD(奇异值分解) 符号定义 ? = ???T = ?1?1?1 T

0 码力 | 51 页 | 3.14 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4.矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化线性代数复习和参考 1. 基础概念和符号线性代数提供了一种紧凑地表示和操作线性方程组的方法。也就是说，集合是受到系数的限制的线性组合，满足。从形式上看，事实证明，的行列式的绝对值是对集合的“体积”的度量。比方说：一个的矩阵(4)：它的矩阵的行是：对应于这些行对应的集合如图1所示。对于二维矩阵，通常具有平行四边形的形状。在我们的例子中，行列式的值是（可以使用本节后面显示的公式计算），因此平行四边形的面积为7。（请自己验证！）在三维中，集合斜边的三维框，这样每个面都有一个平行四边形）。行定义的矩阵S的行列式的绝对值给出了平行六面体的三维体积。在更高的维度中，集合是一个称为维平行切的对象。图1：（4）中给出的矩阵的行列式的图示。这里，和是对应于行的向量，并且集合对应于阴影区域（即，平行四边形）。这个行列式的绝对值，，即平行四边形的面积。在代数上，行列式满足以下三个属性（所有其他属性都遵循这些属性，包括通用公式）：

0 码力 | 19 页 | 1.66 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

们通常不关心获得任何特定正反序列的概率。相反，我们通常关心结果的实值函数，比如我们10次投掷中出现的正面数，或者最长的背面长度。在某些技术条件下，这些函数被称为随机变量。更正式地说，随机变量是一个的函数。通常，我们将使用大写字母或更简单的 (其中隐含对随机结果的依赖)来表示随机变量。我们将使用小写字母来表示随机变量的值。举例：在我们上面的实验中，假设是在投掷序列中出中出现的正面的数量。假设投掷的硬币只有10枚，那么只能取有限数量的值，因此它被称为离散随机变量。这里，与随机变量相关联的集合取某个特定值的概率为：图1：一个累计分布函数(CDF) 举例：假设是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下，具有无限多的可能值，因此它被称为连续随机变量。我们将在两个实常数和之间取值的概率(其中 )表示为： 2.1 累积分布函数 DF函数。性质： 2.2 概率质量函数当随机变量取有限种可能值(即，是离散随机变量)时，表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地，概率质量函数(PMF)是函数，这样：在离散随机变量的情况下，我们使用符号表示随机变量可能假设的一组可能值。例如，如果是一个随机变量，表示十次投掷硬币中的正面数，那么，，，，

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-线性代数回顾

副教授 2 目录 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?，则：??1??1 + ??2??2 + −1 == ς1≤?值，则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?(?) < ? − 1 2.矩阵 11 6.有关?−?的结论 ?可逆⇔ ?? = ?; ⇔ |?| ≠ 0; ⇔ ?(?) = ?; ⇔ ?可以表示为初等矩阵的乘积； ⇔ ?无零特征值； ⇔ Ax = 0 只有零解。 2.矩阵 12 7.有关矩阵秩的结论 (1) 秩?(?)=行秩=列秩； (2) ?(??×?) ≤ min(?, ?); (3) ? ≠ 0 ⇒ ?(?)

0 码力 | 39 页 | 856.89 KB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

⚫ 决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。根节点 (root node) 叶节点 (leaf node) 5 1.决策树原理根节点 (root node) 非叶子节点容易造成过拟合，需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值的特征。决策树的特点 7 算法支持模型树结构特征选择连续值处理缺失值处理剪枝特征属性多次使用 ID3 分类多叉树信息增益不支持不支持不支持不支持 C4.5 分类多叉树信息增益率支持支持支持不支持 CART 分类回归二叉树基尼指数初始化特征集合和数据集合； 2. 计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点； 3. 更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）； 4. 重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。 11 ? ? = − ෍ ?=1 ? ?? ? ???2 ?? ? 信息熵 ?是类别，?是数据集，??是类别?下的数据集

0 码力 | 39 页 | 1.84 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

数据建模 8 2.数据清洗什么是数据清洗？数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗不合法值空值异常检测重复处理拼写错误命名习惯数理统计技术数据挖掘技术脏数据数据清理策略、规则满足数据质量要求的数据况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。 13 探索性数据分析(EDA) IQR = Q3-Q1，即上四分位数与下四分位数之间的差，也就是盒子的长度。最小观测值为min = Q1 - 1.5*IQR，如果存在离群点小于最小观测值，则下限为最小观测值，离群点单独以点汇出。最大观测值为max = Q3 +1.5*IQR，如果存在离群点大于最大观测值，则上限为最大观测值，离群点点大于最大观测值，则上限为最大观测值，离群点单独以点汇出。如果没有比最大观测值大的数，则上限为最大值。 14 探索性数据分析(EDA) 寻找关系为了查看分类变量 - categorical variables对分数的影响，我们可以通过分类变量的值来绘制密度图。密度图还显示单个变量的分布，可以认为是平滑的直方图。如果我们通过为分类变量密度曲线着色，这将向我们展示分布如何基于类别变化的。 15

0 码力 | 26 页 | 1.53 MB | 1 年前
3

共 52 条前往

页

分类

语言

格式