 机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3 机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
 基本数据类型基本数据类型 主讲人:龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string0 码力 | 16 页 | 1.09 MB | 1 年前3 基本数据类型基本数据类型 主讲人:龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string0 码力 | 16 页 | 1.09 MB | 1 年前3
 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排0 码力 | 22 页 | 6.76 MB | 1 年前3 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排0 码力 | 22 页 | 6.76 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版2021123.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10 参考文献 第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 创建张量 预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 9 参考文献 第 6 章 神经网络 6.1 感知机 6.2 全连接层 6.3 神经网络 6.4 激活函数 6.5 输出层设计 6.6 误差计算 6.7 神经网络类型 6.8 油耗预测实战 6.9 参考文献 第 7 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 90 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版2021123.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10 参考文献 第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 创建张量 预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 9 参考文献 第 6 章 神经网络 6.1 感知机 6.2 全连接层 6.3 神经网络 6.4 激活函数 6.5 输出层设计 6.6 误差计算 6.7 神经网络类型 6.8 油耗预测实战 6.9 参考文献 第 7 章 反向传播算法 7.1 导数与梯度 7.2 导数常见性质 7.3 激活函数导数 7.4 损失函数梯度 7.5 9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 90 码力 | 439 页 | 29.91 MB | 1 年前3
 Keras: 基于 Python 的深度学习库. . . . . . 10 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: . . . . . . . . . . . . 11 3.1.5.2 基于多层感知器的二分类: . . . . . . . . . . . . . . . . . . . . . . 12 3.1.5.3 类似 VGG 的卷积神经网络: . . . . . . . . . . . . . 3.1 Model 类 API . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.2 Model 的实用属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3 Model 类模型方法 . . . . . . . . . . . . . . . 125 6.3.1 ImageDataGenerator 类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3.2 ImageDataGenerator 类方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 1290 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库. . . . . . 10 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: . . . . . . . . . . . . 11 3.1.5.2 基于多层感知器的二分类: . . . . . . . . . . . . . . . . . . . . . . 12 3.1.5.3 类似 VGG 的卷积神经网络: . . . . . . . . . . . . . 3.1 Model 类 API . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.2 Model 的实用属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3 Model 类模型方法 . . . . . . . . . . . . . . . 125 6.3.1 ImageDataGenerator 类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3.2 ImageDataGenerator 类方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 1290 码力 | 257 页 | 1.19 MB | 1 年前3
 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.9.1 分布偏移的类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 4.9.2 分布偏移示例 . . . 残差网络(ResNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.9.1 分布偏移的类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 4.9.2 分布偏移示例 . . . 残差网络(ResNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块0 码力 | 797 页 | 29.45 MB | 1 年前3
 PyTorch OpenVINO 开发实战系列教程第一篇失功能、支持自定义的模型类(Module)等。通过它们就可 以实现大多数的模型结构搭建与生成。 2)torch.utils 包,里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查 点与性能相关的组件功能。重要的类有数据集类(Dataset), 数据加载类 (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3)torch 第一篇 5 上图 1-3 中标量、向量、数组、3D、4D、5D 数据矩阵在深 度学习框架中都被称为张量。可见在深度学习框架中所有的数 据都是张量形式存在,张量是深度学习数据组织与存在一种数 据类型。 ● 算子 / 操作数 深度学习主要是针对张量的数据操作、这些数据操作从简单到 复杂、多数都是以矩阵计算的形式存在,最常见的矩阵操作就 是加减乘除、此外卷积、池化、激活、也是模型构建中非常有 深度学习是基于计算图完成模型构建,实现数据在各个计算图 节点之间流动,最终输出,因此计算图又被称为数据流图。 根据构建计算图的方式不同还可以分为静态图与动态图, Pytorch 默认是基于动态图的方式构建计算图,动态图采用类 似 python 语法,可以随时运行,灵活修改调整;而静态图则 是效率优先,但是在图构建完成之前无法直接运行。可以看出 动态图更加趋向于开发者平时接触的面向对象的编程方式,也 更容易被开发者0 码力 | 13 页 | 5.99 MB | 1 年前3 PyTorch OpenVINO 开发实战系列教程第一篇失功能、支持自定义的模型类(Module)等。通过它们就可 以实现大多数的模型结构搭建与生成。 2)torch.utils 包,里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查 点与性能相关的组件功能。重要的类有数据集类(Dataset), 数据加载类 (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3)torch 第一篇 5 上图 1-3 中标量、向量、数组、3D、4D、5D 数据矩阵在深 度学习框架中都被称为张量。可见在深度学习框架中所有的数 据都是张量形式存在,张量是深度学习数据组织与存在一种数 据类型。 ● 算子 / 操作数 深度学习主要是针对张量的数据操作、这些数据操作从简单到 复杂、多数都是以矩阵计算的形式存在,最常见的矩阵操作就 是加减乘除、此外卷积、池化、激活、也是模型构建中非常有 深度学习是基于计算图完成模型构建,实现数据在各个计算图 节点之间流动,最终输出,因此计算图又被称为数据流图。 根据构建计算图的方式不同还可以分为静态图与动态图, Pytorch 默认是基于动态图的方式构建计算图,动态图采用类 似 python 语法,可以随时运行,灵活修改调整;而静态图则 是效率优先,但是在图构建完成之前无法直接运行。可以看出 动态图更加趋向于开发者平时接触的面向对象的编程方式,也 更容易被开发者0 码力 | 13 页 | 5.99 MB | 1 年前3
 机器学习课程-温州大学-03机器学习-逻辑回归监督学习的最主要类型 ✓ 分类(Classification) ✓ 身高1.85m,体重100kg的男人穿什么尺码的T恤? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? ✓ 根据用户的年龄、职业、存款数量来判断信用卡 是否会违约? 分类问题 标签离散 输入变量可以是离散的,也可以是连续的。 5 二分类 分类问题 1 2 我们先从用蓝色圆形数据定义为类 型1,其余数据为类型2; 型1,其余数据为类型2; 只需要分类1次 步骤:①->② ① ② 二分类 6 多分类 分类问题 1 rest 1 2 rest One-vs-All (One-vs-Rest) 我们先定义其中一类为类型1(正 类),其余数据为负类(rest); 接下来去掉类型1数据,剩余部分 再次进行二分类,分成类型2和负 类;如果有?类,那就需要分类?-1 次 步骤:①->②->③->…… ① ?, 则?可以融入到?0,即:?=?T? 9 2.Sigmoid函数 线性回归的函数 ℎ ? = ? = ?T?,范围是(−∞, +∞)。 而分类预测结果需要得到[0,1]的概率值。 在二分类模型中,事件的几率odds:事件发生与事件不发生的概率之比为 ? 1−?, 称为事件的发生比(the odds of experiencing an event) 其中?为随机事件发生的概率,0 码力 | 23 页 | 1.20 MB | 1 年前3 机器学习课程-温州大学-03机器学习-逻辑回归监督学习的最主要类型 ✓ 分类(Classification) ✓ 身高1.85m,体重100kg的男人穿什么尺码的T恤? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? ✓ 根据用户的年龄、职业、存款数量来判断信用卡 是否会违约? 分类问题 标签离散 输入变量可以是离散的,也可以是连续的。 5 二分类 分类问题 1 2 我们先从用蓝色圆形数据定义为类 型1,其余数据为类型2; 型1,其余数据为类型2; 只需要分类1次 步骤:①->② ① ② 二分类 6 多分类 分类问题 1 rest 1 2 rest One-vs-All (One-vs-Rest) 我们先定义其中一类为类型1(正 类),其余数据为负类(rest); 接下来去掉类型1数据,剩余部分 再次进行二分类,分成类型2和负 类;如果有?类,那就需要分类?-1 次 步骤:①->②->③->…… ① ?, 则?可以融入到?0,即:?=?T? 9 2.Sigmoid函数 线性回归的函数 ℎ ? = ? = ?T?,范围是(−∞, +∞)。 而分类预测结果需要得到[0,1]的概率值。 在二分类模型中,事件的几率odds:事件发生与事件不发生的概率之比为 ? 1−?, 称为事件的发生比(the odds of experiencing an event) 其中?为随机事件发生的概率,0 码力 | 23 页 | 1.20 MB | 1 年前3
 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 可以叠加多层encoder: 2.模型介绍 17 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 2.模型介绍 18 1.背景知识 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 19 模型框架 最简洁的Vision Transformer模型 ,先将图片分成 16x16的patch块, 然后线性层把128维变成2维从而完成二分类任务的transformer模型。 主要思路 32 5. 模型的代码实现 image_size:int 类型参数,图片大小。 如果您有矩 形图像,请确保图像尺寸为宽度和高度的最大值 patch_size:int 类型参数,patches数目。 image_size 必须能够被 patch_size整除。 num_classes:int 类型参数,分类数目。 dim:int dim:int 类型参数,线性变换nn.Linear(..., dim)后输 出张量的尺寸 。 depth:int 类型参数,Transformer模块的个数。 heads:int 类型参数,多头注意力中“头”的个数。 mlp_dim:int 类型参数,多层感知机中隐藏层的神经 元个数。 channels:int 类型参数,输入图像的通道数,默认为 3。 dropout:float类型参数,Dropout几率,取值范围为0 码力 | 34 页 | 2.78 MB | 1 年前3 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 可以叠加多层encoder: 2.模型介绍 17 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 2.模型介绍 18 1.背景知识 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 19 模型框架 最简洁的Vision Transformer模型 ,先将图片分成 16x16的patch块, 然后线性层把128维变成2维从而完成二分类任务的transformer模型。 主要思路 32 5. 模型的代码实现 image_size:int 类型参数,图片大小。 如果您有矩 形图像,请确保图像尺寸为宽度和高度的最大值 patch_size:int 类型参数,patches数目。 image_size 必须能够被 patch_size整除。 num_classes:int 类型参数,分类数目。 dim:int dim:int 类型参数,线性变换nn.Linear(..., dim)后输 出张量的尺寸 。 depth:int 类型参数,Transformer模块的个数。 heads:int 类型参数,多头注意力中“头”的个数。 mlp_dim:int 类型参数,多层感知机中隐藏层的神经 元个数。 channels:int 类型参数,输入图像的通道数,默认为 3。 dropout:float类型参数,Dropout几率,取值范围为0 码力 | 34 页 | 2.78 MB | 1 年前3
 全连接神经网络实战. pytorch 版torch . u t i l s . data import DataLoader 前面说过,Dataset 可以存储自定义数据,我们可以继承 Dataset 类,在子类中实现一些固定 功能的函数,这样就相当于封装了自己的数据为 Dataset 类型。为了方便起见,我们先描述如何 使用预加载数据,然后第二章就开始构建神经网络模型。等第四章我们再描述如何自定义数据集。 我们一次写一个完整的程序来把数据可视化一下: squeeze () , cmap=” gray ” ) plt . show () datasets 是 torchvision 的对象,它返回的数据就是 pytorch 的 Dataset 类型的。 参数 transf orm 表示导出的数据应该怎么转换,我们还可以使用参数 target_transf orm 表 示导出的数据标签应该怎么转换。 注意显示时我们调用了 squeeze() 是对数据的转换,ToTensor() 函数将 PIL 图像或者 NumPy 的 ndarray 转换为 FloatTensor 类型的,并且把图像的每个像素值压缩到 [0.0,1.0] 之间。 target_transf orm 10 1.2. 导入样本数据 是标签的转换,分类中我们需要将标签表示为向量的形式,例如一共有三类,则表示为: [1 0 0] (1.2.1) [0 1 0] (1.2.2) [0 0 1]0 码力 | 29 页 | 1.40 MB | 1 年前3 全连接神经网络实战. pytorch 版torch . u t i l s . data import DataLoader 前面说过,Dataset 可以存储自定义数据,我们可以继承 Dataset 类,在子类中实现一些固定 功能的函数,这样就相当于封装了自己的数据为 Dataset 类型。为了方便起见,我们先描述如何 使用预加载数据,然后第二章就开始构建神经网络模型。等第四章我们再描述如何自定义数据集。 我们一次写一个完整的程序来把数据可视化一下: squeeze () , cmap=” gray ” ) plt . show () datasets 是 torchvision 的对象,它返回的数据就是 pytorch 的 Dataset 类型的。 参数 transf orm 表示导出的数据应该怎么转换,我们还可以使用参数 target_transf orm 表 示导出的数据标签应该怎么转换。 注意显示时我们调用了 squeeze() 是对数据的转换,ToTensor() 函数将 PIL 图像或者 NumPy 的 ndarray 转换为 FloatTensor 类型的,并且把图像的每个像素值压缩到 [0.0,1.0] 之间。 target_transf orm 10 1.2. 导入样本数据 是标签的转换,分类中我们需要将标签表示为向量的形式,例如一共有三类,则表示为: [1 0 0] (1.2.1) [0 1 0] (1.2.2) [0 0 1]0 码力 | 29 页 | 1.40 MB | 1 年前3
共 55 条
- 1
- 2
- 3
- 4
- 5
- 6













