机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排0 码力 | 22 页 | 6.76 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . 10 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: . . . . . . . . . . . . 11 3.1.5.2 基于多层感知器的二分类: . . . . . . . . . . . . . . . . . . . . . . 12 3.1.5.3 类似 VGG 的卷积神经网络: . . . . . . . . . . . . . 3.1 Model 类 API . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.2 Model 的实用属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3 Model 类模型方法 . . . . . . . . . . . . . . . 125 6.3.1 ImageDataGenerator 类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3.2 ImageDataGenerator 类方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 1290 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 残差网络(ResNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块 4.2 有隐状态的循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 8.4.3 基于循环神经网络的字符级语言模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 315 8.4.4 困惑度(Perplexity) . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021129 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9 逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial Intelligence,简称 AI)是有 望解决此问题的关键技术。 随着深度学习算法的崛起,人工智能在部分任务上取得了类人甚至超人的智力水平, 如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁,在 Dota2 游戏上 OpenAI Five 智能程序击败世界冠军队伍 OG,同时人脸识别、智能语音、机器翻译等一项 icial General Intelligence,简称 AGI)还有一 段距离,我们仍坚定地相信人工智能时代已经来临。 机器学习是人工智能的一个重要研究领域,而深度学习则是近几年最为火热的一类人 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-时间序列总结mp(Series派生的子 类)对象表示。 该对象与datetime具有高度的兼容性,可以直接通过 to_datetime()函数将datetime转换为TimeStamp对象。 pd.to_datetime('20180828') 9 创建时间序列 如果传入的是多个datetime组成的列表,则Pandas会 将其强制转换为DatetimeIndex类对象。 date_index normalize=True, tz='Asia/Hong_Kong') 25 时间序列的频率、偏移量 默认生成的时间序列数据是按天计算的,即 频率为“D”。 • “D”是一个基础频率,通过用一个字符串 的别名表示,比如“D”是“day”的别名 。 • 频率是由一个基础频率和一个乘数组成的 ,比如,“5D”表示每5天。 26 时间序列的频率、偏移量 通过一张表来列举时 间序列的基础频率。 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA 33 创建时期对象 pd.Period(2018) 创建Period类对象的方式比较简单,只需要在构造 方法中以字符串或整数的形式传入一个日期即可。 Period类表示一个标准的时间段或时期,比 如某年、某月、某日、某小时等。 pd.Period('2017/6') 34 创建时期对象 Period对象能够参与数学运算。如果Period0 码力 | 67 页 | 1.30 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言回归(Regression、Prediction) ✓ 如何预测上海浦东的房价? ✓ 未来的股票市场走向? 2. 机器学习的类型-监督学习 17 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的 空间中? 2. 机器学习的类型-无监督学习 安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 54 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 55 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言由于90%的医疗数据都是基于图像的,因此医 学中的计算机视觉有很多用途。比如启用新的 医疗诊断方法,分析X射线,乳房X光检查,监 测患者等。 13 深度学习入门-目标检测 目标检测结合了目标分 类和定位两个任务。 目标检测器的框架分为 one-stage(YOLO,YOLO9000,YOLOV3,YOLOV4, YOLOV5,SSD等) two-stage(OverFeat,R-CNN,Fast 安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。0 码力 | 80 页 | 5.38 MB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别。 由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭 曲变形是为了避免被光学字符识别(OCR, Optical Character Recognition)之类的计算机程 序自动识别出图片上的文数字而失去效果。由于这个测试是由计算机来考人类,而不是 标准图灵测试中那样由人类 交叉熵(Cross-Entropy, CE) 我们使用交叉熵作为该模型的损失函数。 虽然 Categorical / Binary CE 是更常用的损失函数,不过他们都是 CE 的变体。 CE 定义如下: 对于二分类问题 (C‘=2) ,CE 定义如下: Categorical CE Loss(Softmax Loss) 常用于输出为 One-hot 向量的多类别分类(Multi-Class Classification)模型。0 码力 | 51 页 | 2.73 MB | 1 年前3
AI大模型千问 qwen 中文文档shard_size="4GB") tokenizer.save_pretrained(quant_path) 然后你就可以得到一个可以用于部署的 AWQ 量化模型。玩得开心! 1.8 GPTQ GPTQ 是一种针对类 GPT 大型语言模型的量化方法,它基于近似二阶信息进行一次性权重量化。在本文 档中,我们将向您展示如何使用 transformers 库加载并应用量化后的模型,同时也会指导您如何通过 AutoGPTQ 或 assistant ,表示消息的角色;content 则是消息的文本内容。而 source 字 段代表了数据来源,可能包括 self-made 、alpaca 、open-hermes 或其他任意字符串。 你需要用 json 将一个字典列表存入 jsonl 文件中: import json with open('data.jsonl', 'w') as f: for sample in samples: "gate_proj", "down_proj", ] ) lora_weight_path: str = "" lora_bias: str = "none" q_lora: bool = False 参数类允许你为模型、数据和训练指定超参数,如果使用 LoRA 或 Q-LoRA 训练模型,还会包含这两个方法 的相关超参数。具体来说,model-max-length 是一个关键的超参数,它决定了训练数据的最大序列长度。0 码力 | 56 页 | 835.78 KB | 1 年前3
共 48 条
- 1
- 2
- 3
- 4
- 5













