机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
深度学习在电子商务中的应用论文,并有10多项相关领域的专利。 业余爱好: 骑行 个人简介 电子邮箱: jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索 矢量化搜索技术简介 基于词语聚类的矢量化 基于用户会话的矢量化 原型评测结果及效果示例 • 深度学习与聊天机器人 聊天机器人简介 聊天机器人主要模块及架构 深度学习探索 聊天机器人评测结果 6 • 语义词汇差异 10 基于词语聚类的矢量化模型 • Word2vec等工具可以有效地将词语转化为向量 • 将句子/段落/文章有效转化为向量则有很大的挑战。 简单平均/加权平均容易失去句子等的语义/结构信息 直接以句子为单位进行训练, 则训练文本严重不足 • 电商搜索中遇到的主要是句子/短文分析, 可以将短文中的词语聚类, 挑选具有代表 性的词语聚类结果, 来表示整个短文 • 传统聚类(如Kmeans)在几何距离的基础上进行聚类, 传统聚类(如Kmeans)在几何距离的基础上进行聚类, 效果不好。 利用随机过程做词 语聚类可以解决这一问题 11 具体的生成cluster的流程如图: V[i]: 为产品信息里每个词的词语向量(word vector)分数 C[i]: 为聚类(cluster)的vector分数 N: 为cluster的数目 Sim(I, j): 词语i 与cluster j的余弦相似度 Random: 生成一个0 – 1之间的随机数0 码力 | 27 页 | 1.98 MB | 1 年前3
机器学习课程-温州大学-Scikit-learn是数 据分析师首选的机器学习工具包。 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了, scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学 习算法。还包括了特征提取,数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 01 Scikit-learn概述 02 Scikit-learn主要用法 GradientBoostingRegressor 18 2.Scikit-learn主要用法 无监督学习算法 sklearn.cluster模块包含了一系列无监督聚类算法. from sklearn.cluster import KMeans 构建聚类实例 kmeans = KMeans(n_clusters=3, random_state=0) 拟合 kmeans.fit(X_train) 预测 kmeans explained_variance_ratio_) 投影后的特征维度的方差 print(pca.explained_variance_) 20 2.Scikit-learn主要用法 无监督学习算法-聚类 DBSCAN 层次聚类 谱聚类 cluster.DBSCAN cluster.AgglomerativeClustering cluster.SpectralClustering 21 2.Scikit-learn主要用法0 码力 | 31 页 | 1.18 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统我一锅大杂烩 我高内聚高抽象 我装起来都费劲 我一键安装 我运行起来一堆问题 我小白都能稳定运行 我一堆模块 我大道至简海纳百川 不求最好,但求最贵 优秀还便宜 你真的需要虚拟机?真的需要 IaaS 层? PaaS SaaS 有本质区别?鸭式辩型忘记了? 云里面,一切皆应用才是王道。 系统架构与设计理念 通用的系统管理入口 所有应用自由安装卸载 极简、高内聚、高度抽象 提供最基础的核心能力 CLI Desktop 裸金属 AWS 阿里云 更多······ boot 集群镜像 租户管理 应用管理 函数计算 消息队列 数据库 缓存 计算驱动 网络驱动 存储驱动 自由组装 内聚解耦 化整为零 大道至简 sealos 的能力 • 10 秒上线一个自带域名和 https 的 nginx 应用 • 其它应用同理如博客系统 低代 码平台等 java/go/python/node0 码力 | 29 页 | 7.64 MB | 9 月前3
25-云原生应用可观测性实践-向阳中心云 如果你的业务运行在混合云、边缘云上 佄撰匿坱 撰匿坱 岒剱翍 岒剱翍 岒剱翍 屙聚 192.168.0.0/24 屙聚 192.168.1.0/24 ACL ACL 軸瘺 VPC供腝 峂坱 On VM 鋐韏坱 VPC 192.168.0.0/16 Workload 鋐韏坱 峂坱 On VM 鋐韏坱 創栒侚 伜栒聚翥 ESXi 鋐韏坱 KVM 鋐韏坱 峂坱 鋐韏坱 Region X事佄呃壨 AZ 10 码力 | 39 页 | 8.44 MB | 6 月前3
机器学习课程-温州大学-10深度学习-人脸识别与风格迁移有一个K个人的人脸数据库 • 获取输入图像 • 如果图像是K个人中的某人(或不认识) • 输入图片,以及某人的ID或者是名字 • 验证输入图片是否是这个人 人脸聚类(Face Clustering) 在数据库中对人脸进行聚类, 直接K-Means即可。 5 1.人脸识别概述 人脸检测的步骤 • 人脸定位 确定是否存在人脸,人脸存在的位置、范围等 • 人脸对齐 把众多人脸图像转换到一个统一角度和姿势0 码力 | 34 页 | 2.49 MB | 1 年前3
Service Mesh 微服务架构设计Service Mesh微服务设计 4 Service Mesh的框架介绍微服务设计的最佳实践 数据独立存储 保持代码高内聚 低耦合的服务 容器化发布 服务是无状态的微服务如何切分 DDD限界上下文 低耦合的服务设计方法论:DDD战略建模4步搞定微服务的划分保持代码高内聚的方法论:DDD战术建模Service Mesh将会是微服务设计的更好方式Service Mesh的核心价值 实现 业务逻辑0 码力 | 36 页 | 26.53 MB | 6 月前3
MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory tall arrays ▪ 自动将数据分解成适合内存的小 “块”(chunk) ▪ 计算过程中,一次处理一个“块”(chunk)0 码力 | 17 页 | 1.64 MB | 1 年前3
万亿级数据洪峰下的消息引擎Apache RocketMQApache RocketMQ MetaQ RocketMQ Notify Aliware MQ 有序消息,Pull模式, 海量消息堆积能力 阿里云售卖的消息中间件, 支持公有云,金融云,私 有云,聚石塔 事务消息,Push模式, 交易核心消息分发 阿里消息中间件现状 CONTENTS 01 02 03 阿里消息中间件的演变历史 双11万亿级数据洪峰的挑战 Apache RocketMQ0 码力 | 35 页 | 993.29 KB | 1 年前3
万亿级数据洪峰下的消息引擎 Apache RocketMQApache RocketMQ MetaQ RocketMQ Notify Aliware MQ 有序消息,Pull模式, 海量消息堆积能力 阿里云售卖的消息中间件, 支持公有云,金融云,私 有云,聚石塔 事务消息,Push模式, 交易核心消息分发 阿里消息中间件现状 CONTENTS 01 02 03 阿里消息中间件的演变历史 双11万亿级数据洪峰的挑战 Apache RocketMQ0 码力 | 35 页 | 5.82 MB | 1 年前3
共 21 条
- 1
- 2
- 3













