机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台基于GP打造SaaS化电商服务平台 聚水潭 秃鹰 赵坚密 2019.08.10 聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS 1200多人。聚水潭已在全国设立了40多个线下服务分支机构,服务范 围覆盖超过268个城市,为客户提供及时、周到和专业的服务。 来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业 ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队 经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加, 聚水潭系统依然保持平稳、安全和顺畅地运行。2018年11月11日, 聚水潭系统处理订单总量达1 聚水潭系统处理订单总量达1.51亿单,成交额达341亿。 聚水潭简介 关键字 数据架构 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 账 号 库 店 铺 库 其 他 库 业务系统 数据仓库 G P 1 G P 2 G P 2 5 交 换0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum机器学习⼯具集和案例● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 类分析,建⽴立会话 识别模型和主题模 型 ● 建⽴立scoring pipeline, 对新访问 的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对 结果进⾏行行更更好地呈 现 背景 抽取会话特征 根据原始特征 对用户聚类 验证聚 类结果 评分 对API请求结合超时和 K-means聚类处理理 主题模型 对主题进⾏行行K- means聚类 S 标记回话 ⼈人⼯工审查 新会话 建模过程 2017.thegiac.com 会话识别 API 请求 ⽇日志 对API请求结合超时和 K-means聚类处理理 建模过程 2017 会话1 会话2 会话3 基于时间的会话化 时间+聚类 2017.thegiac.com 会话识别 API 请求 ⽇日志 建模过程 对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求 ⽇日志 抽取会话特征 根据原始特征 对用户聚类 建模过程 对API请求结合超时和 K-means聚集处理理0 码力 | 58 页 | 1.97 MB | 1 年前3
深度学习在电子商务中的应用论文,并有10多项相关领域的专利。 业余爱好: 骑行 个人简介 电子邮箱: jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索 矢量化搜索技术简介 基于词语聚类的矢量化 基于用户会话的矢量化 原型评测结果及效果示例 • 深度学习与聊天机器人 聊天机器人简介 聊天机器人主要模块及架构 深度学习探索 聊天机器人评测结果 6 • 语义词汇差异 10 基于词语聚类的矢量化模型 • Word2vec等工具可以有效地将词语转化为向量 • 将句子/段落/文章有效转化为向量则有很大的挑战。 简单平均/加权平均容易失去句子等的语义/结构信息 直接以句子为单位进行训练, 则训练文本严重不足 • 电商搜索中遇到的主要是句子/短文分析, 可以将短文中的词语聚类, 挑选具有代表 性的词语聚类结果, 来表示整个短文 • 传统聚类(如Kmeans)在几何距离的基础上进行聚类, 传统聚类(如Kmeans)在几何距离的基础上进行聚类, 效果不好。 利用随机过程做词 语聚类可以解决这一问题 11 具体的生成cluster的流程如图: V[i]: 为产品信息里每个词的词语向量(word vector)分数 C[i]: 为聚类(cluster)的vector分数 N: 为cluster的数目 Sim(I, j): 词语i 与cluster j的余弦相似度 Random: 生成一个0 – 1之间的随机数0 码力 | 27 页 | 1.98 MB | 1 年前3
TiDB v5.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1547 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 7 升级到了 go1.16.4。如果你是 TiDB 的开发者,为了 能保证顺利编译,请对应升级你的 Go 编译器版本。 • 请避免在对使用 TiDB Binlog 的集群进行滚动升级的过程中新创建聚簇索引表。 • 请避免在 TiDB 滚动升级时执行 alter table ... modify column 或 alter table ... change column。 • 当按表构建 TiFlash 计划 #23886 32 – 修复 Plan Cache 中对 PointGet 和 TableDual 错误的重复使用 #23187 #23144 #23304 #23290 – 修复优化器在为聚簇索引构建 IndexMerge 执行计划时出现的错误 #23906 – 修复 BIT 类型相关错误的类型推导 #23832 – 修复某些优化器 Hint 在 PointGet 算子存在时无法生效的问题0 码力 | 2189 页 | 47.96 MB | 1 年前3
TiDB v5.2 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1593 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TiDB #18955。 35 索引和约束 5.2 5.1 5.0 4.0 不可见索引 Y Y Y N 复合主键 Y Y Y Y 唯一约束 Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 5.2 5.1 5.0 4.0 SELECT,INSERT,UPDATE,DELETE,REPLACE COPY} 语法只作为一种指定,并不更改 ALTER 算法,详情参 阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息,请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引,TiDB 会解析并忽 略这些索引。 • 分区表支持 HASH、RANGE、LIST0 码力 | 2259 页 | 48.16 MB | 1 年前3
TiDB v5.3 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1659 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Y Y Y Y Y Titan 插件 Y Y Y Y Y 不可见索引 Y Y Y Y N 复合主键 Y Y Y Y Y 唯一约束 Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 5.3 5.2 5.1 5.0 4.0 SELECT,INSERT,UPDATE,DELETE,REPLACE COPY} 语法只作为一种指定,并不更改 ALTER 算法,详情参 阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息,请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引,TiDB 会解析并忽 略这些索引。 • 分区表支持 HASH、RANGE 和0 码力 | 2374 页 | 49.52 MB | 1 年前3
TiDB v6.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2713 14.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Y Y Y Y Y 不可见索引 Y Y Y Y Y Y Y N 复合主键 Y Y Y Y Y Y Y Y 唯一约束 Y Y Y Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 6.1 6.0 5.4 5.3 5.2 5.1 5.0 4.0 SELECT, COPY} 语法只作为一种指定,并不更改 ALTER 算法,详情参 阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息,请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引,TiDB 会解析并忽 略这些索引。 • 分区表支持 HASH、RANGE 和0 码力 | 3572 页 | 84.36 MB | 1 年前3
TiDB v7.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3183 14.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · N 不可见索引 Y Y Y Y Y Y Y Y N 复合主键 Y Y Y Y Y Y Y Y Y 唯一约束 Y Y Y Y Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y Y Y Y Y N 多值索引 Y N N N N N N N N 外键约束 E N N N N N N N N TiFlash 延迟物化 COPY} 语法只作为一种指定,并不更改 ALTER 算法,详情参 阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息,请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引,TiDB 会解析并忽 略这些索引。 • 分区表支持 HASH、RANGE、LIST0 码力 | 4369 页 | 98.92 MB | 1 年前3
机器学习课程-温州大学-Scikit-learn是数 据分析师首选的机器学习工具包。 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了, scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学 习算法。还包括了特征提取,数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 01 Scikit-learn概述 02 Scikit-learn主要用法 GradientBoostingRegressor 18 2.Scikit-learn主要用法 无监督学习算法 sklearn.cluster模块包含了一系列无监督聚类算法. from sklearn.cluster import KMeans 构建聚类实例 kmeans = KMeans(n_clusters=3, random_state=0) 拟合 kmeans.fit(X_train) 预测 kmeans explained_variance_ratio_) 投影后的特征维度的方差 print(pca.explained_variance_) 20 2.Scikit-learn主要用法 无监督学习算法-聚类 DBSCAN 层次聚类 谱聚类 cluster.DBSCAN cluster.AgglomerativeClustering cluster.SpectralClustering 21 2.Scikit-learn主要用法0 码力 | 31 页 | 1.18 MB | 1 年前3
共 215 条
- 1
- 2
- 3
- 4
- 5
- 6
- 22













