聚水潭 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-10机器学习-聚类

1 2023年04月机器学习-聚类黄海广副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述监督学习在一个典型的监督学习中，训练集有标签区分正样本和负样本的决策边界，需要据此拟合一个假设函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签?，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类（Clustering） ✓ 如何将教室里的学生按爱好、身高划分为5类？ ✓ 降维（ Dimensionality Reduction ）无监督学习方法概述主要算法 K-means、密度聚类、层次聚类聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… 7 1.无监督学习方法概述聚类案例 1.医疗医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非

0 码力 | 48 页 | 2.59 MB | 1 年前
3
基于 Greenplum 打造SaaS化电商服务平台

基于GP打造SaaS化电商服务平台聚水潭秃鹰赵坚密 2019.08.10 聚水潭成立于2014年1月，创始人兼CEO骆海东拥有超过二十年传统及电商ERP的研发和实施部署经验，公司核心管理团队来自于阿里巴巴、亚马逊、中国平安和麦包包等知名公司。聚水潭创建之初，以电商SaaS ERP切入市场，凭借出色的产品和服务，快速获得市场领先地位。随着客户需求的不断变化，如今聚水潭已经发展成为以SaaS 1200多人。聚水潭已在全国设立了40多个线下服务分支机构，服务范围覆盖超过268个城市，为客户提供及时、周到和专业的服务。来自阿里巴巴旗下商家服务市场的最新数据显示，聚水潭已是企业 ERP类目中使用商家数最多的软件。自双十一购物节诞生以来，团队经历了每一次电商大促的考验，尽管每年承载单量成几何倍数增加，聚水潭系统依然保持平稳、安全和顺畅地运行。2018年11月11日，聚水潭系统处理订单总量达1 聚水潭系统处理订单总量达1.51亿单，成交额达341亿。聚水潭简介关键字数据架构推送库中间库商品库核心库辅助库推送库中间库商品库核心库辅助库推送库中间库商品库核心库辅助库账号库店铺库其他库业务系统数据仓库 G P 1 G P 2 G P 2 5 交换

0 码力 | 7 页 | 547.94 KB | 1 年前
3
Greenplum机器学习⼯具集和案例

● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚类分析，建⽴立会话识别模型和主题模型 ● 建⽴立scoring pipeline, 对新访问的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对结果进⾏行行更更好地呈现背景抽取会话特征根据原始特征对用户聚类验证聚类结果评分对API请求结合超时和 K-means聚类处理理主题模型对主题进⾏行行K- means聚类 S 标记回话⼈人⼯工审查新会话建模过程 2017.thegiac.com 会话识别 API 请求⽇日志对API请求结合超时和 K-means聚类处理理建模过程 2017 会话1 会话2 会话3 基于时间的会话化时间+聚类 2017.thegiac.com 会话识别 API 请求⽇日志建模过程对API请求结合超时和 K-means聚集处理理 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类建模过程对API请求结合超时和 K-means聚集处理理

0 码力 | 58 页 | 1.97 MB | 1 年前
3
深度学习在电子商务中的应用

论文，并有10多项相关领域的专利。  业余爱好：骑行个人简介电子邮箱： jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索  矢量化搜索技术简介  基于词语聚类的矢量化  基于用户会话的矢量化  原型评测结果及效果示例 • 深度学习与聊天机器人  聊天机器人简介  聊天机器人主要模块及架构  深度学习探索  聊天机器人评测结果 6 • 语义词汇差异 10 基于词语聚类的矢量化模型 • Word2vec等工具可以有效地将词语转化为向量 • 将句子／段落／文章有效转化为向量则有很大的挑战。  简单平均／加权平均容易失去句子等的语义／结构信息  直接以句子为单位进行训练，则训练文本严重不足 • 电商搜索中遇到的主要是句子／短文分析，可以将短文中的词语聚类，挑选具有代表性的词语聚类结果，来表示整个短文 • 传统聚类（如Kmeans)在几何距离的基础上进行聚类，传统聚类（如Kmeans)在几何距离的基础上进行聚类，效果不好。利用随机过程做词语聚类可以解决这一问题 11 具体的生成cluster的流程如图： V[i]: 为产品信息里每个词的词语向量(word vector)分数 C[i]: 为聚类(cluster)的vector分数 N: 为cluster的数目 Sim(I, j): 词语i 与cluster j的余弦相似度 Random: 生成一个0 – 1之间的随机数

0 码力 | 27 页 | 1.98 MB | 1 年前
3
TiDB v5.1 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1547 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 7 升级到了 go1.16.4。如果你是 TiDB 的开发者，为了能保证顺利编译，请对应升级你的 Go 编译器版本。 • 请避免在对使用 TiDB Binlog 的集群进行滚动升级的过程中新创建聚簇索引表。 • 请避免在 TiDB 滚动升级时执行 alter table ... modify column 或 alter table ... change column。 • 当按表构建 TiFlash 计划 #23886 32 – 修复 Plan Cache 中对 PointGet 和 TableDual 错误的重复使用 #23187 #23144 #23304 #23290 – 修复优化器在为聚簇索引构建 IndexMerge 执行计划时出现的错误 #23906 – 修复 BIT 类型相关错误的类型推导 #23832 – 修复某些优化器 Hint 在 PointGet 算子存在时无法生效的问题

0 码力 | 2189 页 | 47.96 MB | 1 年前
3
TiDB v5.2 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1593 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TiDB #18955。 35 索引和约束 5.2 5.1 5.0 4.0 不可见索引 Y Y Y N 复合主键 Y Y Y Y 唯一约束 Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 5.2 5.1 5.0 4.0 SELECT，INSERT，UPDATE，DELETE，REPLACE COPY} 语法只作为一种指定，并不更改 ALTER 算法，详情参阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息，请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引，TiDB 会解析并忽略这些索引。 • 分区表支持 HASH、RANGE、LIST

0 码力 | 2259 页 | 48.16 MB | 1 年前
3
TiDB v5.3 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1659 12.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Y Y Y Y Y Titan 插件 Y Y Y Y Y 不可见索引 Y Y Y Y N 复合主键 Y Y Y Y Y 唯一约束 Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 5.3 5.2 5.1 5.0 4.0 SELECT，INSERT，UPDATE，DELETE，REPLACE COPY} 语法只作为一种指定，并不更改 ALTER 算法，详情参阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息，请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引，TiDB 会解析并忽略这些索引。 • 分区表支持 HASH、RANGE 和

0 码力 | 2374 页 | 49.52 MB | 1 年前
3
TiDB v6.1 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2713 14.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Y Y Y Y Y 不可见索引 Y Y Y Y Y Y Y N 复合主键 Y Y Y Y Y Y Y Y 唯一约束 Y Y Y Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y Y Y Y N 2.3.3 SQL 语句 SQL 语句 2 6.1 6.0 5.4 5.3 5.2 5.1 5.0 4.0 SELECT， COPY} 语法只作为一种指定，并不更改 ALTER 算法，详情参阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息，请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引，TiDB 会解析并忽略这些索引。 • 分区表支持 HASH、RANGE 和

0 码力 | 3572 页 | 84.36 MB | 1 年前
3
TiDB v7.1 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3183 14.11.5 聚簇索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · N 不可见索引 Y Y Y Y Y Y Y Y N 复合主键 Y Y Y Y Y Y Y Y Y 唯一约束 Y Y Y Y Y Y Y Y Y 整型主键上的聚簇索引 Y Y Y Y Y Y Y Y Y 复合或非整型主键上的聚簇索引 Y Y Y Y Y Y Y Y N 多值索引 Y N N N N N N N N 外键约束 E N N N N N N N N TiFlash 延迟物化 COPY} 语法只作为一种指定，并不更改 ALTER 算法，详情参阅ALTER TABLE。 • 不支持添加或删除 CLUSTERED 类型的主键。要了解关于 CLUSTERED 主键的详细信息，请参考聚簇索引。 • 不支持指定不同类型的索引 (HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引，TiDB 会解析并忽略这些索引。 • 分区表支持 HASH、RANGE、LIST

0 码力 | 4369 页 | 98.92 MB | 1 年前
3
机器学习课程-温州大学-Scikit-learn

是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了， scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。还包括了特征提取，数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 01 Scikit-learn概述 02 Scikit-learn主要用法 GradientBoostingRegressor 18 2.Scikit-learn主要用法无监督学习算法 sklearn.cluster模块包含了一系列无监督聚类算法. from sklearn.cluster import KMeans 构建聚类实例 kmeans = KMeans(n_clusters=3, random_state=0) 拟合 kmeans.fit(X_train) 预测 kmeans explained_variance_ratio_) 投影后的特征维度的方差 print(pca.explained_variance_) 20 2.Scikit-learn主要用法无监督学习算法-聚类 DBSCAN 层次聚类谱聚类 cluster.DBSCAN cluster.AgglomerativeClustering cluster.SpectralClustering 21 2.Scikit-learn主要用法

0 码力 | 31 页 | 1.18 MB | 1 年前
3

共 215 条前往

页

机器学习课程温州大学 10 聚类基于 Greenplum 打造 SaaS 电商服务平台服务平台案例深度电子商务电子商务应用 TiDB v5 中文手册 v6 v7 Scikit learn

分类

语言

格式

机器学习课程-温州大学-10机器学习-聚类

基于 Greenplum 打造SaaS化电商服务平台

Greenplum机器学习⼯具集和案例

深度学习在电子商务中的应用

TiDB v5.1 中文手册

TiDB v5.2 中文手册

TiDB v5.3 中文手册

TiDB v6.1 中文手册

TiDB v7.1 中文手册

机器学习课程-温州大学-Scikit-learn