 机器学习课程-温州大学-07机器学习-决策树1 2023年06月 机器学习-决策树 黄海广 副教授 2 本章目录 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 3 1.决策树原理 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 4 长相 能 帅 不帅 家庭背景 好 能 不好 人品 好 上进心 能 不能 有 有 无 不能 不好 1.决策树原理 ⚫ 决策树:从训练数据中学习得出一个树状 结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 node) 5 1.决策树原理 根节点 (root node) 非叶子节点 (non-leaf node) (代表测试条件,对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。0 码力 | 39 页 | 1.84 MB | 1 年前3 机器学习课程-温州大学-07机器学习-决策树1 2023年06月 机器学习-决策树 黄海广 副教授 2 本章目录 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 3 1.决策树原理 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 4 长相 能 帅 不帅 家庭背景 好 能 不好 人品 好 上进心 能 不能 有 有 无 不能 不好 1.决策树原理 ⚫ 决策树:从训练数据中学习得出一个树状 结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 node) 5 1.决策树原理 根节点 (root node) 非叶子节点 (non-leaf node) (代表测试条件,对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。0 码力 | 39 页 | 1.84 MB | 1 年前3
 基于Consul的多Beats接入管控与多ES搜索编排1 梁成 腾讯云, barryliang@tencent.com 基于Consul的多Beats接入 管控与多ES搜索编排 2 拥抱开源、释放云原生的力量 • 背景与挑战 • 多Beats/Logstash接入管控 • 多ES搜索编排系统 • 日志AIOps探索 3 背景与挑战 产品数量 人员规模 主机规模 100+ 1000 + 10000 + 如何降低日志接入门槛 性 15 多ES搜索编排系统 提供多ES多索引搜索编排功能,帮助 业务快速定位异常 16 故障定位遇到的困扰 客服 产品 运维 研发 多es切换 系统切换 采集 高负载 合作伙伴 OthersDB 17 案例:非APM场景下多组件日志搜索探索 ES/ OtherDB 多集群 多索引 上下文 搜索 Kibana 导航 搜索编 排 异常知 识库0 码力 | 23 页 | 6.65 MB | 1 年前3 基于Consul的多Beats接入管控与多ES搜索编排1 梁成 腾讯云, barryliang@tencent.com 基于Consul的多Beats接入 管控与多ES搜索编排 2 拥抱开源、释放云原生的力量 • 背景与挑战 • 多Beats/Logstash接入管控 • 多ES搜索编排系统 • 日志AIOps探索 3 背景与挑战 产品数量 人员规模 主机规模 100+ 1000 + 10000 + 如何降低日志接入门槛 性 15 多ES搜索编排系统 提供多ES多索引搜索编排功能,帮助 业务快速定位异常 16 故障定位遇到的困扰 客服 产品 运维 研发 多es切换 系统切换 采集 高负载 合作伙伴 OthersDB 17 案例:非APM场景下多组件日志搜索探索 ES/ OtherDB 多集群 多索引 上下文 搜索 Kibana 导航 搜索编 排 异常知 识库0 码力 | 23 页 | 6.65 MB | 1 年前3
 Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf��������������� ������� 目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征 视频搜索的挑战 1�����/���——���� 2����/�����——���� 3������——������ ��������������� 1������������0 码力 | 24 页 | 9.60 MB | 1 年前3 Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf��������������� ������� 目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征 视频搜索的挑战 1�����/���——���� 2����/�����——���� 3������——������ ��������������� 1������������0 码力 | 24 页 | 9.60 MB | 1 年前3
 深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3 深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . 375 9.8 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 9.8.1 贪心搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 9.8.2 穷举搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 9.8.3 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . ng)的。就像在现实生活中,尽管模拟考试考得很好,真正的考 试不一定百发百中。 1.2.4 优化算法 当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出 最佳参数,以最小化损失函数。深度学习中,大多流行的优化算法通常基于一种基本方法–梯度下降(gradient descent)。简而言之,在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进行少量变动,训0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . 375 9.8 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 9.8.1 贪心搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 9.8.2 穷举搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 9.8.3 束搜索 . . . . . . . . . . . . . . . . . . . . . . . . . ng)的。就像在现实生活中,尽管模拟考试考得很好,真正的考 试不一定百发百中。 1.2.4 优化算法 当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出 最佳参数,以最小化损失函数。深度学习中,大多流行的优化算法通常基于一种基本方法–梯度下降(gradient descent)。简而言之,在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进行少量变动,训0 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-06机器学习-KNN算法2021年04月 机器学习-KNN算法 黄海广 副教授 2 01 距离度量 02 KNN算法 本章目录 03 KD树划分 04 KD树搜索 3 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 1.距离度量 4 距离度量 欧氏距离(Euclidean distance) ? ?, ? =  ? ?? − ∥ = σ?=1 ? ?? × ?? σ?=1 ? ( ??)2 × σ?=1 ? ( ??)2 10 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 3.K-D-Tree划分 15 KD树划分 KD树(K-Dimension Tree),,也可称之为K维树 ,可以用更高的效率来对空间进行划分,并且其 结构非常适合寻找最近邻居和碰撞检测。 假设有 6 个二维数据点,构建KD树的过程: ? = (2,3), (5,7), (9,6), (40 码力 | 26 页 | 1.60 MB | 1 年前3 机器学习课程-温州大学-06机器学习-KNN算法2021年04月 机器学习-KNN算法 黄海广 副教授 2 01 距离度量 02 KNN算法 本章目录 03 KD树划分 04 KD树搜索 3 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 1.距离度量 4 距离度量 欧氏距离(Euclidean distance) ? ?, ? =  ? ?? − ∥ = σ?=1 ? ?? × ?? σ?=1 ? ( ??)2 × σ?=1 ? ( ??)2 10 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 3.K-D-Tree划分 15 KD树划分 KD树(K-Dimension Tree),,也可称之为K维树 ,可以用更高的效率来对空间进行划分,并且其 结构非常适合寻找最近邻居和碰撞检测。 假设有 6 个二维数据点,构建KD树的过程: ? = (2,3), (5,7), (9,6), (40 码力 | 26 页 | 1.60 MB | 1 年前3
 超大规模深度学习在美团的应用-余建平自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据: 美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集  模型并行 —— 支持超大规模模型0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据: 美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集  模型并行 —— 支持超大规模模型0 码力 | 41 页 | 5.96 MB | 1 年前3
 机器学习课程-温州大学-Scikit-learnpredict(X_test) LASSO linear_model.Lasso Ridge linear_model.Ridge ElasticNet linear_model.ElasticNet 回归树 tree.DecisionTreeRegressor 15 2.Scikit-learn主要用法 监督学习算法-分类 from sklearn.tree import DecisionTreeClassifier clf.fit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model.LogisticRegression scoring=’f1_weighted’) 使用5折交叉验证对决策树模型进行评估, 使用的评分函数为F1值 sklearn提供了部分带交叉验证功能的模型 类如LassoCV、LogisticRegressionCV等, 这些类包含cv参数 26 2.Scikit-learn主要用法 交叉验证及超参数调优 超参数调优⸺网格搜索 from sklearn.model_selection import0 码力 | 31 页 | 1.18 MB | 1 年前3 机器学习课程-温州大学-Scikit-learnpredict(X_test) LASSO linear_model.Lasso Ridge linear_model.Ridge ElasticNet linear_model.ElasticNet 回归树 tree.DecisionTreeRegressor 15 2.Scikit-learn主要用法 监督学习算法-分类 from sklearn.tree import DecisionTreeClassifier clf.fit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model.LogisticRegression scoring=’f1_weighted’) 使用5折交叉验证对决策树模型进行评估, 使用的评分函数为F1值 sklearn提供了部分带交叉验证功能的模型 类如LassoCV、LogisticRegressionCV等, 这些类包含cv参数 26 2.Scikit-learn主要用法 交叉验证及超参数调优 超参数调优⸺网格搜索 from sklearn.model_selection import0 码力 | 31 页 | 1.18 MB | 1 年前3
 OpenShift Container Platform 4.13 认证和授权身份验证 在身份验证过程中,搜索 LDAP 目录中与提供的用户名匹配的条目。如果找到一个唯一匹配项,则尝试使 用该条目的可分辨名称 (DN) 以及提供的密码进行简单绑定。 执行下面这些步骤: 1. 通过将配置的 url 中的属性和过滤器与用户提供的用户名组合来生成搜索过滤器。 2. 使用生成的过滤器搜索目录。如果搜索返回的不是一个条目,则拒绝访问。 3. 尝试使用搜索所获条目的 DN 和用户提供的密码绑定到 如果绑定失败,则拒绝访问。 5. 如果绑定成功,则将配置的属性用作身份、电子邮件地址、显示名称和首选用户名来构建一个身 份。 配置的 url 是 RFC 2255 URL,指定要使用的 LDAP 主机和搜索参数。URL 的语法是: ldap://host:port/basedn?attribute?scope?filter $ oc apply -f $ oc login localhost:636。 basedn 所有搜索都应从中开始的目录分支的 DN。至少,这必须是目录树的顶端,但也可指定目 录中的子树。 attribute 要搜索的属性。虽然 RFC 2255 允许使用逗号分隔属性列表,但无论提供多少个属性,都 仅使用第一个属性。如果没有提供任何属性,则默认使用 uid。建议选择一个在您使用的 子树中的所有条目间是唯一的属性。 scope 搜索的范围。可以是 one 或 sub。如果未提供范围,则默认使用0 码力 | 201 页 | 2.74 MB | 1 年前3 OpenShift Container Platform 4.13 认证和授权身份验证 在身份验证过程中,搜索 LDAP 目录中与提供的用户名匹配的条目。如果找到一个唯一匹配项,则尝试使 用该条目的可分辨名称 (DN) 以及提供的密码进行简单绑定。 执行下面这些步骤: 1. 通过将配置的 url 中的属性和过滤器与用户提供的用户名组合来生成搜索过滤器。 2. 使用生成的过滤器搜索目录。如果搜索返回的不是一个条目,则拒绝访问。 3. 尝试使用搜索所获条目的 DN 和用户提供的密码绑定到 如果绑定失败,则拒绝访问。 5. 如果绑定成功,则将配置的属性用作身份、电子邮件地址、显示名称和首选用户名来构建一个身 份。 配置的 url 是 RFC 2255 URL,指定要使用的 LDAP 主机和搜索参数。URL 的语法是: ldap://host:port/basedn?attribute?scope?filter $ oc apply -f $ oc login localhost:636。 basedn 所有搜索都应从中开始的目录分支的 DN。至少,这必须是目录树的顶端,但也可指定目 录中的子树。 attribute 要搜索的属性。虽然 RFC 2255 允许使用逗号分隔属性列表,但无论提供多少个属性,都 仅使用第一个属性。如果没有提供任何属性,则默认使用 uid。建议选择一个在您使用的 子树中的所有条目间是唯一的属性。 scope 搜索的范围。可以是 one 或 sub。如果未提供范围,则默认使用0 码力 | 201 页 | 2.74 MB | 1 年前3
 机器学习课程-温州大学-12机器学习-关联规则缩到一棵频繁模式树(FP-Tree), 但仍保留项集关联信息。 该算法是对Apriori方法的改进。生成一个频繁模式而不需要生成候选模式。 FP-growth算法以树的形式表示数据库,称为频繁模式树或FP-tree。 此树结构将保持项集之间的关联。数据库使用一个频繁项进行分段。这个片段被称 为“模式片段”。分析了这些碎片模式的项集。因此,该方法相对减少了频繁项集 的搜索。 27 3 算法发现频繁项集的过程是: (1)构建FP树; (2)从FP树中挖掘频繁项集。 28 3.FP-Growth算法 FP-growth算法思想 该算法和Apriori算法最大的不同有两点: 第一,不产生候选集 第二,只需要两次遍历数据库,大大提高了效率。 29 3.FP-Growth算法 FP-Tree ( Frequent Pattern Tree ) FP树(FP-Tree)是由数据库的初始项集组成的树状结构。 FP树(FP-Tree)是由数据库的初始项集组成的树状结构。 FP树的目的是挖掘最 频繁的模式。FP树的每个节点表示项集的一个项。 根节点表示null,而较低的节点表示项集。在形成树的同时,保持节点与较 低节点(即项集与其他项集)的关联。 30 3.FP-Growth算法 算法步骤 FP-growth算法的流程为: 首先构造FP树,然后利用它来挖掘频繁项集。 在构造FP树时,需要对数据集扫描两遍, 第一遍扫描用来统计频率,第二遍扫描至考虑频繁项集。0 码力 | 49 页 | 1.41 MB | 1 年前3 机器学习课程-温州大学-12机器学习-关联规则缩到一棵频繁模式树(FP-Tree), 但仍保留项集关联信息。 该算法是对Apriori方法的改进。生成一个频繁模式而不需要生成候选模式。 FP-growth算法以树的形式表示数据库,称为频繁模式树或FP-tree。 此树结构将保持项集之间的关联。数据库使用一个频繁项进行分段。这个片段被称 为“模式片段”。分析了这些碎片模式的项集。因此,该方法相对减少了频繁项集 的搜索。 27 3 算法发现频繁项集的过程是: (1)构建FP树; (2)从FP树中挖掘频繁项集。 28 3.FP-Growth算法 FP-growth算法思想 该算法和Apriori算法最大的不同有两点: 第一,不产生候选集 第二,只需要两次遍历数据库,大大提高了效率。 29 3.FP-Growth算法 FP-Tree ( Frequent Pattern Tree ) FP树(FP-Tree)是由数据库的初始项集组成的树状结构。 FP树(FP-Tree)是由数据库的初始项集组成的树状结构。 FP树的目的是挖掘最 频繁的模式。FP树的每个节点表示项集的一个项。 根节点表示null,而较低的节点表示项集。在形成树的同时,保持节点与较 低节点(即项集与其他项集)的关联。 30 3.FP-Growth算法 算法步骤 FP-growth算法的流程为: 首先构造FP树,然后利用它来挖掘频繁项集。 在构造FP树时,需要对数据集扫描两遍, 第一遍扫描用来统计频率,第二遍扫描至考虑频繁项集。0 码力 | 49 页 | 1.41 MB | 1 年前3
共 112 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12














