机器学习课程-温州大学-10机器学习-聚类主要的无监督学习方法 6 1.无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非 甲状腺疾病的数据集应用无监督学习时,可 以使用聚类算法来识别甲状腺疾病数据集。 8 1.无监督学习方法概述 聚类案例 2.市场细分 为了吸引更多的客户,每家公司都在开发易 于使用的功能和技术。为了了解客户,公司 可以使用聚类。聚类将帮助公司了解用户群 ,然后对每个客户进行归类。这样,公司就 可以了解客户,发现客户之间的相似之处, 并对他们进行分组。 9 1 • 如果有两个高度重叠的数据,那么它就 不能被区分,也不能判断有两个簇; • 欧几里德距离可以不平等的权重因素, 限制了能处理的数据变量的类型; • 有时随机选择质心并不能带来理想的结 果; • 无法处理异常值和噪声数据; • 不适用于非线性数据集; • 对特征尺度敏感; • 如果遇到非常大的数据集,那么 计算机可能会崩溃。 27 3.密度聚类和层次聚类 01 无监督学习概述0 码力 | 48 页 | 2.59 MB | 1 年前3
Keras: 基于 Python 的深度学习库模块化。模型被理解为由独立的、完全可配置的模块构成的序列或图。这些模块可以以尽 可能少的限制组装在一起。特别是神经网络层、损失函数、优化器、初始化方法、激活函 数、正则化方法,它们都是可以结合起来构建新模型的模块。 • 易扩展性。新的模块是很容易添加的(作为新的类和函数),现有的模块已经提供了充足 的示例。由于能够轻松地创建可以提高表现力的新模块,Keras 更加适合高级研究。 • 基于 Python 实现。Keras metrics=['accuracy']) 如果需要,你还可以进一步地配置你的优化器。Keras 的核心原则是使事情变得相当简单, 同时又允许用户在需要的时候能够进行完全的控制(终极的控制是源代码的易扩展性)。 model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.SGD(lr=0 output]) layer_output = get_3rd_layer_output([x])[0] 同样,你可以直接建立一个 Theano 或 TensorFlow 函数。 注 意, 如 果 你 的 模 型 在 训 练 和 测 试 阶 段 有 不 同 的 行 为 (例 如, 使 用 Dropout, BatchNormalization 等),则需要将学习阶段标志传递给你的函数: get_3rd_layer_output0 码力 | 257 页 | 1.19 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112早在 1960 年代就已经被推导出了,但是 并没有应用在神经网络上。1974 年,美国科学家 Paul Werbos 在他的博士论文中第一次提 出可以将 BP 算法应用到神经网络上,遗憾的是,这一成果并没有获得足够重视。直至 1986 年,David Rumelhart 等人在 Nature 上发表了通过 BP 算法来进行表征学习的论文, BP 算法才获得了广泛的关注。 1982 年,随着 John GoogLeNet 系列、ResNet 系列、DenseNet 系列等。ResNet 系列模型将网络的层数提升至数 百层、甚至上千层,同时保持性能不变甚至更优。它算法思想简单,具有普适性,并且效 果显著,是深度学习最具代表性的模型。 除了有监督学习领域取得了惊人的成果,在无监督学习和强化学习领域也取得了巨大 的成绩。2014 年,Ian Goodfellow 提出了生成对抗网络,通过对抗训练的方式学习样本的 11 图 1.15 目标检测效果图 图 1.16 语义分割效果图 视频理解(Video Understanding) 随着深度学习在 2D 图片的相关任务上取得较好的效 果,具有时间维度信息的 3D 视频理解任务受到越来越多的关注。常见的视频理解任务有 视频分类、行为检测、视频主体抽取等。常用的模型有 C3D、TSN、DOVF、TS_LSTM 等。 图片生成(Image0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0与Numpy的ndarray类似。但深度学习框架又比Numpy的ndarray多一些重要功能:首先,GPU很好地支持加 速计算,而NumPy仅支持CPU计算;其次,张量类支持自动微分。这些功能使得张量类更适合深度学习。如 果没有特殊说明,本书中所说的张量均指的是张量类的实例。 2.1.1 入门 本节的目标是帮助读者了解并运行一些在阅读本书的过程中会用到的基本数值计算工具。如果你很难理解一 些数学概念或库函数,请不要 言,用于说明 我们的确定程度,并且它可以有效地应用于广泛的领域中。 2.6.1 基本概率论 假设我们掷骰子,想知道看到1的几率有多大,而不是看到另一个数字。如果骰子是公平的,那么所有六个结 果{1, . . . , 6}都有相同的可能发生,因此我们可以说1发生的概率为 1 6。 然而现实生活中,对于我们从工厂收到的真实骰子,我们需要检查它是否有瑕疵。检查骰子的唯一方法是多 次投掷并记录结果。对于每个骰子,我们将观察到{1 状态(如果阳性,则为1,如 果阴性,则为0)。在 表2.6.1中列出了这样的条件概率。 表2.6.1: 条件概率为P(D1 | H) 条件概率 H = 1 H = 0 P(D1 = 1 | H) 1 0.01 P(D1 = 0 | H) 0 0.99 请注意,每列的加和都是1(但每行的加和不是),因为条件概率需要总和为1,就像概率一样。让我们计算如 果测试出来呈阳性,患者感染HIV的概率,即P(H0 码力 | 797 页 | 29.45 MB | 1 年前3
深度学习在电子商务中的应用基于词语聚类的矢量化模型 12 • 把搜索词和商品文档各自作为整体看待,直接学习训练各自的矢量值 • 通过分析用户每次访问的行为顺序, 构建有“搜索词”和“商品文档”组成的句子 • 训练集是采用苏宁易购的用户搜索日志作为来源。在经过数据清理之后,按照搜索的 时间顺序,结合商品的点击,商品放入购物车,商品的购买这些用户行为,而建立的 矢量化训练数据 小米手机4c, 小米手机4s, 142074410 用户点击日志 用户购物车 日志 用户购买日志 Word2vec模型 计算距离最近 的矢量 产品类别过滤 产品频率过滤 矢量转换回商 品 14 原型评测结果 矢量化搜索引擎与易购传统引擎搜索效果对比 (2016-07-25测试结果) 15 • 该技术不仅召回与搜索词完全匹配的结果,还可召回与搜索词文本不匹配、但含义近似的结果。 效果示例 如:经测评,当搜索词为“松下筒灯”, 是互联网的新开始。--Ted Livingston, CEO of KiK • 聊天机器人将从根本上变革每个用户对人机交互的体验。 --Satya Nadella, Microsoft CEO 18 应用示例:苏宁易购机器人Sunny,百度度秘,Amazon Echo 19 问题分析与用户分析 网页前端 移动应用前端 系统架构图 会话分析 用户意图识别 检索模块 段落或句 子检索 文档检 索0 码力 | 27 页 | 1.98 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博网络复杂度 深度学习应用实践 —— wide & deep • Negative sampling:依据微博的 平均阅读时间进行划分,将用户曝 光但未阅读的微博作为负样本 • 网络复杂度过高易导致过拟合 • 网络深度达到一定数值AUC反而 小幅降低 深度学习应用实践 —— DeepFM User features Relation features Contextual features0 码力 | 21 页 | 2.14 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状 已经实现LR+DNN融合模型的上线,收益较好 受限于线上计算资源,模型复杂度有限 线下训练流程有依赖,繁琐易出错 计划 线上服务拆分,独立出深度学习计算模块,采用低功耗GPU加速 支撑更宽、更深、更复杂的网络结构 采用Wide & Deep,线下训练流程解耦 Wide & Deep …0 码力 | 22 页 | 1.60 MB | 1 年前3
全连接神经网络实战. pytorch 版导入样本数据 download=True , #如 果 根 目 录 没 有 就 下 载 transform=ToTensor () ) test_data = datasets . FashionMNIST( root=” data ” , train=False , #用 来 测 试 的 数 据 download=True , #如 果 根 目 录 没 有 就 下 载 transform=ToTensor training_data = datasets . FashionMNIST( root=” data ” , train=True , #用 来 训 练 的 数 据 download=True , #如 果 根 目 录 没 有 就 下 载 transform=ToTensor () , target_transform=Lambda( lambda y : torch . zeros (10 , dtype=torch NeuralNetwork 内部定义函数: def weight_init ( s e l f ) : #遍 历 网 络 的 每 一 层 fo r m in s e l f . modules () : #如 果 该 层 是 线 性 连 接 层 i f i s i n s t a n c e (m, nn . Linear ) : print (m. weight . shape ) print (m.0 码力 | 29 页 | 1.40 MB | 1 年前3
机器学习课程-温州大学-09机器学习-支持向量机只有高斯核函数是需要调参的。 26 SVM的超参数 ?越大,支持向量越少,? 值越小,支持向量越多。 其中 C是惩罚系数,即对 误差的宽容度。 C越高, 说明越不能容忍出现误差, 容易过拟合。C越小,容 易欠拟合。 4.线性不可分支持向量机 27 总结 下面是一些SVM普遍使用的准则: ?为特征数,?为训练样本数。 (1)如果相较于?而言,?要大许多,即训练集数据量不够支持我们训练一个复0 码力 | 29 页 | 1.51 MB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯n P x(j)|Y = ck ck代表类别,k代表类别个数。 这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减 少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易 于实现。其缺点是分类的性能不一定很高。 11 2.朴素贝叶斯原理 3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测 我们要求的是?(?|?),根据生成模型定义我们可以求?(?0 码力 | 31 页 | 1.13 MB | 1 年前3
共 19 条
- 1
- 2













