机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 4. 特征选择 32 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 原理:包裹式特征选择直接把最终将要使用的学习器的性能作为 特征子集的评价原则。其目的就是为给定学习器选择最有利于其 性能、量身定做的特征子集。 优点:直接针对特定学习器进行优化,考虑到特征之间的关联性 ,因此通常包裹式特征选择比过滤式特征选择能训练得到一个更 好性能的学习器。0 码力 | 38 页 | 1.28 MB | 1 年前3
深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文机器学习算法 数据 已训练模型 预测 训练 预测 深度学习和传统机器学习 输入数据 深度学习算法 输入数据 特征工程 传统机器学习算法 非常耗费时间 以文本分类过程举例,常见 的特征提取算法包括: 词频 TF-IDF 互信息 信息增益 期望交叉熵 主成分分析 … 特征工程需要手工寻找特 征,花费大量人力,特征的 好坏往往决定最终结果 深度学习基础结构 基础神经元结构 多个神经元连接组成神经网络 选择分类器(朴素贝叶斯,SVM,KNN,LR,决 策树) • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求 • 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类 型的关系,那么就采用就近原则来进行配对。 目前这套标签并不支持实体关系重叠的情况。 B-CP-1 O B-CP-2 E-CP-2 O B-CF-1 I-CF-1 O O O I-CF-2 O O 标签: E-CP-1 O0 码力 | 46 页 | 25.61 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人 机器学习可以解决什么问题 11 机器学习发展史 总的来说,人工智能经历了逻辑推理、知识工程、机器 学习三个阶段。 机器学习伴随着人工智能的发展而诞生,它是人工智能 发展到一定阶段的必然产物。 12 机器学习发展史 13 机器学习发展史 14 2. 机器学习的类型 01 −log? ? ? 机器学习的概念-损失函数 23 根据上述损失函数模型,我们可知,损失函数值越小,模型性能越好。给定一个数据集,我们将 训练数据集的平均损失称为经验风险。基于经验风险最小化原则,可构建全局损失函数求解最优 化问题: min ? 1 ? ?=1 ? L ??, ? ?? 机器学习的概念-损失函数 24 当样本数量足够大时,根据大数定理,经验风险会近似于模型的期望风险。此时,经验风险最 写入剪切板 68 Python模块-SciPy ⚫SciPy SciPy是构建在NumPy的基础之上的,它 提供了许多的操作NumPy的数组的函数。 SciPy是一款方便、易于使用、专为科学和 工程设计的Python工具包,它包括了统计 、优化、整合以及线性代数模块、傅里叶 变换、信号和图像图例,常微分方差的求 解等 scipy.cluster 向量量化 scipy.constants0 码力 | 78 页 | 3.69 MB | 1 年前3
动手学深度学习 v2.0一起。应用深度学习需 要同时了解(1)以特定方式提出问题的动机;(2)给定建模方法的数学; (3)将模型拟合数据的优化算法; (4) 能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 functional as F from torch.utils import data from torchvision import transforms 目标受众 本书面向学生(本科生或研究生)、工程师和研究人员,他们希望扎实掌握深度学习的实用技术。因为我们 从头开始解释每个概念,所以不需要过往的深度学习或机器学习背景。全面解释深度学习的方法需要一些数 学和编程,但我们只假设读者了解一些基础 深度学习已经彻底改变了模式识别,引入了一系列技术,包括计算机视觉、自然语言处理、自动语音识 别。 • 要成功地应用深度学习,必须知道如何抛出一个问题、建模的数学方法、将模型与数据拟合的算法,以 及实现所有这些的工程技术。 • 这本书提供了一个全面的资源,包括文本、图表、数学和代码,都集中在一个地方。 • 要回答与本书相关的问题,请访问我们的论坛discuss.d2l.ai5. • 所有Jupyter记事本都可以在GitHub上下载。0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211280, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95]]) 其中的参数−1表示当前轴上长度需要根据张量总元素不变的合法性原则自动推导,从而方 便用户书写。比如,上面的−1可以推导为 2 ∙ 4 ∙ 4 ∙ 3 2 = 48 再次改变数据的视图为[2,3,16],实现如下: In [70]: x.reshape([2 29], [30, 30, 30], [31, 31, 31]],…) 可以看到,在普适性原则的指导下,Broadcasting 机制变得直观、好理解,它的设计是非常 符合人的思维模式。 来考虑一个不满足普适性原则的例子,如下图 4.9 所示。 ? ℎ ? 2 长度为2,不具备普适性 图 4.9 Broadcasting 失败案例 失败案例 在?维度上,张量已经有 2 个特征数据,新 shape 对应维度的长度为?(? ≠ 2,如?=3),那么 当前维度上的这 2 个特征无法普适到长度为 3 的位置上,故不满足普适性原则,无法应用 Broadcasting 机制。将会触发错误,例如: In [88]: B = torch.arange(64).view(32,2) # 创建矩阵 XW = torch.randn(20 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 6 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 • 基于性能指标比较几种机 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 量直方图之间的散点图。 18 3.特征工程 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 19 3.特征工程 特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对 变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码 ,以便它们可以在模型中使用。 一般来说,我认为特征工程是从原始数据 创建附加特征。0 码力 | 26 页 | 1.53 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想基础理论篇:TensorFlow 2 设计思想 • TensorFlow 2 设计原则 • TensorFlow 2 核心模块 • TensorFlow 2 vs TensorFlow 1.x • TensorFlow 2 落地应用 目录 TensorFlow 2 设计原则 TensorFlow - Infra of AI TensorFlow 2 设计原则 TensorFlow 2 简化概念 海纳百川 构建生态0 码力 | 40 页 | 9.01 MB | 1 年前3
阿里云上深度学习建模实践-程孟力• 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的黑盒: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片,0 码力 | 40 页 | 8.51 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型 点击模型 阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识 • categorical特征 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据 自解释特征 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 为什么选择深度学习 Ø 线性CTR模型 • 优势:简单高效、可解释性强 • 局限性:特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型(DNN based model) loss 深度学习应用实践 —— wide & deep Ø Wide & deep 网络架构 • Deep—泛化能力 • Wide—记忆能力 Ø 新增特征 Ø Deep部分依然需要特征工程 • Contextual featues: 用户最 近的平均阅读时长、用户最近 的互动微博 • Wide输入 • conitnues特征离散化 + 手动交叉特征 • Deep输入 • conitnues特征离散化0 码力 | 21 页 | 2.14 MB | 1 年前3
共 24 条
- 1
- 2
- 3













