 机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 Learning. Stanford University 2. 《统计学习方法》,清华大学出版社,李航著,2019年出版 3. 《机器学习》,清华大学出版社,周志华著,2016年出版 4. 《特征工程及 XGBoost模型》,武汉理工大学课件 38 谢 谢!0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 Learning. Stanford University 2. 《统计学习方法》,清华大学出版社,李航著,2019年出版 3. 《机器学习》,清华大学出版社,周志华著,2016年出版 4. 《特征工程及 XGBoost模型》,武汉理工大学课件 38 谢 谢!0 码力 | 38 页 | 1.28 MB | 1 年前3
 深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3 深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
 阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景  OCR识别  人脸核身  智能风控  自动驾驶  语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化?0 码力 | 40 页 | 8.51 MB | 1 年前3 阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景  OCR识别  人脸核身  智能风控  自动驾驶  语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化?0 码力 | 40 页 | 8.51 MB | 1 年前3
 机器学习课程-温州大学-05深度学习-深度学习实践1 2023年03月 深度学习-深度学习实践 黄海广 副教授 2 01 数据集划分 02 数据集制作 03 数据归一化/标准化 04 正则化 05 偏差和方差 本章目录 3 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集( Dev0 码力 | 19 页 | 1.09 MB | 1 年前3 机器学习课程-温州大学-05深度学习-深度学习实践1 2023年03月 深度学习-深度学习实践 黄海广 副教授 2 01 数据集划分 02 数据集制作 03 数据归一化/标准化 04 正则化 05 偏差和方差 本章目录 3 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集( Dev0 码力 | 19 页 | 1.09 MB | 1 年前3
 机器学习课程-温州大学-05机器学习-机器学习实践1 2022年02月 机器学习-机器学习实践 黄海广 副教授 2 01 数据集划分 02 评价指标 03 正则化、偏差和方差 本章目录 3 01 数据集划分 02 评价指标 1.数据集划分 03 正则化、偏差和方差 4 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。0 码力 | 33 页 | 2.14 MB | 1 年前3 机器学习课程-温州大学-05机器学习-机器学习实践1 2022年02月 机器学习-机器学习实践 黄海广 副教授 2 01 数据集划分 02 评价指标 03 正则化、偏差和方差 本章目录 3 01 数据集划分 02 评价指标 1.数据集划分 03 正则化、偏差和方差 4 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。0 码力 | 33 页 | 2.14 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波微博在线机器学习和深度学习实践 黄波 @黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 x2……,xn) 模型服务 特征服务 微博机器学习平台 灰度系统 3 平台效果 • 成本/效率 建设平台(业务A) 业务开发 模型开发 特征工程 建设 平台 接入平台(业务B) 接入 平台 业务开发 模型开发 特征工程 3 平台效果 总结篇 SUMMARY 微博技术里程碑和业务生态 13 2008年 Hadoop 2009年 微博Feed 2011年 开放平台0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波微博在线机器学习和深度学习实践 黄波 @黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 x2……,xn) 模型服务 特征服务 微博机器学习平台 灰度系统 3 平台效果 • 成本/效率 建设平台(业务A) 业务开发 模型开发 特征工程 建设 平台 接入平台(业务B) 接入 平台 业务开发 模型开发 特征工程 3 平台效果 总结篇 SUMMARY 微博技术里程碑和业务生态 13 2008年 Hadoop 2009年 微博Feed 2011年 开放平台0 码力 | 36 页 | 16.69 MB | 1 年前3
 华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容:  买没几天就降价一点都不开心,闪存跑分就五百多点点 ---  外观漂亮音质不错,现在电子产品基本上都是华为的了 ---  汽车不错,省油,性价比高 ---  这个政策好啊,利国利民 ---0 码力 | 23 页 | 1.80 MB | 1 年前3 华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容:  买没几天就降价一点都不开心,闪存跑分就五百多点点 ---  外观漂亮音质不错,现在电子产品基本上都是华为的了 ---  汽车不错,省油,性价比高 ---  这个政策好啊,利国利民 ---0 码力 | 23 页 | 1.80 MB | 1 年前3
 Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf0 码力 | 24 页 | 9.60 MB | 1 年前3 Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf0 码力 | 24 页 | 9.60 MB | 1 年前3
 QCon2018北京-基于深度学习的视频结构化实践-姚唐仁《基于深度学习的视频结构化实践》 七牛云 AI实验室首席架构师/姚唐仁� • 围绕海量数据提供创新的云服务,帮助客户缩短想法到产品的距离 • 创立6年,每年超过300%的业绩增长 • 已完成5轮融资,累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 人物信息结构化 C� ���� ���� ���� 上下文&知识图谱 实践 人脸结构化 ü ����� ü �� ü ����� ü ����� 物体识别 �� �� 物体结构化 ����� 0.1s� 0.5s� 1s� 2s� 实践 场景识别 ���� 实践 �� �� or� 场景结构化 声音识别 ����� ���� ������0 码力 | 39 页 | 38.01 MB | 1 年前3 QCon2018北京-基于深度学习的视频结构化实践-姚唐仁《基于深度学习的视频结构化实践》 七牛云 AI实验室首席架构师/姚唐仁� • 围绕海量数据提供创新的云服务,帮助客户缩短想法到产品的距离 • 创立6年,每年超过300%的业绩增长 • 已完成5轮融资,累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 人物信息结构化 C� ���� ���� ���� 上下文&知识图谱 实践 人脸结构化 ü ����� ü �� ü ����� ü ����� 物体识别 �� �� 物体结构化 ����� 0.1s� 0.5s� 1s� 2s� 实践 场景识别 ���� 实践 �� �� or� 场景结构化 声音识别 ����� ���� ������0 码力 | 39 页 | 38.01 MB | 1 年前3
 QCon北京2018-《深度学习在微博信息流排序的应用》-刘博深度学习在微博Feed流应用实践 刘博 新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • 点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型 点击模型 阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识 • categorical特征0 码力 | 21 页 | 2.14 MB | 1 年前3 QCon北京2018-《深度学习在微博信息流排序的应用》-刘博深度学习在微博Feed流应用实践 刘博 新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • 点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型 点击模型 阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识 • categorical特征0 码力 | 21 页 | 2.14 MB | 1 年前3
共 32 条
- 1
- 2
- 3
- 4













