机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 意义的特征 ➢ 有时能发现更有意义的特征 属性 ➢ 从特征集合中挑选一组具 有明显物理或统计意义的 特征子集 ➢ 能表示出每个特征对于模 型构建的重要性0 码力 | 38 页 | 1.28 MB | 1 年前3
Go在工程实践的错误处理Golang在工程实践中的错误处理 彭友顺 石墨文档 产研负责人 目 录 为什么我们处理错误会这么慢 01 如何完善错误信息 02 优雅处理错误信息 03 分布式错误处理 04 错误信息手册的必要性 05 为什么我们处理错误 会这么慢 第一部分 错误信息不够完善 why 原因 出现 错误 定位 慢 恢复 慢 效率低 为什么我们处理错误会这么慢 错误处理不够优雅0 码力 | 30 页 | 3.11 MB | 1 年前3
Raft在Curve存储中的工程实践0 码力 | 29 页 | 2.20 MB | 6 月前3
7-王刚-Flutter在Now直播中的工程实践应用,参与手机QQ、 NOW直播、腾讯课堂等产 品的Android客户端。 姓名:王刚 英文:Kirawang 职位:腾讯移动端高级工程师 手机QQ NOW直播 分享目录 uNOW直播与Flutter uNOW直播中Flutter的开发模式 uNOW直播中Flutter的工程实践 u技术思考 关于NOW直播 •腾讯出品的个人直播平台 •2016年初上线 •Top3热门个人直播App •Tens uNOW直播中Flutter的工程实践 u技术思考 开发模式 •纯Flutter开发 •不具备条件 Flutter Native Flutter •混合开发 工程化开发模式Ⅰ •IDE直接集成Flutter产出模式 •快速方便集成 无法同步Dart代码 无法启动调试 Android IOS 工程化开发模式Ⅱ • Flutter工程集成NOW工程模式 • 修改NOW工程结构 • 将D 修改编译脚本 • 支持断点调试 无法跨终端同步及维护Dart代码 工程化开发模式Ⅲ • Gradle/CocoaPods依赖管理 • 跨终端团队协作远程构建产出模式 • Dart代码独立GIT • 远程构建平台配置终端推送地址 • 构建完成自动推送更新 QCI 远程构建平台 Android Git iOS Git 工程化开发模式Ⅲ 1. 拉取Dart分支 2. 拉取Android0 码力 | 35 页 | 5.39 MB | 1 年前3
降级预案在同程艺龙的工程实践-王俊翔降级预案在同程艺⻰龙的⼯工程实践 演讲者 / 王俊翔 同程艺龙 ⾃自我介绍 搜索故障 微信⼩小程序 API⽹网关 资源1 搜索引擎 统⼀一资源⽹网关 资源2 资源3 资源4 …… 资源4 ⼤大量量超时 统⼀一资源⽹网关 搜索引擎 API⽹网关 ⼤大量量请求超时 缺乏熔断设计 交易易故障 第三⽅方⽀支付 ⽀支付中⼼心 ⽀支付回写 消息队列列 ⽀支付通知 交易易中台 ,并做好降级预防措施 • 参数修正,及时调整流控、降级策略略,优化告警、超时参数设置 • 模拟线上故障,进⾏行行故障复现,验证故障后续的处理理措施是否⾏行行之有效 • 以战养兵,历练团队,让⼯工程师有更更多机会积累经验,提升应对故障的能⼒力力 常态化的故障演练对系统进⾏行行反复验证 系统设计 Agent Core Custom Code Model Burn CPU Servlet 治 理理保障系统的可⽤用性 • 通过反复的故障演练,发现系统中的薄弱点,并进⾏行行有效的预防 • 配合降级预案,让系统的可靠性更更易易验证,让演练更更加常态化 • 历练团队、积累经验,促进⼯工程师的进步,提⾼高应对故障的能⼒力力 ⾃自我介绍0 码力 | 26 页 | 18.67 MB | 1 年前3
PyConChina2022-杭州-Pants:Python工程化必备构建工具-沈达Pants: Python工程化 必备构建工具 主讲人: 沈达 – 比图科技数据工程师 Pants 2 https://www.pantsbuild.org 面向任意规模代码仓库的高性能、可扩展、用户友好的构建系统。 由 主要实现 用 定义构建 对 支持最好 Pants 1 诞生于推特 Pants 2 涅槃重生 由Toolchain赞助 人生苦短,我用Python 用户 JupyterLab 个人:JupyterLab最佳实践 用户 JupyterLab 痛点:如何快速启动 痛点:如何分享、协作 痛点:如何管理依赖 模版工程 https://github.com/da-tubi/jupyterlab-best-practice 企业项目:多个子项目的Python代码仓库 模版工程 https://github.com/da-tubi/pants-pyspark-subprojects • 可扩展 智能依赖 • 新建子项目简单 • 开发环境和生产环境一致 • 本地缓存(SaaS支持:远程缓存) • 只要没有import,就会智能排除 业余项目:如何分发用Python实现的插件 示例工程 https://github.com/texmacs/plugins-in-python JAR • Executable • Assembly PEX • Executable • Assembly0 码力 | 9 页 | 975.41 KB | 1 年前3
深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 6 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 • 基于性能指标比较几种机 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算 统计数据,以便探索我们的数据。 •目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。 •简而言之,EDA的目标是确定我们的数据可以告诉我们什么! 探索性数据分析(EDA) 11 探索性数据分析(EDA) 单变量图显示此变量的分布 plt.hist()可以显示单变量图,也叫0 码力 | 26 页 | 1.53 MB | 1 年前3
2020美团技术年货 算法篇干 预,才会将最适合用户(指标)的结果展示在大家的眼前。 为了保证良好的用户体验,技术团队对模型预估能力的要求变得越来越高,同时模型 与特征的类型、数量及复杂度也在与日俱增。算法团队如何尽量少地开发和部署上 算法 < 3 线,如何快速进行模型特征的迭代?如何确保良好的预估性能?在线预估框架 Augur 应运而生。经过一段时间的实践,Augur 也有效地满足了算法侧的需求,并成为美团 搜索与 数,有一批输入和输出,我们提供将要预估文档的相关信息输入模型,并根据输出的 值(即模型预估的值)对原有的文档进行排序或者其他处理。 纯粹从一个工程人员视角来看: 模型可以简化为一个公式( 举例:f(x1,x2)= ax1 + bx2 +c ),训练模型是找出最合适的参数 abc。所谓特征,是其中的自变量 x1 与 x2,而模型预估,就是将给定的自变量 x1 与 x2 代入公式,求得一个解而已。(当然 实际模 所以在实际业务场景中,一个模型预估的过程可以分为两个简单的步骤:第一步,特 征抽取(找出 x1 与 x2);第二步,模型预估(执行公式 f,获得最终的结果)。 4 > 美团 2020 技术年货 模型预估很简单,从业务工程的视角来看,无论多复杂,它只是一个计算分数的过 程。对于整个运算的优化,无论是矩阵运算,还是底层的 GPU 卡的加速,业界和美 团内部都有比较好的实践。美团也提供了高性能的 TF-Serving0 码力 | 317 页 | 16.57 MB | 1 年前3
2022年美团技术年货 合辑的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 标准化思想及组装式架构在后端 BFF 中的实践 992 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka 在美团数据平台的实践 1193 美团综合业务推荐系统的质量模型及实践 1218 业务数据治理体系化思考与实践 1233 数据治理一体化实践之体系化建模 T4 上推理速度可达 520 FPS。在部署方面, YOLOv6 支 持 GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、 NCNN)等不同平台的部署,极大地简化工程部署时的适配工作。 目前,项目已开源至 Github,传送门:YOLOv6。欢迎有需要的小伙伴们 Star 收 藏,随时取用。 精度与速度远超 YOLOv5 和 YOLOX 的新框架 目标检0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 703 条
- 1
- 2
- 3
- 4
- 5
- 6
- 71













