机器学习课程-温州大学-机器学习项目流程1 2021年06月 机器学习-机器学习项目流程 黄海广 副教授 2 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据 拼写错误 命名习惯 数理统计技术 数据挖掘技术 脏数据 数据清理策略、规则 满足数据质量要求的数据 数据清理原理 10 探索性数据分析(EDA) 探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算 统计数据,以便探索我们的数据。 •目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。0 码力 | 26 页 | 1.53 MB | 1 年前3
《TensorFlow 2项目进阶实战》6-业务落地篇:实现货架洞察Web应⽤业务落地篇:实现货架洞察 Web 应用 扫码试看/订阅 《 TensorFlow 2项目进阶实战》视频课程 • 串联 AI 流程理论:商品检测与商品识别 • 串联 AI 流程实战:商品检测与商品识别 • 展现 AI 效果理论:使用 OpenCV 可视化识别结果 • 展现 AI 效果实战:使用 OpenCV 可视化识别结果 • 搭建 AI SaaS 理论:Web 框架选型 • 搭建 AI SaaS:10 分钟快速掌握容器部署 • 交付 AI SaaS:部署和测试 AI SaaS 目录 串联 AI 流程理论:商品检测与商品识别 检测模型 RetinaNet 前向转换和使用 加载检测推理模型 detector 查看分类器 classifier 网络结构 串联 AI 流程实战:商品检测与商品识别 “Hello TensorFlow” Try it! 展现 AI 效果理论:使用 理论:Web 框架选型 Python Web 框架 Python Web 框架 - Flask Python Web 框架 - Flask Flask 常用扩展 Flask 项目常见目录结构 启动文件 manage.py 示例 搭建 AI SaaS 理论:数据库 ORM 选型 ORM 是什么 ORM 是什么 常见的 Python ORM • SQLAlchemy • Flask-SQLAlchemy0 码力 | 54 页 | 6.30 MB | 1 年前3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测它通过展示直观的图形,能够有效地辅助机器学习程序的开发者和使 用者理解算法模型及其工作流程,提升模型开发工作效率。 TensorBoard 可视化训练 TensorBoard 可视化统计数据 TensorBoard 可视化数据分布 TensorBoard 可视化数据集(MNIST) TensorBoard 可视化数据流图 TensorBoard 使用流程 可视化的数据是数据流图和张量,它们需要在会话中加载或执行操作后才能获取。然后, 实例将这些数据写入事件文件。最后,启动 TensorBoard 程序, 加载事件文件中的序列化数据,从而可以在各个面板中展示对应的可视化对象。 tf.summary 模块介绍 前述流程中使用的 FileWriter 实例和汇总操作(Summary Ops) 均属于 tf.summary 模块。其主要功能是获取和输出模型相关的 序列化数据,它贯通 TensorBoard 的整个使用流程。 tf.summary FileWriter、Summary 和 Event 3个类组成。 可视化数据流图 工作流 创建 数据流图 创建 FileWriter 实例 启动 TensorBoard Which one is better? VS ✅ 名字作用域与抽象节点 创建 FileWriter 实例 启动 TensorBoard 实战 TensorFlow 房价预测 实战 TensorFlow 房价预测 工作流 数据处理0 码力 | 46 页 | 5.71 MB | 1 年前3
阿里云上深度学习建模实践-程孟力要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 BE召回/Hologres hot x2i vec 排序 粗排 精排 重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索 冷启动召 回 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案0 码力 | 40 页 | 8.51 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 3 1. 深度学习概述 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 4 深度学习与机器学习、人工智能的关系 人工智能:机器展现的人类智能 机器学习:计算机利用已有的数 据(经验),得出了某种模型,并利 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译 、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识 别等。 可以说,自然语言处理就是要计算机理解自然语言,自然 语言处理机制涉及 两个流程,包括自然语言理解和自然语言生成 ,自然语言理解是让计算机把 输入的语言变成有意思的符号和关 系,然后根据目的再处理;自然语言生成 则是把计算机数据转 化为自然语言。实现人机间的信息交流,是人工智能 深度学习入门-NLP 2022chatGPT 22 2. 神经网络的基础 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 23 简单神经网络 z = x1w1 + +xk wk + + xK wK + b A simple function z (z ) Activation function0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 3 1. 机器学习概述 01 认识Python 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 4 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算机利用已有的数 据(经验),得出了某种模型,并利 12 机器学习发展史 13 机器学习发展史 14 2. 机器学习的类型 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 15 2. 机器学习的类型 16 ✓ 分类(Classification) ✓ 身高1.65m,体重100kg的男人肥胖吗? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? ✓ 回 一般来说,若我们模型学习的效果好,则训练误差和测试误差接近一致。 27 3. 机器学习的背景知识 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 28 3. 机器学习的背景知识-希腊字母 大写 小写 英文注音 国际音标注音 中文注音 Α α alpha alfa 阿耳法 Β β beta beta 贝塔 Γ γ gamma gamma0 码力 | 78 页 | 3.69 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据TensorFlow on Yarn技术细节揭秘 实现Yarn Application的标准流程:� TensorFlow on Yarn技术细节揭秘 集成TensorFlow到Yarn面临的特定问题:� • 如何自组织ClusterSpec信息� • 训练数据的划分� • 如何启动Tensorboard服务� • 如何降低迁移成本� • 已分配的物理GPU设备号到用户态GPU设备号的映射� 已分配的物理GPU设备号到用户态GPU设备号的映射� TensorFlow on Yarn技术细节揭秘 自动构建ClusterSpec的流程图:� TensorFlow on Yarn技术细节揭秘 训练数据的划分:� TensorFlow on Yarn技术细节揭秘 启动Tensorboard服务:� TensorFlow on Yarn技术细节揭秘 降低已有tensorflow程序迁移成本:� (1)单机模式0 码力 | 32 页 | 4.06 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献 第 15 章 自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 15.3 宝可梦数据集实战 15.4 迁移学习 15.5 Saved_model 15.6 模型部署 15.7 参考文献 预览版202112 人工智能绪论 便捷功 能。常用网络层主要放置在 nn 子模块中,优化器主要放置在 optim 子模块中,模型部署主 要通过 ONNX 协议实现。使用 PyTorch 开发,可以方便地利用这些功能完成常用算法业务 流程,高效稳定灵活。 1.6 开发环境安装 在领略完深度学习框架所带来的便利后,现在来着手在本地计算机环境上安装 PyTorch 最新版。PyTorch 框架支持多种常见的操作系统,如 Windows environment variable”一项,这样可以通过命令行方式调用 Anaconda 程序。如图 1.23 所示,安装程序 询问是否连带安装 VS Code 软件,选择 Skip 即可。整个安装流程约持续 5 分钟,具体时间 预览版202112 第 1 章 人工智能绪论 18 需依据计算机性能而定。 图 1.22 Anaconda 安装界面-1 图 1.23Anaconda0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0些需求的工具和工作流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑,选 择Jupyter记事本来混合代码、公式和文本,选择Sphinx作为渲染引擎来生成多个输出,并为论坛提供讨论。 虽然我们的体系尚不完善,但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信,这可能是 第一本使用这种集成工作流程出版的书。 1 http://distill 上的挑战。某些模型可能在逻辑上组合在单节中。而一些想 法可能最好是通过连续允许几个模型来传授。另一方面,坚持“一个工作例子一节”的策略有一个很大的好 处:这使你可以通过利用我们的代码尽可能轻松地启动你自己的研究项目。只需复制这一节的内容并开始修 改即可。 我们将根据需要将可运行代码与背景材料交错。通常,在充分解释工具之前,我们常常会在提供工具这一方 面犯错误(我们将在稍后解释背景)。例如 对线性代数和函数分析进行了深入的研究。(Wasserman, 2013) 是一本很好的统计学指南。 如果读者以前没有使用过Python语言,那么可以仔细阅读这个Python教程3。 论坛 与本书相关,我们已经启动了一个论坛,在discuss.d2l.ai4。当对本书的任何一节有疑问时,请在每一节的末 尾找到相关的讨论页链接。 致谢 感谢中英文草稿的数百位撰稿人。他们帮助改进了内容并提供了宝贵的反馈。感谢Anirudh0 码力 | 797 页 | 29.45 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱从推荐模型的基础特点看 袁镱 腾讯 个⼈简介 � ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务0 码力 | 22 页 | 6.76 MB | 1 年前3
共 35 条
- 1
- 2
- 3
- 4













