集成技术 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-08机器学习-集成学习

1 2022年12月机器学习-集成学习黄海广副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 结果进行综合产生最终的预测结果：集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据最终预测结果测试数据 5 Boosting 训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。集成学习模型n 最终最终预测结果模型2 预测n …… 预测1 预测2 转化模型1 模型3 转化转化训练数据测试数据 6 集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据第二层数据 Stacking 最终预测结果 Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训

0 码力 | 50 页 | 2.03 MB | 1 年前
3
深度学习下的图像视频处理技术-沈小勇

深度学习下的图像视频处理技术沈小勇优图X-Lab视觉AI负责人专家研究员自我介绍自我介绍 2006.9 – 2012.7 浙江大学数学系本科硕士 2012.8 – 2016.6 香港中文大学博士 2016.6 – 2017.5 香港中文大学 Research Fellow 2017.5 – 现在腾讯优图X-Lab 视觉AI负责人，专家研究员个人主页：http://xiaoyongshen

0 码力 | 121 页 | 37.75 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

搜狗深度学习技术在广告推荐领域的应用舒鹏目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考搜索广告背景知识信息需求用户查询查询理解广告召回点击率预估排序计价结果展示点击及后续行为广告库日志收集展示日志点击日志深度学习在搜狗搜索广告的一些应用无需分词：基于字符粒度表达的问答系统设计外套 ResNet-50层 CNN-LSTM Encoder CNN CNN 中长款牛仔外套 Cosine-Loss 广告物料推荐深度学习在搜狗搜索广告的一些应用方向用途相关技术图像理解图片物料推荐 CNN 文本相关性广告召回、创意生成 Word2Vec、CSR、LSTM CTR预估广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估点击日志查询特征广告特征匹配特征线性模型非线性模型 Data Feature Model 线上Server CTR预估 Rank Online 特征抽取 CTR预估涉及技术 CTR预估数据模型平台 MPI XgBoost Parameter Server 线性(LR) 非线性(GBDT) 深度(DNN) 实时(FTRL) 特征训练数据

0 码力 | 22 页 | 1.60 MB | 1 年前
3
李东亮：云端图像技术的深度学习模型与应用

云端图像技术的深度学习模型与应用李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品月活跃数达到4.42亿 360手机安全产品移动端用户总数已达约1.49亿 360浏览器月活跃用户数量为3.03亿 360导航日均独立访问用户为8900万人日均点击量约为4.51亿次 360搜索稳定拥有35%以上的市场份额手机安全企业安全 …… 新时代的奇虎360 SACC2017 万物互联的新时代交通智能家居机器人 AR/VR/MR 智能手机穿戴设备 SACC2017 万物互联的核心技术视觉感知语音感知语义理解人工智能大数据分析物环境 SACC2017 图像视频检测识别分割跟踪物环境数据核心云端移动端业务视觉感知模型 Classification Person, Horse, Barrier, Table, etc Object Detection 检测识别分割跟踪核心 SACC2017 图像技术的三个核心难点>>小、快、准小模型线上速度快预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing

0 码力 | 26 页 | 3.69 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

达观数据陈运文文本智能处理的深度学习技术达观数据CEO 陈运文博士 • 中国计算机学会高级会员， A C M 和 I E E E 学会会员，复旦大学计算机博士和杰出毕业生 • 原腾讯文学高级总监、盛大文学首席数据官、百度核心技术工程师 • 三十项国家技术陈运文达观数据：全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服务，是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉，拥有国家级高新技术企业、CMMI3资质认证、ISO9001质量管理体系认证、双软认证等最全面的企业服务资质。权威认证的人工智能服务，可充分保障客户业务实践与业务安全 2006~至今以机器翻译为开端，作为早期尝试，但不是很成功基于统计机器学习技术及语料库，使用统计模型，NLP发展产生革新多数自然语言处理系统基于规则，人工修订等方式，包括问答、翻译、搜索等深度学习起步、发展及成熟，同样影响NLP领域，从传统的机器学习逐渐过渡到深度学习 NLP技术层次日常工作中各类常见的文本形式新闻文章企业合同/公文客户评论意见

0 码力 | 46 页 | 25.61 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

发布的开源机器学习（深度学习）框架，Pytorch 最初的来源历史可以追溯到另外两个机器学习框架，第一个是 torch 框架，第二个是 Chainer，实现了 Eager 模式与自动微分，Pytoch 集成了这两个框架的优点，把 Python 语言作为框架的首选编程语言，所以它的名字是在 torch 的前面加上 Py 之后的 Pytorch。由于 Pytorch 吸取了之前一些深度学习框架优点，开发难度大大降低、很容易框架必然会更加得到开发者的青睐，成为人工智能 (AI) 开发者必备技能之一。同时 Pytorch 也会在部署跟推理方面会更加完善与方便，加强支持移动端，嵌入式端等应用场景，相信掌握 Pytorch 框架的开发技术人才也会得到丰厚回报。 1.2 环境搭建 Pytorch 的开发环境搭建十分的简洁，它的依赖只有 Python 语言 SDK，只要有了 Python 语言包支持，无论数根据损失函数功能根据梯度进行参数值的调整。为了计算这些梯度完成参数调整，深度学习框架中都会自带一个叫做自动微分的内置模块，来自动计算神经网络模型训练时候的各个参数梯度值并完成参数值更新，这种技术就是深度学习框架中的自动微分。 1.4 Pytorch 基础操作前面我们已经安装并验证好了 Pytorch 框架，解释了深度学习框架中一些常见术语与基本概念。本节重点介绍 Pytorch

0 码力 | 13 页 | 5.99 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点 TensorFlow作业history页面：� Event log上传到了HDFS� 查看历史日志� TensorFlow on Yarn技术细节揭秘实现Yarn Application的标准流程：� TensorFlow on Yarn技术细节揭秘集成TensorFlow到Yarn面临的特定问题：� • 如何自组织ClusterSpec信息� • 训练数据的划分� • 如何启动Tensorboard服务� 已分配的物理GPU设备号到用户态GPU设备号的映射� TensorFlow on Yarn技术细节揭秘自动构建ClusterSpec的流程图：� TensorFlow on Yarn技术细节揭秘训练数据的划分：� TensorFlow on Yarn技术细节揭秘启动Tensorboard服务：� TensorFlow on Yarn技术细节揭秘降低已有tensorflow程序迁移成本：� （1）单机模式

0 码力 | 32 页 | 4.06 MB | 1 年前
3
动手学深度学习 v2.0

在基础科学中扮演着越来越重要的角色——从天体物理学到生物学。关于本书这本书代表了我们的尝试——让深度学习可平易近人，教会人们概念、背景和代码。 1 一种结合了代码、数学和HTML的媒介任何一种计算技术要想发挥其全部影响力，都必须得到充分的理解、充分的文档记录，并得到成熟的、维护良好的工具的支持。关键思想应该被清楚地提炼出来，尽可能减少需要让新的从业者跟上时代的入门时间。成熟的库应该自动化使从业者可以轻松地修改、应用和扩展常见的应用程序，以满足他们的需求。以动态网页应用为例。尽管许多公司，如亚马逊，在20世纪90年代开发了成功的数据库驱动网页应用程序。但在过去的10年里，这项技术在帮助创造性企业家方面的潜力已经得到了更大程度的发挥，部分原因是开发了功能强大、文档完整的框架。测试深度学习的潜力带来了独特的挑战，因为任何一个应用都会将不同的学科结合在一起。应用深度学习需在我们开始写这本书的时候，没有资源能够同时满足一些条件：（1）是最新的；（2）涵盖了现代机器学习的所有领域，技术深度丰富；（3）在一本引人入胜的教科书中，人们可以在实践教程中找到干净的可运行代码，并从中穿插高质量的阐述。我们发现了大量关于如何使用给定的深度学习框架（例如，如何对TensorFlow中的矩阵进行基本的数值计算)或实现特定技术的代码示例（例如，LeNet、AlexNet、ResNet的代码片段），这些

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-05机器学习-机器学习实践

s聚类、感知机和SVM、神经网络。另外，线性回归类的几个模型一般情况下也是需要做数据归一化/标准化处理的。不需要做数据归一化/标准化决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感，如随机森林、XGBoost、LightGBM等树模型，以及朴素贝叶斯，以上这些模型一般不需要做数据归一化/标准化处理。 3.正则化、偏差和方差 19 过拟合和欠拟合择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）。 3.正则化正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 21 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度

0 码力 | 33 页 | 2.14 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

-means聚类、感知机和SVM。另外，线性回归类的几个模型一般情况下也是需要做数据归一化/标准化处理的。不需要做数据归一化/标准化决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感，如随机森林、XGBoost、LightGBM等树模型，以及朴素贝叶斯，以上这些模型一般不需要做数据归一化/标准化处理。 22 3. 正则化 01 线性回归择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）。 3.正则化正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 25 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度

0 码力 | 33 页 | 1.50 MB | 1 年前
3

共 40 条前往

页

分类

语言

格式

机器学习课程-温州大学-08机器学习-集成学习

深度学习下的图像视频处理技术-沈小勇

搜狗深度学习技术在广告推荐领域的应用

李东亮：云端图像技术的深度学习模型与应用

Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

PyTorch OpenVINO 开发实战系列教程第一篇

TensorFlow on Yarn：深度学习遇上大数据

动手学深度学习 v2.0

机器学习课程-温州大学-05机器学习-机器学习实践

机器学习课程-温州大学-02机器学习-回归