Qcon北京2018-《文本智能处理的深度学习技术》-陈运文深度学习算法 输入数据 特征工程 传统机器学习算法 非常耗费时间 以文本分类过程举例,常见 的特征提取算法包括: 词频 TF-IDF 互信息 信息增益 期望交叉熵 主成分分析 … 特征工程需要手工寻找特 征,花费大量人力,特征的 好坏往往决定最终结果 深度学习基础结构 基础神经元结构 多个神经元连接组成神经网络 字词表示 计算机 电脑 [ 0, 0, 0, 0, 1, 0, 0, 0, 0 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法 输入句子 命名实体识别 和关系分类 输出 美国总统特朗普将访问中国。 难点:结构复杂 美国 总统 特朗普 将 访问 中国。 地名 人名 地名 国家-总统 (美国,国家-总统,特朗普) 知识图谱关系抽取:基于深度学习 基于参数共享的方法 对于输入句子通过共用的 word embedding 层,然后接双向的 I-CF-2 O O 标签: E-CP-1 O I-CP-2 O O I-CF-1 E-CF-1 O O B-CF-2 E-CF-2 O 输出: (美国,国家-总统,特朗普) (苹果公司,公司-创立者,乔布斯) 输入:美 国 总 统 特 朗 普 将 考 察 苹 果 公 司 , 该 公 司 由 乔 布 斯 创 立。 05 总结&QA 总结:深度学习用于文本挖掘的优缺点 优点: 1,可以使用非监督数据训练字词向量,提升泛化能力0 码力 | 46 页 | 25.61 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用MxNet TensorFlow Wide&Deep 去噪 特征自动组合 (FM) 特征设计 离散特征 离散特征 容易设计;刻画细致;特 征稀疏; 特征量巨大;模型复杂度 受限 连续特征 连续特征 需要仔细设计;定长;特 征稠密 特征量相对较小,可以 使用多种模型训练 模型类别 模型类别 线性 简单、处理特征 量大、稳定性好 需借助交叉特征 Float LR Model DNN Model Retriever Server CTR Table DNN Model Feature LR Model Feature 特 征 池 模型效果评估 AUC 上线收益 是否一致? Survival Bias 特征覆盖率 并行化训练 并行化训练 诉求 加大数据量,提 升模型稳定性 加大数据量,提 升模型收益0 码力 | 22 页 | 1.60 MB | 1 年前3
机器学习课程-温州大学-11机器学习-降维1:长度用厘米表示的身高;?2:是用英寸表示的身高。 这两个分开的特征?1和?2,实际上表示的内容相同,这样其实可 以减少数据到一维,只有一个特征表示身高就够了。 很多特征具有线性关系,具有线性关系的特征很多都是冗余的特 征,去掉冗余特征对机器学习的计算结果不会有影响。 10 1.降维概述 数据可视化 t-distributed Stochastic Neighbor Embedding(t-SNE) t ? 和 ?都是酉矩阵,即满足:?T? = ?, ?T? = ?。 17 2.SVD(奇异值分解) SVD求解 ?矩阵求解 方阵??T为? × ?的一个方阵,那么我们就可以进行特征分解,得到的特 征值和特征向量满足下式: (??T)?? = ???? 可以得到矩阵??T的 ? 个特征值和对应的 ?个特征向量?了。 18 2.SVD(奇异值分解) SVD求解 ?矩阵求解 将??T的所有特征向量组成一个 其对应的特征向量分别是: σ1 1 1 , σ2 −1 1 然后求σ的特征值和特征向量: 46 3.PCA(主成分分析) 由于对应的特征向量分别是一个通解, σ1和σ2可取任意实数。那么标准化后的特 征向量为: 1/ 2 1/ 2 , −1/ 2 1/ 2 因此我们的矩阵?是: ? = 1/ 2 1/ 2 −1/ 2 1/ 2 47 3.PCA(主成分分析) 可以验证协方差矩阵σ的对角化0 码力 | 51 页 | 3.14 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树判断属性变量的重要性, 减少变量的数目提供参考。 缺点: ⚫ 容易造成过拟合,需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特 征。 决策树的特点 7 算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝 特征属性多次使用 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持 C4.5 分类 多叉树 150个鸢尾花样本进行分类,特 征为花萼的长度和宽度 决策树原理 33 CART算法-回归 用均方差来选择属性 对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。 对于任意划分特征 ?,对应的任意划分点? 两边划分成的数据集 ?1和?2 ,求出使 ?1和?2各自集合的均方差最小,同时 ?1和?2的均方差之和最小所对应的特征和特 征值划分点。表达式为: min0 码力 | 39 页 | 1.84 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112人工智能不可避免地需要使用正式化的 数学符号推导,其中涉及到少量的概率与统计、线性代数、微积分等数学知识,一般要求读 者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出 现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 特定的任务设计的,并不适合其他任 务。传统的机器学习算法一般会人为设计具有一定通用性的特征检测方法,如 SIFT、HOG 特征,这些特征能够适合某一类的任务,具有一定的通用性,但是如何设计特征,以及特 征方法的优劣性非常的关键,同时也比较困难。神经网络的出现,使得人为设计特征这一 部分工作可以让机器自动完成学习,不需要人类干预。但是浅层的神经网络的特征提取能 力较为有限,而深层的神经网络擅长提取高0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0能在 一个环境中智能地行动。这意味着我们需要考虑在每种可行的行为下获得高奖励的概率。当我们建立推荐系 统时,我们也需要考虑概率。例如,假设我们为一家大型在线书店工作,我们可能希望估计某些用户购买特 定图书的概率。为此,我们需要使用概率学。有完整的课程、专业、论文、职业、甚至院系,都致力于概率 学的工作。所以很自然地,我们在这部分的目标不是教授整个科目。相反,我们希望教给读者基础的概率知 � j −P(j) log P(j). (3.4.11) 信息论的基本定理之一指出,为了对从分布p中随机抽取的数据进行编码,我们至少需要H[P]“纳特(nat)” 对其进行编码。“纳特”相当于比特(bit),但是对数底为e而不是2。因此,一个纳特是 1 log(2) ≈ 1.44比特。 51 https://d2l.ai/chapter_appendix‐mathematics‐for‐d 140 4. 多层感知机 统计学习理论 由于泛化是机器学习中的基本问题,许多数学家和理论家毕生致力于研究描述这一现象的形式理论。在同名 定理(eponymous theorem)62中,格里文科和坎特利推导出了训练误差收敛到泛化误差的速率。在一系列 开创性的论文中,Vapnik和Chervonenkis63 将这一理论扩展到更一般种类的函数。这项工作为统计学习理论 奠定了基础。 在我们目前已0 码力 | 797 页 | 29.45 MB | 1 年前3
谭国富:深度学习在图像审核的应用图像海量数据的积累 02 深度学习技术介绍 加快计算 - 深度学习算法加速 RPN SACC2017 技 术 发 展 应 用 突 破 1956 达特茅 斯会议 标志AI 诞生 1957 神经网络 Perceptr on被罗 森布拉特 发明 1980 2006 Hinton提出 “深度学习” 的神经网络 2013 深度学习算法在 语音和视觉识别 上有重大突破, 识别率超过99%0 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-特征工程21 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 2. HOG特征 方向梯度直方图(HOG)特征是 2005 年针对行人检测问题提出的直方图特 征,它通过计算和统计图像局部区域的梯度方向直方图来实现特征描述。 归一化处理 计算图像梯度 统计梯度方向 特征向量 归一化 生成特征向量 步骤 图像特征提取 3. 特征提取 22 许永洪 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 过滤式(Filter): 先对数据集进行特征选择,其过程与后续 学习器无关,即设计一些统计量来过滤特 征,并不考虑后续学习器问题 包裹式(Wrapper): 就是一个分类器,它是将后续的学习器的 性能作为特征子集的评价标准 嵌入式(Embedding): 是学习器自主选择特征 4. 特征选择0 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习能够处理高维度数据,不用做特征选择。 随机森林 8 Random Forest(随机森林)是 Bagging 的扩展变 体,它在以决策树为基学习器构建 Bagging 集成的 基础上,进一步在决策树的训练过程中引入了随机特 征选择,因此可以概括 随机森林包括四个部分: 1. 随机选择样本(放回抽样); 2. 随机选择特征; 3. 构建决策树; 4. 随机森林投票(平均)。 随机森林 训练数据 Bootstrap随机抽取 …… 决策树2 预测1 预测n …… 预测2 9 随机选择样本和 Bagging 相同,采用的是 Bootstraping 自助采样法;随机选择特征是 指在每个节点在分裂过程中都是随机选择特 征的(区别与每棵树随机选择一批特征)。 这种随机性导致随机森林的偏差会有稍微的 增加(相比于单棵不随机树),但是由于随 机森林的“平均”特性,会使得它的方差减 小,而且方差的减小补偿了偏差的增大,因0 码力 | 50 页 | 2.03 MB | 1 年前3
Keras: 基于 Python 的深度学习库的另一个用途是使用共享网络层的模型。我们来看看共享层。 来考虑推特推文数据集。我们想要建立一个模型来分辨两条推文是否来自同一个人(例如, 通过推文的相似性来对用户进行比较)。 实现这个目标的一种方法是建立一个模型,将两条推文编码成两个向量,连接向量,然后 添加逻辑回归层;这将输出两条推文来自同一作者的概率。模型将接收一对对正负表示的推特 数据。 由于这个问题是对称的,编码第一条推文的机制应该被完全重用来编码第二条推文。这里 被完全重用来编码第二条推文。这里 我们使用一个共享的 LSTM 层来编码推文。 让我们使用函数式 API 来构建它。首先我们将一条推特转换为一个尺寸为 (140, 256) 的 矩阵,即每条推特 140 字符,每个字符为 256 维的 one-hot 编码(取 256 个常用字符)。 import keras from keras.layers import Input, LSTM, Dense encoded_b], axis=-1) # 再在上面添加一个逻辑回归层 predictions = Dense(1, activation='sigmoid')(merged_vector) # 定义一个连接推特输入和预测的可训练的模型 model = Model(inputs=[tweet_a, tweet_b], outputs=predictions) model.compile(optimizer='rmsprop'0 码力 | 257 页 | 1.19 MB | 1 年前3
共 17 条
- 1
- 2













