 华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容:  买没几天就降价一点都不开心,闪存跑分就五百多点点 ---  外观漂亮音质不错,现在电子产品基本上都是华为的了 ---  汽车不错,省油,性价比高 ---  这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003  神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3 华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容:  买没几天就降价一点都不开心,闪存跑分就五百多点点 ---  外观漂亮音质不错,现在电子产品基本上都是华为的了 ---  汽车不错,省油,性价比高 ---  这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003  神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3
 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3
 动手学深度学习 v2.03 预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 8.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 8.2 3.3 自然语言统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.4 读取长序列数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 8.4 循环神经网络 . . . 692 14.9.1 为预训练任务定义辅助函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 14.9.2 将文本转换为预训练数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 14.10 预训练BERT . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.03 预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 8.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 8.2 3.3 自然语言统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.4 读取长序列数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 8.4 循环神经网络 . . . 692 14.9.1 为预训练任务定义辅助函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 14.9.2 将文本转换为预训练数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 14.10 预训练BERT . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
 Keras: 基于 Python 的深度学习库120 6.1.4 make_sampling_table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.2.1 Tokenizer 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP 和 CNN • 基于 LSTM 的字符级文本生成 … 等等。 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: import keras from keras.models import Sequential0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库120 6.1.4 make_sampling_table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.2.1 Tokenizer 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP 和 CNN • 基于 LSTM 的字符级文本生成 … 等等。 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: import keras from keras.models import Sequential0 码力 | 257 页 | 1.19 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112电影评价数据集 from torchtext import data, datasets # 需要先安装 torchtext 库 # 创建 2 个 Field 对象,即文本(设置最长 80 个单词)和文本的标签信息(正、负面评价) TEXT = data.Field(tokenize='spacy', fix_length=80) LABEL = data.LabelField(dtype=torch 维度数大于 2 时,PyTorch 会默认选择?和?的最后两个维度进行矩阵相乘,前面所有的维度都视作 Batch 维度。 根据矩阵相乘的定义,矩阵?和?能够完成矩阵相乘的条件是,?的倒数第一个维度长 度(列)和?的倒数第二个维度长度(行)必须相等。比如张量 a shape:[4,3,28,32]可以与张量 b shape:[4,3,32,2]进行矩阵相乘,代码如下: In [100]: 全连接层前向计算流程相对简单,梯度求导也较简单,但是它有一个最大的缺陷,在处理 较大特征长度的数据时,全连接层的参数量往往较大,使得深层数的全连接网络参数量巨 大,训练起来比较困难。近年来,社交媒体的发达产生了海量的图片、视频、文本等数字 资源,极大地促进了神经网络在计算机视觉、自然语言处理等领域中的研究,相继提出了 一系列的神经网络变种类型。 6.7.1 卷积神经网络 如何识别、分析并理解图片、视频等数据是计算机视觉的一个核心问题,全连接层在0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112电影评价数据集 from torchtext import data, datasets # 需要先安装 torchtext 库 # 创建 2 个 Field 对象,即文本(设置最长 80 个单词)和文本的标签信息(正、负面评价) TEXT = data.Field(tokenize='spacy', fix_length=80) LABEL = data.LabelField(dtype=torch 维度数大于 2 时,PyTorch 会默认选择?和?的最后两个维度进行矩阵相乘,前面所有的维度都视作 Batch 维度。 根据矩阵相乘的定义,矩阵?和?能够完成矩阵相乘的条件是,?的倒数第一个维度长 度(列)和?的倒数第二个维度长度(行)必须相等。比如张量 a shape:[4,3,28,32]可以与张量 b shape:[4,3,32,2]进行矩阵相乘,代码如下: In [100]: 全连接层前向计算流程相对简单,梯度求导也较简单,但是它有一个最大的缺陷,在处理 较大特征长度的数据时,全连接层的参数量往往较大,使得深层数的全连接网络参数量巨 大,训练起来比较困难。近年来,社交媒体的发达产生了海量的图片、视频、文本等数字 资源,极大地促进了神经网络在计算机视觉、自然语言处理等领域中的研究,相继提出了 一系列的神经网络变种类型。 6.7.1 卷积神经网络 如何识别、分析并理解图片、视频等数据是计算机视觉的一个核心问题,全连接层在0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-特征工程提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理 意义(比如几何特征、纹理特征)或者统计意义的特征。 常用方法 降维方面的PCA、ICA、LDA等 图像方面的SIFT、Gabor、HOG等 文本方面的词袋模型、词嵌入模型等 3. 特征提取 18 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.PCA(Principal Component 生成特征向量 步骤 图像特征提取 3. 特征提取 22 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.词袋模型 将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每 一个维度代表一个单词,而该维度的权重反映了该单词在原来文章中的重要程度 采用 TF-IDF 计算权重,公式为 ?? − ???(?, ?) = ??(?, ) 表示单词 ? 在文档 ? 中出现的频率 ???(?) 是逆文档频率,用来衡量单词 ? 对表达语义所起的重要性,其表示为: ???(?) = log 文章总数 包含单词?的文章总数 + 1 文本特征提取 3. 特征提取 23 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 2. N-gram 模型 ➢将连续出现的 ? 个词 (? <=0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理 意义(比如几何特征、纹理特征)或者统计意义的特征。 常用方法 降维方面的PCA、ICA、LDA等 图像方面的SIFT、Gabor、HOG等 文本方面的词袋模型、词嵌入模型等 3. 特征提取 18 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.PCA(Principal Component 生成特征向量 步骤 图像特征提取 3. 特征提取 22 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.词袋模型 将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每 一个维度代表一个单词,而该维度的权重反映了该单词在原来文章中的重要程度 采用 TF-IDF 计算权重,公式为 ?? − ???(?, ?) = ??(?, ) 表示单词 ? 在文档 ? 中出现的频率 ???(?) 是逆文档频率,用来衡量单词 ? 对表达语义所起的重要性,其表示为: ???(?) = log 文章总数 包含单词?的文章总数 + 1 文本特征提取 3. 特征提取 23 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 2. N-gram 模型 ➢将连续出现的 ? 个词 (? <=0 码力 | 38 页 | 1.28 MB | 1 年前3
 阿里云上深度学习建模实践-程孟力 计算量小 训练推理:  高qps, 低rt  支持超大模型  性价比 流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化  标准化模型库  标准化解决方案 • 200+组件 • 数十个场景化模版 • 所见即所得 交互式建模(DSW) • JupyterLab、WebIDE • 多框架兼容 • 可视化+tensorboard • 图像、视频、文本、 语音标注 • 多场景模板:物体检 测、语音识别 • 数据集管理 • 主动学习 • 智能标注 itags AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等) Infrastructure0 码力 | 40 页 | 8.51 MB | 1 年前3 阿里云上深度学习建模实践-程孟力 计算量小 训练推理:  高qps, 低rt  支持超大模型  性价比 流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化  标准化模型库  标准化解决方案 • 200+组件 • 数十个场景化模版 • 所见即所得 交互式建模(DSW) • JupyterLab、WebIDE • 多框架兼容 • 可视化+tensorboard • 图像、视频、文本、 语音标注 • 多场景模板:物体检 测、语音识别 • 数据集管理 • 主动学习 • 智能标注 itags AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等) Infrastructure0 码力 | 40 页 | 8.51 MB | 1 年前3
 机器学习课程-温州大学-13深度学习-Transformer任务指的是输入和输出都是 序列的任务,输出的长度不确定时采 用的模型,这种情况一般是在机器翻 译的任务中出现,将一句中文翻译成 英文,那么这句英文的长度有可能会 比中文短,也有可能会比中文长,所 以输出的长度就不确定了。 上图,输入的中文长度为4,输出的英文长度为2 6 1.Transformer介绍 Encoder-Decoder模型 通常来说,Seq2Seq任务最常见的是 模型输出以下各token的向量: [CLS]Datawhale 是 一个 专注于 Al领域 的开源 组织[SEP] [CLS]表示的向量一般可以认为是句向量,用[CLS] 向量对接下游文本分类任务,可得到fine tuning的 文本分类模型 59 参考文献 1. https://jalammar.github.io/illustrated-transformer 2. Andrew Ng,http://www0 码力 | 60 页 | 3.51 MB | 1 年前3 机器学习课程-温州大学-13深度学习-Transformer任务指的是输入和输出都是 序列的任务,输出的长度不确定时采 用的模型,这种情况一般是在机器翻 译的任务中出现,将一句中文翻译成 英文,那么这句英文的长度有可能会 比中文短,也有可能会比中文长,所 以输出的长度就不确定了。 上图,输入的中文长度为4,输出的英文长度为2 6 1.Transformer介绍 Encoder-Decoder模型 通常来说,Seq2Seq任务最常见的是 模型输出以下各token的向量: [CLS]Datawhale 是 一个 专注于 Al领域 的开源 组织[SEP] [CLS]表示的向量一般可以认为是句向量,用[CLS] 向量对接下游文本分类任务,可得到fine tuning的 文本分类模型 59 参考文献 1. https://jalammar.github.io/illustrated-transformer 2. Andrew Ng,http://www0 码力 | 60 页 | 3.51 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram)0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram)0 码力 | 44 页 | 2.36 MB | 1 年前3
 亚马逊AWSAI Services Overview218/notebooks/money_predict.ipynb 将文本转化为 生活化语音 47 种语音 24 种语言 低延迟、实时 全托管 Polly: 生活化的语音服务 Voice Quality & Pronunciation 1. 自动化、精准的文本处理 2. 智能化的且易于理解 3. 将语义加入文本当中 4. 定制化的发音 文章、博客 训练材料 Chatbots (Lex) 意图导向 人-机交互会话的发展 语音 & 文本 “Chatbots” Alexa 应用 在手机、Web以及 设备上的语音交互 在Slack & Messenger 上的文本交互 企业应用 Salesforce Microsoft Dynamics Marketo Zendesk Quickbooks Hubspot Lex: 构建自然的通过语音和文本的会话交互 不断提升的 人性化交互… • • 联系、服务支持中心的接口 (文本 + 语音) • 员工工作效率和协同 (分钟级别到秒级) Origin Destination Departure Date Flight Booking “Book a flight to London” Automatic Speech Recognition Natural Language Understanding Book Flight0 码力 | 56 页 | 4.97 MB | 1 年前3 亚马逊AWSAI Services Overview218/notebooks/money_predict.ipynb 将文本转化为 生活化语音 47 种语音 24 种语言 低延迟、实时 全托管 Polly: 生活化的语音服务 Voice Quality & Pronunciation 1. 自动化、精准的文本处理 2. 智能化的且易于理解 3. 将语义加入文本当中 4. 定制化的发音 文章、博客 训练材料 Chatbots (Lex) 意图导向 人-机交互会话的发展 语音 & 文本 “Chatbots” Alexa 应用 在手机、Web以及 设备上的语音交互 在Slack & Messenger 上的文本交互 企业应用 Salesforce Microsoft Dynamics Marketo Zendesk Quickbooks Hubspot Lex: 构建自然的通过语音和文本的会话交互 不断提升的 人性化交互… • • 联系、服务支持中心的接口 (文本 + 语音) • 员工工作效率和协同 (分钟级别到秒级) Origin Destination Departure Date Flight Booking “Book a flight to London” Automatic Speech Recognition Natural Language Understanding Book Flight0 码力 | 56 页 | 4.97 MB | 1 年前3
共 23 条
- 1
- 2
- 3













