华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3
动手学深度学习 v2.03 预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 8.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 8.2 3.3 自然语言统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.4 读取长序列数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 8.4 循环神经网络 . . . 692 14.9.1 为预训练任务定义辅助函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 14.9.2 将文本转换为预训练数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 14.10 预训练BERT . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库120 6.1.4 make_sampling_table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.2.1 Tokenizer 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP 和 CNN • 基于 LSTM 的字符级文本生成 … 等等。 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: import keras from keras.models import Sequential0 码力 | 257 页 | 1.19 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达Copilot、Tabnine 和 Codeium。我们兴奋于 open-source LLMs for coding 在工具领域可能带来的变革,并且我们看到了在编码之外的辅助领域中工具和能力的爆炸式增 长,如用户故事编写辅助、用户研究、电梯演讲和其他基于语言的任务。同时,我们希望开发人员能够负责任 地使用所有这些工具,并且始终掌控主导权,比如 hallucinated dependencies 就是其中一个需要注意的安全 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容生成(文本、图片和视频)、代码生成到总结概述和翻译等各种问题。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较 这样的外部工具。我们仍然处于定义这一学科 的早期阶段,但到目前为止,ReAct 及其后继方法已指引出大语言模型最令人兴奋的一些应用领域。 10. 检索增强生成 试验 检索增强生成(RAG) 是一种结合预训练参数和非参数记忆的文本生成技术。它使你能够通过你的领域内特有 的包含上下文的知识,来强化预训练模型中的现有知识。使用 RAG,你会先从非参数记忆中去检索相关文档集 (一般是通过在向量数据库中的相似性搜索),再使用 LLM0 码力 | 43 页 | 2.76 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112电影评价数据集 from torchtext import data, datasets # 需要先安装 torchtext 库 # 创建 2 个 Field 对象,即文本(设置最长 80 个单词)和文本的标签信息(正、负面评价) TEXT = data.Field(tokenize='spacy', fix_length=80) LABEL = data.LabelField(dtype=torch 维度数大于 2 时,PyTorch 会默认选择?和?的最后两个维度进行矩阵相乘,前面所有的维度都视作 Batch 维度。 根据矩阵相乘的定义,矩阵?和?能够完成矩阵相乘的条件是,?的倒数第一个维度长 度(列)和?的倒数第二个维度长度(行)必须相等。比如张量 a shape:[4,3,28,32]可以与张量 b shape:[4,3,32,2]进行矩阵相乘,代码如下: In [100]: 全连接层前向计算流程相对简单,梯度求导也较简单,但是它有一个最大的缺陷,在处理 较大特征长度的数据时,全连接层的参数量往往较大,使得深层数的全连接网络参数量巨 大,训练起来比较困难。近年来,社交媒体的发达产生了海量的图片、视频、文本等数字 资源,极大地促进了神经网络在计算机视觉、自然语言处理等领域中的研究,相继提出了 一系列的神经网络变种类型。 6.7.1 卷积神经网络 如何识别、分析并理解图片、视频等数据是计算机视觉的一个核心问题,全连接层在0 码力 | 439 页 | 29.91 MB | 1 年前3
更新OpenShift Data Foundation关于特定内容的简单评论: 1. 请确定您使用 Multi-page HTML 格式查看文档。另外,确定 Feedback 按钮出现在文档页的 右上方。 2. 用鼠标指针高亮显示您想评论的文本部分。 3. 点在高亮文本上弹出的 Add Feedback。 4. 按照显示的步骤操作。 要提交更复杂的反馈,请创建一个 Bugzilla ticket: 1. 进入 Bugzilla 网站。 2. 在 频 频道 道 除了稳定(stable)的频道外,所有次版本号为偶数的 OpenShift Container Platform 次版本还会提供延 长的更新支持(EUS)。对于具有标准和高级订阅的客户,这些 EUS 版本将完全支持和维护支持阶段延 长至 18 个月。stable-4.y 和 eus-4.y 频道的唯一区别在于,只有下一个 EUS 版本可用时 EUS 频道才会包 括这个版本。 Red0 码力 | 18 页 | 239.14 KB | 1 年前3
RocketMQ v3.2.4 开发指南........................................................................................ 21 7.5 长轮询 Pull ............................................................................................ 3.0 版本开始支持同步双写。 4.7 Low Latency Messaging 在消息丌堆积情冴下,消息到达 Broker 后,能立刻到达 Consumer。 RocketMQ 使用长轮询 Pull 方式,可保证消息非常实时,消息实时性丌低亍 Push。 项目开源主页:https://github.com/alibaba/RocketMQ 7 4.8 At least Once Broker 不 Name Server 集群中的所有节 点建立长连接,定时注册 Topic 信息到所有 Name Server。 Producer 不 Name Server 集群中的其中一个节点(随机选择)建立长连接,定期从 Name Server 叏 Topic 路 由信息,幵吐提供 Topic 服务的 Master 建立长连接,丏定时吐 Master 収送心跳。Producer 完全无状态,可0 码力 | 52 页 | 1.61 MB | 1 年前3
机器学习课程-温州大学-特征工程提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理 意义(比如几何特征、纹理特征)或者统计意义的特征。 常用方法 降维方面的PCA、ICA、LDA等 图像方面的SIFT、Gabor、HOG等 文本方面的词袋模型、词嵌入模型等 3. 特征提取 18 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.PCA(Principal Component 生成特征向量 步骤 图像特征提取 3. 特征提取 22 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 1.词袋模型 将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每 一个维度代表一个单词,而该维度的权重反映了该单词在原来文章中的重要程度 采用 TF-IDF 计算权重,公式为 ?? − ???(?, ?) = ??(?, ) 表示单词 ? 在文档 ? 中出现的频率 ???(?) 是逆文档频率,用来衡量单词 ? 对表达语义所起的重要性,其表示为: ???(?) = log 文章总数 包含单词?的文章总数 + 1 文本特征提取 3. 特征提取 23 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 2. N-gram 模型 ➢将连续出现的 ? 个词 (? <=0 码力 | 38 页 | 1.28 MB | 1 年前3
OpenShift Container Platform 4.13 认证和授权PROGRESSING 显示为 True,请等待几分钟后再试一次。 验证 验证 1. 使用来自您的 IDP 的身份登录到集群。 2. 执行命令并确认它是否成功。 3. 等待的时间比配置的超时时间长而无需使用身份。在这个示例中,等待的时间超过 400 秒。 4. 尝试从同一身份的会话中执行命令。 这个命令会失败,因为令牌应该因为不活跃的时间超过配置的超时时间而过期。 输 输出示例 出示例 保存文件以使改变生效。 验证 验证 1. 使用来自您的 IDP 的身份登录到集群。确保使用您刚才配置的 OAuth 客户端。 2. 执行操作并验证它是否成功。 3. 等待的时间比配置的超时时间长而无需使用身份。在这个示例中,等待会超过 600 秒。 4. 尝试从同一身份的会话中执行一个操作。 这个尝试会失败,因为令牌应该因为不活跃的时间超过配置的超时时间而过期。 $ oc edit oauthclient Options 菜单,然后选择 Edit Secret。 4. 记录 Value 字段的内容。您可以使用这些信息验证在更新凭证后该值是否不同。 5. 使用云供应商的新身份验证信息更新 Value 字段的文本,然后点 Save。 6. 如果集群的 CCO 配置为使用 mint 模式,请删除各个 CredentialsRequest 对象引用的每个组件 secret。 a. 以具有 cluster-admin0 码力 | 201 页 | 2.74 MB | 1 年前3
共 109 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11













