机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 词汇表征和文本数据处理 8 2.词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你 可以用更低维度的特征向量代替原来的10000维的one-hot向量,现在你可以用 一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少 量的标记数0 码力 | 44 页 | 2.36 MB | 1 年前3
动手学深度学习 v2.01 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.2 词元化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.3 词表 357 9.5.1 下载和预处理数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 9.5.2 词元化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 9.5.3 词表 . . . . . . . . 378 10 注意力机制 381 10.1 注意力提示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 10.1.1 生物学中的注意力提示 . . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 160 码力 | 43 页 | 2.76 MB | 1 年前3
华为云深度学习在文本分类中的实践-李明磊这个政策好啊,利国利民 --- 电子税务局无法登陆,提示404。--- 税务局相关 个人所得税APP,注册的时候操作错误,怎么办? --- 个税app相关 f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 用语言模型 在目标语料上微调 语言模型 在目标语料上训练 分类器 … … BERT E[ C E1 T1 E2 T2 En Tn … … 模型: 数据: 目标: 预测mask词和下一句 … … BERT E[ C E1 T1 E2 T2 En Tn … … 分类器 模型: 数据: 手机不错,高大上 正面 手机太差劲了,又贵又卡 负面 续航给力,价格实在0 码力 | 23 页 | 1.80 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言•图像分类 •目标检测 •图像分割 •目标跟踪 •OCR文字识别 •图像滤波与降噪 •图像增强 •风格迁移 •三维重建 •图像检索 •GAN 12 深度学习-CV典型应用案例 翻译 传统翻译采用人工查词的方式,不但耗时长 ,而且错误率高。图像识别技术(OCR)的出 现大大提升了翻译的效率和准确度,用户通 过简单的拍照、截图或划线就能得到准确的 翻译结果。 体育赛事 计算机视觉还有助于比赛和策略分 Processing)是一门通过建 立形式化的 计算模型来分析、理解和处理自然语言的学科,也是 一门横跨语言学、计算 机科学、数学等领域的交叉学科。自然语 言处理,是指用计算机对自然语言 的形、音、义等信息进行处理 ,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译 、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识 别等。 可以说,自然语言处理就是要计算机理解自然语言,自然 付费的专业版。专业版额外增加了一些功能, 如项目模板、远程开发、数据库支持等。个人学习 Python 使用免费的社区版 已足够。 如果有edu邮箱,那么推荐使用专业版,edu邮箱是可以免费使用专业版的。 安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串0 码力 | 80 页 | 5.38 MB | 1 年前3
AI大模型千问 qwen 中文文档方 法 替 代。 这 里 使 用 了 apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 add_generation_prompt 参数用于在输入中添加生成提示,该提示指向 <|im_start|>assistant\n 。尤其需要注意的是,我们 遵循先前实践,对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此 batch_decode() 函数对响应进行解码。关于输入部分,上述的 messages 是一个 示例,展示了如何格式化对话历史记录和系统提示。默认情况下,如果您没有指定系统提示,我们将直接使 用 You are a helpful assistant. 作为系统提示。 1.3.2 流式输出 借助 TextStreamer ,您可以将与 Qwen 的对话切换到流式传输模式。下面是一个关于如何使用它的示例: https://github.com/QwenLM/Qwen-Agent.git cd Qwen-Agent pip install -e ./ 1.14.2 开发您自己的智能体 Qwen-Agent 提供包括语言模型和提示词等原子级组件,及智能体等高级组件在内的多种组件。以下示例选 取助理组件进行展示,阐述了如何整合自定义工具以及如何迅速开发出一个能够应用这些工具的代理程序。 import json import os0 码力 | 56 页 | 835.78 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211211.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第 12 章 自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12.5 '"': 14 为了有效表达单词直接的语义相关性,通常需要将数字编码的单词转换为向量编码,即词 向量。这里通过 nn.Embedding 层将数字编码的单词转换为长度为 100 个词向量: 预览版202112 4.5 张量的典型应用 15 In [47]: # 创建词向量 Embedding 层,输入最大 10002 个单词,编码长度为 100 的向量 embedding # 打印批形状 word_vec = embedding(text) # 通过 Embedding 层获取词向量 print('after:', word_vec.shape) # 打印词向量的 shape Out[47]: before: torch.Size([80, 30]) torch.Size([30]) after: torch.Size([80, 300 码力 | 439 页 | 29.91 MB | 1 年前3
全连接神经网络实战. pytorch 版的讲解方式,但我们对讲解顺序和内容,以及程序代码都做了大量的改进。说了那么多, 总之,我们的目标是写一个最好的最容易上手的 pytorch 入门教程——从全连接网络开始。 书中的示例代码在网站页面可以找到。每节末尾会提示“本节代码见 chapterX.py”。 20211006:完成本书第一版。 5 1. 准备章节 1.1 导入 pytorch 6 1.2 导入样本数据 7 本章节将神经网络训练之前的准 于不同版本的 pytorch 会依赖于不同的 cuda 工具,二是因为官网资料非常齐全,也有很多博客来 介绍,因此没有必要赘述。 1.1 导入 pytorch 首先我们需要明白一个术语:tensor。这个词被翻译为中文叫张量。1 维标量是一种 tensor; 向量也是一种 tensor;而一些微分量,例如梯度、导数等也都是 tensor;矩阵也是张量;多张矩 阵或者多张图像也是张量(3 维张量)。我们在做实验时,可以将0 码力 | 29 页 | 1.40 MB | 1 年前3
Docker 从入门到实践 0.9.0(2017-12-31)后边可以跟多个参数,这里主要说明 -i -t 参数。 只用 -i 参数时,由于没有分配伪终端,界面没有我们熟悉的 Linux 命令提示符,但命令执 行结果仍然可以返回。 当 -i -t 参数一起使用时,则可以看到我们熟悉的 Linux 命令提示符。 进入容器 113 $ docker run -dit ubuntu 69d137adef7a8a689cbcb059e94d 退出登录。 拉取镜像 你可以通过 docker search 命令来查找官方仓库中的镜像,并利用 docker pull 命令来将它 下载到本地。 例如以 centos 为关键词进行搜索: $ docker search centos NAME DESCRIPTION docker.domain.com $ docker push docker.domain.com/username/ubuntu:17.10 no basic auth credentials 发现会提示没有登录,不能将镜像推送到私有仓库中。 注意事项 如果你本机占用了 443 端口,你可以配置 Nginx 代理,这里不再赘述。 私有仓库高级配置 129 Docker 数据管理 这一章介绍如何在0 码力 | 370 页 | 6.73 MB | 1 年前3
OpenShift Container Platform 4.14 镜像1.7. 容器 OpenShift Container Platform 应用程序的基本单元称为容器。Linux 容器技术是一种轻量型机制,用于 隔离运行中的进程,使它们只能跟指定的资源交互。容器一词被定义为容器镜像的特定运行或暂停实例。 在一个单一的主机上可以包括多个容器来运行多个不同的应用程序实例,且相互间无法看到其他应用程序 的进程、文件、网络等。通常情况下,每个容器提供一项服务,常称为微服务,如 Client 条目旁的 Download Now 来保存文件。 4. 使用 ZIP 程序解压存档。 5. 将 oc 二进制文件移到 PATH 中的目 中的目录 录中 中。 要查看您的 PATH,请打开命令提示并执行以下命令: $ tar xvf$ echo $PATH $ oc OpenShift Container Platform 4.14 镜 镜像 像 /etc/containers/policy.json 文件中的镜像签名策略。 验证 验证 输入以下命令获取节点列表: 输出示例 1. 运行以下命令在节点上进入 debug 模式: 2. 出现提示时,在终端中输入 chroot /host: 3. 输入以下命令检查 registry 是否已添加到策略文件中: 以下策略表示,仅允许来自 example.com、quay.io 和 registry 0 码力 | 118 页 | 1.13 MB | 1 年前3
共 95 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













