机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入1 2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2.使用这些高质量的嵌入来训练语言模型(进行下一个单词 预测)。 19 3.Word2Vec 负采样 并不是每次迭代都训练全部10,000个,我们只训练其中 的5个,我们要训练对应真正目标词那一个分类器,再训练 4个随机选取的负样本,这就是0 码力 | 44 页 | 2.36 MB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别generate('1234’) audio.write('1234', 'out.wav’) pydot pydot 是用纯 Python 实现的 GraphViz 接口,支持使用 GraphViz 解析和存储 DOT语言 (graph description language)。其主要依赖 pyparsing 和 GraphViz 这两个工具库。 pyparsing:仅用于加载DOT文件,在 pydot 安装期间自动安装。 整破解进 程,可能是用第二台计算机学习第一台对CAPTCHA的破解,或者是对成效进行监视。 https://zh.wikipedia.org/wiki/captcha 验证码(CAPTCHA)演进 https://zh.wikipedia.org/wiki/captcha 早期的Captcha验证码 "smwm" ,由EZ-Gimpy 程序产生,使用扭曲的字母和背景颜色梯度 一种更现代的CAPTCHA,其不使用扭曲的背景及0 码力 | 51 页 | 2.73 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据2017年4月17日 内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS …� 挑战:深度学习空前⽕爆,各种深度学习框架层出不穷,业务部门 拥抱新兴技术。平台怎么应对?� 2 + 2 + 2 + 2 = 8� � � TensorFlow on Yarn技术细节揭秘 NodeManager端GPU亲和性调度:� 后序、递归、深度优先分配算法 深度学习平台演进 SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinator负责协调生成ClusterSpec(扩展的TensorFlow0 码力 | 32 页 | 4.06 MB | 1 年前3
李东亮:云端图像技术的深度学习模型与应用upgrade CPU-constrained, real-time Cloud processing SACC2017 图像技术的三个核心难点>>小、快、准 模型 数据 工程 模型缩减 结构演进 SACC2017 单尺度卷积核 多尺度卷积核 视觉感知的三个核心难点>>小、快、准 Inception结构 SACC2017 Hole algorithm Cross-convolution0 码力 | 26 页 | 3.69 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案短期目标:自动化陈列审核和促销管理 • 方案设计:基于深度学习的检测/分类的AI流水线 • 方案交付:支持在线识别和API调用的 AI SaaS 目录 行业背景:AI新零售是什么? 人类零售演进史 ——《C时代 新零售——阿里研究院新零售研究报告》 中国零售发展处于初级阶段 ——《C时代 新零售——阿里研究院新零售研究报告》 新零售是什么 ——《C时代 新零售——阿里研究院新零售研究报告》0 码力 | 49 页 | 12.50 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . 302 8.3 语言模型和数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 8.3.1 学习语言模型 . . . . . . . . . . . . . . . . . . . . . . . 303 8.3.2 马尔可夫模型与n元语法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.3 自然语言统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.4 读取长序列数据 . 有隐状态的循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 8.4.3 基于循环神经网络的字符级语言模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 315 8.4.4 困惑度(Perplexity) . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言Microsoft(微软) 计算机视觉技术、自然语言处理技术 等 办公 美国 1975年 上市 市值1.21万亿美元 2 Google(谷歌) 计算机视觉技术、自然语言处理技术 等 综合 美国 1998年 上市 市值9324亿美元 3 Facebook(脸书) 人脸识别、深度学习等 社交 美国 2004年 上市 市值5934亿美元 4 百度 计算机视觉技术、自然语言处理技 术 、知识图谱等 综合 中国 Anywhere 自然语言处理技术、非结构化数据认知 企业管理 美国 2003年 B轮融资 估值68亿美元 10 IBM Watson(IBM沃森) 深度学习、智适应学习技术 计算机 美国 1911年 上市 市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习 教育 中国 2015年 A轮融资 估值11亿美元 12 字节跳动 跨媒体分析推理技术、深度学习、自 然 语言处理、图像识别 深度学习入门-图像分割 18 自然语言处理(Natural Language Processing)是一门通过建 立形式化的 计算模型来分析、理解和处理自然语言的学科,也是 一门横跨语言学、计算 机科学、数学等领域的交叉学科。自然语 言处理,是指用计算机对自然语言 的形、音、义等信息进行处理 ,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译0 码力 | 80 页 | 5.38 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇介绍与基础知识 1.1 Pytorch 介绍 Pytorch 是开放源代码的机器学习框架,目的是加速从研究 原型到产品开发的过程。其 SDK 主要基于 Python 语言,而 Python 语言作为流行的人工智能开发语言一直很受研究者与 开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、 云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 Pytorch 历史 最初的来源历史可以追溯到另外两个 机器学习框架,第一个是 torch 框架,第二个是 Chainer,实 现了 Eager 模式与自动微分,Pytoch 集成了这两个框架的优 点, 把 Python 语言作为框架的首选编程语言,所以它的名字 是在 torch 的前面加上 Py 之后的 Pytorch。由于 Pytorch 吸 取了之前一些深度学习框架优点,开发难度大大降低、很容易 构建各种深度学习模型并实现分布式的训练,因此一发布就引 易构建各种复杂的深度学习模型网络,因此很快得到大量人工 智能开发者的认可与追捧,也成为工业界最受欢迎的深度学习 框架之一。 Pytorch 发展至今,其版本跟功能几经迭代,针对不同的场景 任务分裂出不同的分支扩展库,比如针对自然语言处理(NLP) 的 torchtext、针对计算机视觉的 torchvision、针对语音处理 的 torchaudio,这些库支持快速模型训练与演示应用,可以 帮助开发者快速搭建原型演示。此外在移动端支持、模型部署0 码力 | 13 页 | 5.99 MB | 1 年前3
Chatbots 中对话式交互系统的分析与应用with Deep Learning Task-Bot: 任务对话机器人 Task-Bot: task-oriented bot 用户 语音合成 (TTS) 语言产生 (NLG) 语音识别 (ASR) 语言理解 (SLU) 策略优化 (DPO) 状态追踪 (DST) inform(order_op=预订, restaurant_name=云海肴, subbranch=中关村店) subbranch=中关村店) request(phone, name) 理解模块 对话管理 模块 产生模块 Spoken Language Understanding (SLU) • 结构化表示自然语言的语义: • act1 (slot1=value1, slot2=value2,…), act2 (slot1=value1,…), … • acttype, slot, value的取值范围已预先定义好 “您好韩小姐,麻烦提供下手机号哦” request (phone, name=韩小姐) act slot slot value act-slot-value tuples 语言理解 (SLU) • DSTC3中定义的部分动作类别 语言理解 (SLU) Steve Young (2016) 状态追踪 Dialogue State Tracking (DST) • 对话状态应该包含持续对话所需要的各种信息0 码力 | 39 页 | 2.24 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112用正式化的 数学符号推导,其中涉及到少量的概率与统计、线性代数、微积分等数学知识,一般要求读 者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 年代,科学家们尝试通过知识库加推理的方式解决人工智能,通过构建庞大复杂 的专家系统来模拟人类专家的智能水平。这些明确指定规则的方式存在一个最大的难题, 就是很多复杂、抽象的概念无法用具体的代码实现。比如人类对图片的识别、对语言的理 解过程,根本无法通过既定规则模拟实现。为了解决这类问题,一门通过让机器自动从数 据中学习规则的研究学科诞生了,称为机器学习,并在 1980 年代成为人工智能中的热门学 预览版202112 第 在机器学习中,有一个通过神经网络来学习复杂、抽象逻辑的研究方向,称为神经网 络。神经网络方向的研究经历了两起两落。从 2012 年开始,由于算法效果极为显著,深层 神经网络技术在计算机视觉、自然语言处理、机器人等领域取得了重大突破,部分任务上 甚至超越了人类智能水平,开启了以深层神经网络为代表的人工智能的第三次复兴。深层 神经网络也有了一个新名字,叫作深度学习。一般来讲,神经网络和深度学习的区别并不0 码力 | 439 页 | 29.91 MB | 1 年前3
共 26 条
- 1
- 2
- 3













