监督微调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以自己选择要不要继续微调，用新的数据调整词嵌入。 11 2.词嵌入 ?king − ?queen = −0.95 0.93 0.70 0.02 − 0.97 0.95 0.69 0.01 = −1.92 −0 训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程文本风格主流思路是分离文本属性及文本内容迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等图：Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-1：借助预训练，进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要 ✓ GPT（Generative Pre-training Transform

0 码力 | 44 页 | 2.36 MB | 1 年前
3
DeepSeek图解10页PDF

. . . . . . . . . . . . . 7 2.3.1 预训练（Pretraining） . . . . . . . . . . . . . . . . . . 7 2.3.2 监督微调（Supervised Fine-Tuning, SFT） . . . . . . 7 2.3.3 强化学习（Reinforcement Learning, RL） . . . . . . . 7 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。 3. 离线运行，适用于无网络环境。可在离线环境下运行：适用于无互联网连接或网络受限的场景。提高系统稳定性：即使云服务宕机，本地大模型依预训练（Pretraining） LLM 训练通常采用大规模无监督学习，即：1. 从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布，理解句子结构。3. 训练目标是最小化预测误差，使其能更好地完成语言任务。 2.3.2 监督微调（Supervised Fine-Tuning, SFT）在预训练之后，通常需要对模型进行监督微调（SFT）：使用人工标注的数据集，让模

0 码力 | 11 页 | 2.64 MB | 8 月前
3
AI大模型千问 qwen 中文文档

clone https://github.com/casper-hansen/AutoAWQ.git cd AutoAWQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned ，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： device_map="auto",␣ �→safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg = c['messages'] text = tokenizer clone https://github.com/AutoGPTQ/AutoGPTQ cd AutoGPTQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将该微调后的模型命名为 Qwen1.5-7B-finetuned ，且使用的是自己的数据集，比如 Alpaca。要构建你自己的 GPTQ 量化模型，你需要使用训练数据进行校准。以下是一个简单的演示示例，供你参考运行：

0 码力 | 56 页 | 835.78 KB | 1 年前
3
2020美团技术年货算法篇

2018 年底，以 Google BERT[1] 为代表的预训练语言模型刷新了多项 NLP 任务的最好水平，开创了 NLP 研究的新范式：即先基于大量无监督语料进行语言模型预训练（Pre-training），再使用少量标注语料进行微调（Fine-tuning）来完成下游的 NLP 任务（文本分类、序列标注、句间关系判断和机器阅读理解等）。美团 AI 平台搜索与 NLP 部算法团队基于美团海量业务语料训练了方式优化 Query-Doc 语义匹配任务。图 2 展示了基于 BERT 优化美团搜索核心排序相关性的技术架构图，主要包括三部分： ● 数据样本增强：由于相关性模型的训练基于搜索用户行为标注的弱监督数据，我们结合业务经验对数据做了去噪和数据映射。为了更好地评价相关性模型的离线效果，我们构建了一套人工标注的 Benchmark 数据集，指导模型迭代方向。 ● BERT 领域适配：美团业务场景中，Query 覆盖多个业务领域，如果采用人工标注的方法为每个业务领域标注一批训练样本，时间和人力成本过高。我们的解决办法是使用美团搜索积累的大量用户行为数据（如浏览、点击、下单等），这些行为数据可以作为弱监督训练数据。在算法 < 43 DSSM 模型进行样本构造时，每个 Query 下抽取 1 个正样本和 4 个负样本，这是比较常用的方法，但是其假设 Query 下的 Doc 被点击就算是相关的，这个假设在实际

0 码力 | 317 页 | 16.57 MB | 1 年前
3
动手学深度学习 v2.0

550 13.1.2 使用图像增广进行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 13.2 微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.4 微调预训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.5 定义训练函数 . 650 14.1.1 为何独热向量是一个糟糕的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.2 自监督的word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 14.1.3 跳元模型（Skip‐Gram）

0 码力 | 797 页 | 29.45 MB | 1 年前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

k1.5  垂直领域优化：针对特定领域（如医疗、法律）进行优化，提供高精度结果。  长文本处理：擅长处理长文本和复杂文档，适合专业场景。  定制化能力：支持用户自定义训练和微调，适应特定需求。 Open AI o3 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话 DeepSeek R1引发全球关注推理能力：核心突破，专项升级  推理能力 • 强化学习驱动：DeepSeek R1-Zero 是首个完全基于强化学习（RL）训练的推理模型，无需任何监督微调（SFT）步骤，打破传统模型依赖大量标注数据的惯例。DeepSeek-R1 采用强化学习作为核心训练方法，显著提升了模型的推理能力和语言表达的可读性。 • 推理能力专项提升：在除了利用强化学习模型结合跨领域训练提升模 DeepSeek R1 的核心突破在于其通过强化学习驱动的推理能力。该模型在训练过程中，通过强化学习技术，显著提升模型的推理能力，使其在数学、编程和自然语言推理等任务上表现出色。传统依赖：大规模监督微调（SFT）创新思路：强化学习（RL）驱动  推理效率 • 长思维链支持：DeepSeek R1 支持长链推理，能够生成数万字的思维链，显著提高复杂任务的推理准确性，其长链推理能力在数学、

0 码力 | 85 页 | 8.31 MB | 8 月前
3
2022年美团技术年货合辑

动态分配策略，并结合无锚范式，在 nano 尺寸模型上平均检测精度提升 1.3% AP。 SIoU 边界框回归损失为了进一步提升回归精度，YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络的学习。目标检测网络的训练一般需要至少定义两个损失函数：分类损失和边界框回归损失，而损失函数的定义往往对检测精度以及训练速度产生较大的影响。近年来，常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU 完善 YOLOv6 全系列模型，持续提升检测性能。 2) 在多种硬件平台上，设计硬件友好的模型。 3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。 4) 横向拓展和引入关联技术，如半监督、自监督学习等等。 5) 探索 YOLOv6 在更多的未知业务场景上的泛化性能。 12 > 2022年美团技术年货同时也欢迎社区同学加入我们，共同建设一个适合工业应用的更快更准的目标检测框架。 QAT，对每个分支分别添加伪量化算子进行量化感知训练，由于每个分支的量化参数不同，导致多分支结构无法等效融合进行高性能部署；如果对重参数化操作之后的单分支网络进行 QAT，由于网络中不再有 BN 层，使用 QAT 方法进行微调并不容易恢复到浮点精度。而对于 RepOpt 结构网络则不存在这一问题，因为 RepOpt 在训练和部署中网络结构是保持一致的。 22 > 2022年美团技术年货图 4 RepVGG 和

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

1.1.2 机器学习机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning，简称 RL)，如图 1.2 所示。机器学习有监督学习无监督学习强化学习图 1.2 机器学习的分类有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本?的数据集，算法需要自行发现数据的模态，这种方式叫作无监督学习。无监督学习中有一类算法将自身作为监督信号，即模型需要学习的映射为??: ? → ?，称为自监督学习(Self-supervised Learning)。在训练时，通过计算模型的预测值 Learning)。在训练时，通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。常见的无监督学习算法有自编码器、生成对抗网络等。强化学习也称为增强学习，通过与环境进行交互来学习解决问题的策略的一类算法。与有监督学习、无监督学习不同，强化学习问题并没有明确的“正确的”动作监督信号，预览版202112 1.2 神经网络发展简史 3 算法需要与环境进行交互，获取环境反馈的

0 码力 | 439 页 | 29.91 MB | 1 年前
3
人工智能安全治理框架 1.0

综合运用技术、管理相结合的安全治理措施，防范应对不同类型安全风险。围绕人工智能研发应用生态链，明确模型算法研发者、服务提供者、使用者等相关主体的安全责任，有机发挥政府监管、行业自律、社会监督等治理机制作用。 1.4 开放合作、共治共享。在全球范围推动人工智能安全治理国际合作，共享最佳实践，提倡建立开放性平台，通过跨学科、跨领域、跨地区、跨国界的对话和合作，推动形成具有广泛共识的全球人工智能治理体系。提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。（e）模型复用的缺陷传导风险。依托基础模型进行二次开发或微调，是常见的人工智能应用模式，如果基础模型存在安全缺陷，将导致风险传导至下游模型。 3.2.2 现实域安全风险（a）诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、民理人才的培养，支持培养人工智能安全前沿基础领域顶尖人才，壮大无人驾驶、- 12 - 人工智能安全治理框架智能医疗、类脑智能、脑机接口等领域安全人才队伍。 5.9 建立健全人工智能安全宣传教育、行业自律、社会监督机制。面向政府、企业、社会公用事业单位加强人工智能安全规范应用的教育培训。加强人工智能安全风险及防范应对知识的宣传，全面提高全社会人工智能安全意识。指导支持网络安全、人工智能领域行业协会加强行业自律，制定提出高

0 码力 | 20 页 | 3.79 MB | 1 月前
3
Moonshot AI 介绍

L，是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型，解决了语⾔建模上下⽂⻓度的关键问题，定义了语⾔建模的新标准；曾与DeepMind和CMU合作研究，⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo，引爆了基于对⽐学习的视觉预训练范式，也是过去三年 CVPR引⽤量最⾼的⼯作；发明了ShuffleNet，最⾼效的视觉⽹络结构之⼀；主导开发了 ong-context是实现这⼀点的基础⸺模型的微调⻓期不应该存在，⽤⼾跟模型的交互历史就是最好的个性化过程，历史上每⼀代技术都是在提升contextlength。杨植麟⾝上的标签有天才AI科学家、连续创业者……在这次深度访谈中，他再次证明⾃⼰是个真正“懂”⼤模型的创业者，所以本⽂中有许多反共识的观点：杨植麟觉得微调最终会不存在， tokenizer最后也不⼀定是必⾃⼰本⾝的合成数据服务。出现这种情况的话，能源的问题也解决了，因为推理是可以分布式的。⽽且它不违背定律，本质还是个能源守恒。只不过我把计算范式改变了，让能源能够以分布式的⽅式解决。超级应⽤：模型的微调可能最终不存在海外独⻆兽：Google和抖⾳背后的搜索和推荐有很强的⻜轮效应，算法能根据⽤⼾的⾏为实时反馈，⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为，AI-Native产品的⻜轮效应会是什

0 码力 | 74 页 | 1.64 MB | 1 年前
3

共 250 条前往

页

分类

语言

格式