监督微调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以自己选择要不要继续微调，用新的数据调整词嵌入。 11 2.词嵌入 ?king − ?queen = −0.95 0.93 0.70 0.02 − 0.97 0.95 0.69 0.01 = −1.92 −0 训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程文本风格主流思路是分离文本属性及文本内容迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等图：Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-1：借助预训练，进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要 ✓ GPT（Generative Pre-training Transform

0 码力 | 44 页 | 2.36 MB | 1 年前
3
DeepSeek图解10页PDF

. . . . . . . . . . . . . 7 2.3.1 预训练（Pretraining） . . . . . . . . . . . . . . . . . . 7 2.3.2 监督微调（Supervised Fine-Tuning, SFT） . . . . . . 7 2.3.3 强化学习（Reinforcement Learning, RL） . . . . . . . 7 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。 3. 离线运行，适用于无网络环境。可在离线环境下运行：适用于无互联网连接或网络受限的场景。提高系统稳定性：即使云服务宕机，本地大模型依预训练（Pretraining） LLM 训练通常采用大规模无监督学习，即：1. 从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布，理解句子结构。3. 训练目标是最小化预测误差，使其能更好地完成语言任务。 2.3.2 监督微调（Supervised Fine-Tuning, SFT）在预训练之后，通常需要对模型进行监督微调（SFT）：使用人工标注的数据集，让模

0 码力 | 11 页 | 2.64 MB | 8 月前
3
AI大模型千问 qwen 中文文档

clone https://github.com/casper-hansen/AutoAWQ.git cd AutoAWQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned ，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： device_map="auto",␣ �→safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg = c['messages'] text = tokenizer clone https://github.com/AutoGPTQ/AutoGPTQ cd AutoGPTQ pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将该微调后的模型命名为 Qwen1.5-7B-finetuned ，且使用的是自己的数据集，比如 Alpaca。要构建你自己的 GPTQ 量化模型，你需要使用训练数据进行校准。以下是一个简单的演示示例，供你参考运行：

0 码力 | 56 页 | 835.78 KB | 1 年前
3
动手学深度学习 v2.0

550 13.1.2 使用图像增广进行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 13.2 微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.4 微调预训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.5 定义训练函数 . 650 14.1.1 为何独热向量是一个糟糕的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 14.1.2 自监督的word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 14.1.3 跳元模型（Skip‐Gram）

0 码力 | 797 页 | 29.45 MB | 1 年前
3
2022年美团技术年货合辑

动态分配策略，并结合无锚范式，在 nano 尺寸模型上平均检测精度提升 1.3% AP。 SIoU 边界框回归损失为了进一步提升回归精度，YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络的学习。目标检测网络的训练一般需要至少定义两个损失函数：分类损失和边界框回归损失，而损失函数的定义往往对检测精度以及训练速度产生较大的影响。近年来，常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU 完善 YOLOv6 全系列模型，持续提升检测性能。 2) 在多种硬件平台上，设计硬件友好的模型。 3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。 4) 横向拓展和引入关联技术，如半监督、自监督学习等等。 5) 探索 YOLOv6 在更多的未知业务场景上的泛化性能。 12 > 2022年美团技术年货同时也欢迎社区同学加入我们，共同建设一个适合工业应用的更快更准的目标检测框架。 QAT，对每个分支分别添加伪量化算子进行量化感知训练，由于每个分支的量化参数不同，导致多分支结构无法等效融合进行高性能部署；如果对重参数化操作之后的单分支网络进行 QAT，由于网络中不再有 BN 层，使用 QAT 方法进行微调并不容易恢复到浮点精度。而对于 RepOpt 结构网络则不存在这一问题，因为 RepOpt 在训练和部署中网络结构是保持一致的。 22 > 2022年美团技术年货图 4 RepVGG 和

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

1.1.2 机器学习机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning，简称 RL)，如图 1.2 所示。机器学习有监督学习无监督学习强化学习图 1.2 机器学习的分类有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本?的数据集，算法需要自行发现数据的模态，这种方式叫作无监督学习。无监督学习中有一类算法将自身作为监督信号，即模型需要学习的映射为??: ? → ?，称为自监督学习(Self-supervised Learning)。在训练时，通过计算模型的预测值 Learning)。在训练时，通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。常见的无监督学习算法有自编码器、生成对抗网络等。强化学习也称为增强学习，通过与环境进行交互来学习解决问题的策略的一类算法。与有监督学习、无监督学习不同，强化学习问题并没有明确的“正确的”动作监督信号，预览版202112 1.2 神经网络发展简史 3 算法需要与环境进行交互，获取环境反馈的

0 码力 | 439 页 | 29.91 MB | 1 年前
3
人工智能安全治理框架 1.0

综合运用技术、管理相结合的安全治理措施，防范应对不同类型安全风险。围绕人工智能研发应用生态链，明确模型算法研发者、服务提供者、使用者等相关主体的安全责任，有机发挥政府监管、行业自律、社会监督等治理机制作用。 1.4 开放合作、共治共享。在全球范围推动人工智能安全治理国际合作，共享最佳实践，提倡建立开放性平台，通过跨学科、跨领域、跨地区、跨国界的对话和合作，推动形成具有广泛共识的全球人工智能治理体系。提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。（e）模型复用的缺陷传导风险。依托基础模型进行二次开发或微调，是常见的人工智能应用模式，如果基础模型存在安全缺陷，将导致风险传导至下游模型。 3.2.2 现实域安全风险（a）诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、民理人才的培养，支持培养人工智能安全前沿基础领域顶尖人才，壮大无人驾驶、- 12 - 人工智能安全治理框架智能医疗、类脑智能、脑机接口等领域安全人才队伍。 5.9 建立健全人工智能安全宣传教育、行业自律、社会监督机制。面向政府、企业、社会公用事业单位加强人工智能安全规范应用的教育培训。加强人工智能安全风险及防范应对知识的宣传，全面提高全社会人工智能安全意识。指导支持网络安全、人工智能领域行业协会加强行业自律，制定提出高

0 码力 | 20 页 | 3.79 MB | 1 月前
3
Moonshot AI 介绍

L，是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型，解决了语⾔建模上下⽂⻓度的关键问题，定义了语⾔建模的新标准；曾与DeepMind和CMU合作研究，⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo，引爆了基于对⽐学习的视觉预训练范式，也是过去三年 CVPR引⽤量最⾼的⼯作；发明了ShuffleNet，最⾼效的视觉⽹络结构之⼀；主导开发了 ong-context是实现这⼀点的基础⸺模型的微调⻓期不应该存在，⽤⼾跟模型的交互历史就是最好的个性化过程，历史上每⼀代技术都是在提升contextlength。杨植麟⾝上的标签有天才AI科学家、连续创业者……在这次深度访谈中，他再次证明⾃⼰是个真正“懂”⼤模型的创业者，所以本⽂中有许多反共识的观点：杨植麟觉得微调最终会不存在， tokenizer最后也不⼀定是必⾃⼰本⾝的合成数据服务。出现这种情况的话，能源的问题也解决了，因为推理是可以分布式的。⽽且它不违背定律，本质还是个能源守恒。只不过我把计算范式改变了，让能源能够以分布式的⽅式解决。超级应⽤：模型的微调可能最终不存在海外独⻆兽：Google和抖⾳背后的搜索和推荐有很强的⻜轮效应，算法能根据⽤⼾的⾏为实时反馈，⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为，AI-Native产品的⻜轮效应会是什

0 码力 | 74 页 | 1.64 MB | 1 年前
3
2023年中国基础软件开源产业研究白皮书

开源项目运营：支持开发者社区运营，促进项目生态建设。拓展开源生态链，汇聚企业、个人、组织参与开源项目。开源品牌推广：打造年度重大品牌活动，完善传播矩阵，培养开源人才，链接各方资源促进开源繁荣理事会安全委员会技术监督委员会依据项目属性，选取若干家行业优秀企业共同组成，对项目未来发展献计献策白金捐赠人黄金捐赠人白银捐赠人开源贡献人 17家 13家 20家 6家截至2023年8月，开放原子开源基金会共有资金捐赠人58 认证 • 进出口 • 应用 • 监督管理提出加强保护支持产权，鼓励产学研结合等鼓励措施推进商用密码检测认证体系建设，明确商用密码检测机构的资质 • 科研 • 检测规范对采用商用密码技术提供电子认证服务的行为和资质认定定义需要实时进口许可、出口管制的商用密码鼓励公民、法人和其他组织使用规范商用密码保护网络信息安全督促商用密码建成协作监督机制，推进信用体系建立条例重点规范活动与相关监督管理条例重点规范活动与相关监督管理强调商用密码人才培养，鼓励行业协会等相关角色发挥作用，进行商用密码规范的宣传教育详细规定了相关法律责任，对违法行为分类，制定违法行为相对应的具体罚款金额其他强调点商业密码管理条例解读（2023.05.24）中华人民共和国个人信息保护法（2021.08.20）中华人民共和国网络安全法（2016.11.07）中华人民共和国密码

0 码力 | 43 页 | 4.69 MB | 1 年前
3
2023 中国开源开发者报告

场面”。 1 1 目录一、开源开发者事件回顾三、中国开发者开源新动向二、2023 LLM 技术报告  46 | 向量数据库  47 | 数据库向量支持  48 | 大模型框架、微调  51 | 大模型训练平台与工具  53 | 编程语言  57 | 知名大模型  58 | 备案上线的中国大模型  21 | 硬核发版  26 | 热门话题  33 | 言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。” 长度是 Llama 1 的 2 倍，并采用了分组查询注意力机制。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，微调 Chat 模型是在 100 万人类标记数据上训练的。 7 / 87 1 1 开源开发者事件回顾 Auto-GPT 横空出世，席卷 AI 圈 “零一万物”发布 Yi 系列开源大模型 Vercel 相当于要从 “你赚你的钱我赚我的钱” 模式转变为 “我赚你赚的钱”。 Drew 表示 FSF 的成就毋庸置疑，但 FSF 没有重视起传播自由软件理念，开发、发布和推广 CopyLeft 许可证，监督自由软件运动的健康演进——这几个核心理念的发展，同时还分心将资源投入到了其他的闲散工作中。 OSCHINA 社区用户「王政」评论： FSF 的确有问题，但我认为问题并不在文章所说的那些点里面：根本问题

0 码力 | 87 页 | 31.99 MB | 1 年前
3

共 294 条前往

页

分类

语言

格式