监督微调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

DeepSeek图解10页PDF

. . . . . . . . . . . . . 7 2.3.1 预训练（Pretraining） . . . . . . . . . . . . . . . . . . 7 2.3.2 监督微调（Supervised Fine-Tuning, SFT） . . . . . . 7 2.3.3 强化学习（Reinforcement Learning, RL） . . . . . . . 7 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。 3. 离线运行，适用于无网络环境。可在离线环境下运行：适用于无互联网连接或网络受限的场景。提高系统稳定性：即使云服务宕机，本地大模型依预训练（Pretraining） LLM 训练通常采用大规模无监督学习，即：1. 从互联网上收集大量文本数据，如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布，理解句子结构。3. 训练目标是最小化预测误差，使其能更好地完成语言任务。 2.3.2 监督微调（Supervised Fine-Tuning, SFT）在预训练之后，通常需要对模型进行监督微调（SFT）：使用人工标注的数据集，让模

0 码力 | 11 页 | 2.64 MB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

k1.5  垂直领域优化：针对特定领域（如医疗、法律）进行优化，提供高精度结果。  长文本处理：擅长处理长文本和复杂文档，适合专业场景。  定制化能力：支持用户自定义训练和微调，适应特定需求。 Open AI o3 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话 DeepSeek R1引发全球关注推理能力：核心突破，专项升级  推理能力 • 强化学习驱动：DeepSeek R1-Zero 是首个完全基于强化学习（RL）训练的推理模型，无需任何监督微调（SFT）步骤，打破传统模型依赖大量标注数据的惯例。DeepSeek-R1 采用强化学习作为核心训练方法，显著提升了模型的推理能力和语言表达的可读性。 • 推理能力专项提升：在除了利用强化学习模型结合跨领域训练提升模 DeepSeek R1 的核心突破在于其通过强化学习驱动的推理能力。该模型在训练过程中，通过强化学习技术，显著提升模型的推理能力，使其在数学、编程和自然语言推理等任务上表现出色。传统依赖：大规模监督微调（SFT）创新思路：强化学习（RL）驱动  推理效率 • 长思维链支持：DeepSeek R1 支持长链推理，能够生成数万字的思维链，显著提高复杂任务的推理准确性，其长链推理能力在数学、

0 码力 | 85 页 | 8.31 MB | 8 月前
3
人工智能安全治理框架 1.0

综合运用技术、管理相结合的安全治理措施，防范应对不同类型安全风险。围绕人工智能研发应用生态链，明确模型算法研发者、服务提供者、使用者等相关主体的安全责任，有机发挥政府监管、行业自律、社会监督等治理机制作用。 1.4 开放合作、共治共享。在全球范围推动人工智能安全治理国际合作，共享最佳实践，提倡建立开放性平台，通过跨学科、跨领域、跨地区、跨国界的对话和合作，推动形成具有广泛共识的全球人工智能治理体系。提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。（e）模型复用的缺陷传导风险。依托基础模型进行二次开发或微调，是常见的人工智能应用模式，如果基础模型存在安全缺陷，将导致风险传导至下游模型。 3.2.2 现实域安全风险（a）诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、民理人才的培养，支持培养人工智能安全前沿基础领域顶尖人才，壮大无人驾驶、- 12 - 人工智能安全治理框架智能医疗、类脑智能、脑机接口等领域安全人才队伍。 5.9 建立健全人工智能安全宣传教育、行业自律、社会监督机制。面向政府、企业、社会公用事业单位加强人工智能安全规范应用的教育培训。加强人工智能安全风险及防范应对知识的宣传，全面提高全社会人工智能安全意识。指导支持网络安全、人工智能领域行业协会加强行业自律，制定提出高

0 码力 | 20 页 | 3.79 MB | 1 月前
3
Moonshot AI 介绍

L，是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型，解决了语⾔建模上下⽂⻓度的关键问题，定义了语⾔建模的新标准；曾与DeepMind和CMU合作研究，⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo，引爆了基于对⽐学习的视觉预训练范式，也是过去三年 CVPR引⽤量最⾼的⼯作；发明了ShuffleNet，最⾼效的视觉⽹络结构之⼀；主导开发了 ong-context是实现这⼀点的基础⸺模型的微调⻓期不应该存在，⽤⼾跟模型的交互历史就是最好的个性化过程，历史上每⼀代技术都是在提升contextlength。杨植麟⾝上的标签有天才AI科学家、连续创业者……在这次深度访谈中，他再次证明⾃⼰是个真正“懂”⼤模型的创业者，所以本⽂中有许多反共识的观点：杨植麟觉得微调最终会不存在， tokenizer最后也不⼀定是必⾃⼰本⾝的合成数据服务。出现这种情况的话，能源的问题也解决了，因为推理是可以分布式的。⽽且它不违背定律，本质还是个能源守恒。只不过我把计算范式改变了，让能源能够以分布式的⽅式解决。超级应⽤：模型的微调可能最终不存在海外独⻆兽：Google和抖⾳背后的搜索和推荐有很强的⻜轮效应，算法能根据⽤⼾的⾏为实时反馈，⽤⼾体验也能不断提升。LLM现在⽆法实时反馈⽤⼾⾏为，AI-Native产品的⻜轮效应会是什

0 码力 | 74 页 | 1.64 MB | 1 年前
3
2023年中国基础软件开源产业研究白皮书

开源项目运营：支持开发者社区运营，促进项目生态建设。拓展开源生态链，汇聚企业、个人、组织参与开源项目。开源品牌推广：打造年度重大品牌活动，完善传播矩阵，培养开源人才，链接各方资源促进开源繁荣理事会安全委员会技术监督委员会依据项目属性，选取若干家行业优秀企业共同组成，对项目未来发展献计献策白金捐赠人黄金捐赠人白银捐赠人开源贡献人 17家 13家 20家 6家截至2023年8月，开放原子开源基金会共有资金捐赠人58 认证 • 进出口 • 应用 • 监督管理提出加强保护支持产权，鼓励产学研结合等鼓励措施推进商用密码检测认证体系建设，明确商用密码检测机构的资质 • 科研 • 检测规范对采用商用密码技术提供电子认证服务的行为和资质认定定义需要实时进口许可、出口管制的商用密码鼓励公民、法人和其他组织使用规范商用密码保护网络信息安全督促商用密码建成协作监督机制，推进信用体系建立条例重点规范活动与相关监督管理条例重点规范活动与相关监督管理强调商用密码人才培养，鼓励行业协会等相关角色发挥作用，进行商用密码规范的宣传教育详细规定了相关法律责任，对违法行为分类，制定违法行为相对应的具体罚款金额其他强调点商业密码管理条例解读（2023.05.24）中华人民共和国个人信息保护法（2021.08.20）中华人民共和国网络安全法（2016.11.07）中华人民共和国密码

0 码力 | 43 页 | 4.69 MB | 1 年前
3
2023 中国开源开发者报告

场面”。 1 1 目录一、开源开发者事件回顾三、中国开发者开源新动向二、2023 LLM 技术报告  46 | 向量数据库  47 | 数据库向量支持  48 | 大模型框架、微调  51 | 大模型训练平台与工具  53 | 编程语言  57 | 知名大模型  58 | 备案上线的中国大模型  21 | 硬核发版  26 | 热门话题  33 | 言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。” 长度是 Llama 1 的 2 倍，并采用了分组查询注意力机制。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，微调 Chat 模型是在 100 万人类标记数据上训练的。 7 / 87 1 1 开源开发者事件回顾 Auto-GPT 横空出世，席卷 AI 圈 “零一万物”发布 Yi 系列开源大模型 Vercel 相当于要从 “你赚你的钱我赚我的钱” 模式转变为 “我赚你赚的钱”。 Drew 表示 FSF 的成就毋庸置疑，但 FSF 没有重视起传播自由软件理念，开发、发布和推广 CopyLeft 许可证，监督自由软件运动的健康演进——这几个核心理念的发展，同时还分心将资源投入到了其他的闲散工作中。 OSCHINA 社区用户「王政」评论： FSF 的确有问题，但我认为问题并不在文章所说的那些点里面：根本问题

0 码力 | 87 页 | 31.99 MB | 1 年前
3
2024 中国开源开发者报告

中国开源开发者报告重点聚焦大模型，本章节以大模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源社区生态，我们使用了对开源社区的生态评估体系，希望通过这些数据洞察中国开源开发者在专业模型是通用大模型和垂直领域数据、工作流的结合。这里通用大模型的基础能力是关键，一个世界领先的通用大模型加上 RAG（搜索增强生成）行业知识库，做出的专业模型效果往往超过开源模型加上一些垂直领域数据微调得到的行业模型。因此，专业模型虽然训练、推理成本都较高，但考虑到较高的溢价空间，投入是值得的。由于通用大模型的通用性，难以建立差异化壁垒，也难以形成网络效应，因此基础模型公司的竞争将非常激烈，算力将成为长期竞争力的关键。统内的知识，包括生效和失效时间，知识的协作，以及便捷地为知识更新内容等。RAG 在知识维护上，既不需要像传统 NLP 那样由人工先理解再抽取问答对，也不需要像微调（fine-tune）那样需要非常专业的技术能力，以及微调之后的繁琐对齐（alignment）优化。所以如果客户的知识内容 45 / 111 更新比较频繁（假设每天需要追加、替换大量实时资讯内容），特别是金融证券、企业情报等场

0 码力 | 111 页 | 11.44 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

28 例：课后作业仔细思考政企、创业者必读 DeepSeek-R1是AI发展史上的重要里程碑 R1形成了新的AGI定律，加速了AGI发展 Alpha Zero时刻 • Alpha Go采用监督学习，使用人类棋谱训练 • Alpha Zero采用强化学习，自己跟自己对弈 ChatGPT时刻 • OpenAI ChatGPT大模型，通过预训练方式，实现涌现，理解人类语言和知识成本：不需要投入千万、上亿资金，少量资金投入就可以能力：不需要等待下一代AGI面面俱到的能力响应：响应速度更快，用户体验更好部署：可以私有化部署，保障政府企业数据安全训练：不需要从头训练，只需要专业知识库或者微调就可以人才：大模型训练复杂程度降低，对人才要求也降低工具：已经有全套工具走专业化大模型之路，大模型落地门槛大幅降低从原子弹变成「茶叶蛋」 52政企、创业者必读基于DeepSeek是打造专业大模型、

0 码力 | 76 页 | 5.02 MB | 5 月前
3
中国开源软件产业研究报告

项目的发展进行定期评估，项目能否毕业通常由这个评估委员会通过民主投票决定项目从基金会毕业意味着项目已经积累了一定量的成熟用户，构建起了一个成熟、具有创新力的开源社区，能够基本脱离基金会的持续监督和指导，进行“自治”运营从基金会毕业并不意味着项目和基金会脱离关系或停止发展，基金会仍然拥有该项目的知识产权。以Apache软件基金会为例，项目从孵化器毕业后，将成为基金会的顶级项目或子须通过董事会/理事会的表决才能执行，如基金会的资金、知识产权等资产的管理与分配及其他重大决策；2）项目管理委员会/技术监督委员会，决定开源项目能否进入孵化流程以及能否毕业，对基金会中的项目提供技术支持与指导，确保每个项目都符合基金会的规范章程；3）运营和执行部门，负责监督、运营、人事、章程制定等常规工作，实际执行基金的使用工作。此外，由于实际参与项目运作的开发者在组织上相对灵活、不直接隶属开发者在组织上相对灵活、不直接隶属于基金会本身，一般不计入在开源基金会的组织架构当中。 Apache软件基金会组织架构和各部门的运作模式决策机构、技术监督机构以及支持团队三足鼎立董事会项目管理委员会 PMC 支持团队 PMC的职责为积极管理一个或多个特定社区，可以细分为IPMC（孵化器项目管理委员会）和PPMC（Podling项目管理委员会） IPMC 统管所有孵化项目，每月收集一次孵化项目报告，直接向董事会汇报

0 码力 | 68 页 | 3.63 MB | 1 年前
3
国家人工智能产业综合标准化体系建设指南（2024版）

语言处理、智能语音、计算机视觉、生物特征识别、人机混合增强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等，包括自监督学习、无监督学习、半监督学习、深度学习、强化学习等标准。 2. 知识图谱标准。规范知识图谱的描述、构建、运维、共享、管理和应用，包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、

0 码力 | 13 页 | 701.84 KB | 1 年前
3

共 119 条前往

页

分类

语言

格式