跨平台技术 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 助手开发等方面，LLM 技术也发挥了关键作用。此外，它还在代码生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM 备案上线的中国大模型  知名大模型  知名大模型应用大模型算力工具和平台  LLMOps  大模型聚合平台  开发工具 AI 编程  插件、IDE、终端  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。

0 码力 | 32 页 | 13.09 MB | 1 年前
3
DeepSeek从入门到精通(20250204)

实体提取（人名、地点、事件）文本分类文本分类主题标签生成（如新闻分类）垃圾内容检测编程与代码相关代码调试 • 错误分析与修复建议 • 代码性能优化提示技术文档处理 • API文档生成 • 代码库解释与示例生成代码生成 • 根据需求生成代码片段（Python、 JavaScript） • 自动补全与注释生成例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型模糊需求（如“写个排序代码”）多轮对话通用模型自然交互，无需结构化指令 “你觉得人工智能的未来会怎样？” 强制逻辑链条（如“分三点回答”）推理模型需明确对话目标，避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问（如“你害怕AI吗？”）逻辑分析推理模型直接抛出复杂问题 “分析‘电车难题’中的功利主义与道德主义冲突” 添加主观引导（如“你认为哪种对？”）

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

实体提取（人名、地点、事件）文本分类文本分类主题标签生成（如新闻分类）垃圾内容检测编程与代码相关代码调试 • 错误分析与修复建议 • 代码性能优化提示技术文档处理 • API文档生成 • 代码库解释与示例生成代码生成 • 根据需求生成代码片段（Python、 JavaScript） • 自动补全与注释生成例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型模糊需求（如“写个排序代码”）多轮对话通用模型自然交互，无需结构化指令 “你觉得人工智能的未来会怎样？” 强制逻辑链条（如“分三点回答”）推理模型需明确对话目标，避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问（如“你害怕AI吗？”）逻辑分析推理模型直接抛出复杂问题 “分析‘电车难题’中的功利主义与道德主义冲突” 添加主观引导（如“你认为哪种对？”）

0 码力 | 103 页 | 5.40 MB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

与生成：基于 DeepSeek R1的中文数据处理能力，快速分析法律文本，提取关键信息，自动生成合同草案、法律意见书等，提高律师工作效率。 • 智能医疗数据分析与诊断：构建智能医疗平台，分析病历、检查报告和基因数据，帮助医生提供更准确的诊断与治疗方案。 • 金融风险预测与管理：开发金融风险分析工具，收集并分析市场数据，预测风险并为金融机构提供管理建议。 • 智能文学创作辅助：为作家提供创作灵感受众自动生成创意广告文案和宣传语，提高广告创作效率。 • 中小企业AI定制化服务：为中小企业提供定制化的AI解决方案，如智能客服、营销和办公工具，提升企业竞争力。 • 开源AI教育平台：借助DeepSeek R1 的低成本特性，创建开源AI教育平台，提供免费课程和实验资源，促进AI教育普及。 • 智能编程教育助手：为编程学生提供实时编程指导，自动生成代码示例，帮助解决编程难题。 • 自动化代码审查工具：自动审查代码，数据接口标准化：根据标准格式输出数据，利用o3mini方便不同系统和平台之间的数据共享，提升跨机构协作效率。 • 情感分析与数据解读：利用o3mini结合情感分析，对数据进行深入解读，帮助市场调研等领域理解消费者情感，优化产品和策略。 • 故事化数据呈现：借助o3mini将数据以故事的形式呈现，增强数据的可读性和吸引力，帮助公众理解复杂的科学和技术知识。 • 复杂数据模式识别：借助o3mini高效分

0 码力 | 85 页 | 8.31 MB | 8 月前
3
人工智能安全治理框架 1.0

全国网络安全标准化技术委员会 2024年9月人工智能安全治理框架1. 人工智能安全治理原则 …………………………………… 1 2. 人工智能安全治理框架构成 ……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施 ……………………………………………… 和落脚点，构建各方共同参与、技管结合、分工协作的治理机制，压实相关主体安全责任，打造全过程全要素治理链条，培育安全、可靠、公平、透明的人工智能技术研发和应用生态，推动人工智能健康发展和规范应用，切实维护国家主权、安全和发展利益，保障公民、法人和其他组织的合法权益，确保人工智能技术造福于人类。 1.1 包容审慎、确保安全。鼓励发展创新，对人工智能研发及应用采取包容态度。严守安全底线，对危害国家安全、社会公共利益、公众合法权益的 1.2 风险导向、敏捷治理。密切跟踪人工智能研发及应用趋势，从人工智能技术自身、人工智能应用两方面分析梳理安全风险，提出针对性防范应对措施。关注安全风险发展变化，快速动态精准调整治理措施，持续优化治理机制和方式，对确需政府监管事项及时予以响应。 1.3 技管结合、协同应对。面向人工智能研发应用全过程，综合运用技术、管理相结合的安全治理措施，防范应对不同类型安全风险。围绕人工智能研发

0 码力 | 20 页 | 3.79 MB | 1 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

加快构建满足人工智能产业高质量发展和“人工智能+”高水平赋能需求的标准体系，夯实标准对推动技术进步、促进企业发展、引领产业升级、保障产业安全的支撑作用，更好推进人工智能赋能新型工业化，特制定本指南。一、产业发展现状人工智能是引领新一轮科技革命和产业变革的基础性和战略性技术，正成为发展新质生产力的重要引擎，加速和实体经济深度融合，全面赋能新型工业化，深刻改变工业生要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等方面实现快速发展，形成庞大市场规模。伴随以大模型为代 2 表的新技术加速迭代，人工智能产业呈现出创新技术群体突破、行业应用融合发展、国际合作深度协同等新特点，亟需完善人工智能产业标准体系。赋能新型工业化，以抢抓人工智能产业发展先机为目标，完善人工智能标准工作顶层设计，强化全产业链标准工作协同，统筹推进标准的研究、制定、实施和国际化，为推动我国人工智能产业高质量发展提供坚实的技术支撑。到 2026 年，标准与产业科技创新的联动水平持续提升，新制定国家标准和行业标准 50 项以上，引领人工智能产业高质量发展的标准体系加快形成。开展标准宣贯和实施推广的企业超过 1000

0 码力 | 13 页 | 701.84 KB | 1 年前
3
普通人学AI指南

1.1 AIGC AIGC 是指使用人工智能模型生成内容的技术。这些内容可以包括图像、音频、文本、视频、3D 模型等。具体来说，AIGC 技术可以生成如下类型的内容： • 图像：如照片、原创艺术作品 • 音频：如视频游戏中的配音、音乐 • 文本：如代码、广告文案、小说 • 3D 模型：如角色、场景目前，AIGC 技术处于早期阶段，最常见的产品形态是基于文本的，通过用户输入来控制 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。开源大模型以 Meta 的 Llama 系列，2024 年 4 月，Llama3 发布，包括 8B 和 70B 模型。图 2，时间线主要根据技术论文的发布日期（例如提交至 arXiv 的日期）来确定大型语言模型（大小超过 10B）的发展历程。如果没有相应的论文，我们将模型的日期设定为其公开发布或宣布的最早时间。我们用黄色标记那些公开可闭源的图像编辑工具，专注于简化图像处理流程。 2.3.4 腾讯智影腾讯推出的 AI 视频编辑工具，支持视频内容的智能编辑和增强。 2.3.5 度加创作工具度加创作工具是百度开发的一站式 AI 内容生成平台，支持视频制作、文案生成和数字人模型等功能。 2.3.6 Spike Studio 智能长剪短：一个专为商业视频制作设计的工具，可以将长视频智能剪辑为短视频。 2.3.7 HeyGen 动画视频：用于生成动画视频的

0 码力 | 42 页 | 8.39 MB | 8 月前
3
清华大学普通人如何抓住DeepSeek红利

攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 专业领域问答因果推理知识推理问答系统逻辑推理自然语言处理文本生成与创作建议生成风险评估辅助决策概念关联知识整合交互能力情感分析文本分类图像理解跨模态转换专业建议任务分解情感回应上下文理解对话能力多轮对话数学运算逻辑分析能力图谱诗歌创作语音识别指令理解方案规划实体识别 l 文本创作文章/故事/诗歌写作场景1：1小时内写完一个1万字的项目书场景：下午3点，你突然接到领导通知：“今晚4点前必须交一份10000字的智能物流园区项目方案书，客户临时提前会议！”你大脑一片空白——手头只有零散的会议记录、几份过时的模板，且对“智能物流”技术细节不熟。电脑右下角显示时间：3:05 PM，你手心冒汗，疯狂翻找资料，但文档光标始终停留在标题页…… 场景1：1小时内写完一个1万字的项目书是否可用DeepSeek（深度求索）辅助处理？

0 码力 | 65 页 | 4.47 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

《DeepSeek给我们带来的创业机会》 360集团创始人周鸿祎 3 政企、创业者必读政企、创业者必读一张图读懂一堂DeepSeek课政企、创业者必读 AI给了一个比互联网更大的机会  互联网是连接平台，人工智能是生产力  互联网是赋能性技术，生产力属性较弱  人工智能既能单兵作战，也能外部赋能互联网创造了能写140个字的推特和分享照片的Instagram AI能帮助人解决登陆火星、能源自由的问题 5政企、创业者必读电气革命信息革命以大模型为代表的人工智能革命人工智能是新质生产力的关键支撑技术，人工智能+百业千行将带动新一轮工业革命，为高质量发展注入强大动能大模型的进一步突破将引领人类社会进入智能化时代，对我们的生活方式、生产方式带来巨大变革重塑经济图景解决复杂问题 7政企、创业者必读 8 AI不仅是技术革新，更是思维方式和社会结构的变革国家产业个人企业政企、创业者必读全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」  大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判之三模型越做越专  除了少数科技巨头，大多数公司都专注于做专业大模型  MoE架构盛行，本质是多个专家模型组成一个大模型  Dee

0 码力 | 76 页 | 5.02 MB | 5 月前
3
Deepseek R1 本地部署完全手册

作者wechat：samirtan 版本：V2.0 更新⽇期：2025年2⽉8⽇⼀、简介 Deepseek R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册为技术团队提供完整的本地部署指南，涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅案及完整671B MoE模型的Ollama部署⽅法。核⼼提示：个⼈⽤户：不建议部署32B及以上模型，硬件成本极⾼且运维复杂。调试 14B - RAM: 24GB - GPU: RTX 3090（24GB VRAM） - 存储: 20GB - 内存: 32GB（M3 Max） - 存储: 20GB 复杂推理、技术⽂档⽣成 32B+ 企业级部署（需多卡并联）暂不⽀持科研计算、⼤规模数据处理 2. 算⼒需求分析模型参数规模计算精度最低显存需求最低算⼒需求 DeepSeek-R1 模型参数推荐⽅案适⽤场景 1.5B 太初T100加速卡个⼈开发者原型验证 14B 昆仑芯K200集群企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群科研计算与多模态处理四、云端部署替代⽅案 1. 国内云服务商推荐平台核⼼优势适⽤场景硅基流动官⽅推荐API，低延迟，⽀持多模态模型企业级⾼并发推理腾讯云⼀键部署+限时免费体验，⽀持VPC私有化中⼩规模模型快速上线

0 码力 | 7 页 | 932.77 KB | 8 月前
3

共 15 条前往

页

分类

语言

格式