开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供0 码力 | 32 页 | 13.09 MB | 1 年前3
清华大学 普通人如何抓住DeepSeek红利攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) 场景1:1小时内写完一个1万字的项目书 场景:下午3点,你突然接到领导通知:“今晚4点前必须交一份10000字的智能物流园区项目方案书,客户临时提 前会议!”你大脑一片空白——手头只有零散的会议记录、几份过时的模板,且对“智能物流”技术细节不熟。电 脑右下角显示时间:3:05 PM,你手心冒汗,疯狂翻找资料,但文档光标始终停留在标题页…… 场景1:1小时内写完一个1万字的项目书 是否可 场景1:1小时内写完一个1万字的项目书 第二阶段:20分钟——用AI批量填充模块(目标:6000字) 针对每个小节单独提问,例如: “写一段‘2.1 功能分区’的内容,要求包含自动化立体仓库、AGV调度中心、冷链专区的技术参数,用数据列表形式 呈现。” 关键技巧: p 数据嫁接:若缺乏具体数据,直接让AI生成合理虚构值(标注“示例”规避风险): p “假设园区占地500亩,日均处理包裹量50万件,请计算自动化分拣设备的配置数量,用表格展示。”0 码力 | 65 页 | 4.47 MB | 8 月前3
国家人工智能产业综合标准化体系建设指南(2024版)加快构建满足人工智能产业高质量发展和“人工智能+”高水 平赋能需求的标准体系,夯实标准对推动技术进步、促进企 业发展、引领产业升级、保障产业安全的支撑作用,更好推 进人工智能赋能新型工业化,特制定本指南。 一、产业发展现状 人工智能是引领新一轮科技革命和产业变革的基础性 和战略性技术,正成为发展新质生产力的重要引擎,加速和 实体经济深度融合,全面赋能新型工业化,深刻改变工业生 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现快速发展,形成庞大市场规模。伴随以大模型为代 2 表的新技术加速迭代,人工智能产业呈现出创新技术群体突 破、行业应用融合发展、国际合作深度协同等新特点,亟需 完善人工智能产业标准体系。 彻党的二十大和二十届二中全会精神,认真落实中央经济工 作会议和全国新型工业化推进大会部署要求,完整、准确、 全面贯彻新发展理念,统筹高质量发展和高水平安全,加快 赋能新型工业化,以抢抓人工智能产业发展先机为目标,完 善人工智能标准工作顶层设计,强化全产业链标准工作协 同,统筹推进标准的研究、制定、实施和国际化,为推动我 国人工智能产业高质量发展提供坚实的技术支撑。 到 2026 年,标准与产业科技创新的联动水平持续提升,0 码力 | 13 页 | 701.84 KB | 1 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单情感分析,对数据进行深入解读,帮助市场调 研等领域理解消费者情感,优化产品和策略。 • 故事化数据呈现:借助o3mini将数据以 故事的形式呈现,增强数据的可读性和吸引力, 帮助公众理解复杂的科学和技术知识。 • 复杂数据模式识别:借助o3mini高效分 析复杂数据,帮助科学研究和工程领域发现 模式和规律,如天文学中的星系演化或地质 学中的地震数据分析。 • 多源数据融合分析:在智能交通和城市 容,帮助 用户更好理解和呈现研究成果。 无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。 低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 无限双语数据导入:支持中文与英文文献的导入,并且 文献数据量没有限制,能够轻松处理中文文献的系统性 版(单图)、专业版(双图)。 文献导入:用户可从现有文献数据库中下载中英文数据后导入平台,或直接通过实时联网访问免费数据库 进行在线分析,操作简单便捷。 信息提取与分析:平台自动运用AI技术对导入的文献进行关键信息提取和深度梳理分析,用户无需进行复 杂操作,等待平台处理完成即可。 综述生成:根据智能分析结果,平台自动生成结构化的文献综述文本内容和可视化图表,用户可直接获取 完整的0 码力 | 85 页 | 8.31 MB | 8 月前3
人工智能安全治理框架 1.0全国网络安全标准化技术委员会 2024年9月 人工智能 安全治理框架1. 人工智能安全治理原则 …………………………………… 1 2. 人工智能安全治理框架构成 ……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施 ……………………………………………… 和落脚点,构建各方共同参与、技管结合、分工协作的治理机制,压实相关主 体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人 工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国 家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工 智能技术造福于人类。 1.1 包容审慎、确保安全。鼓励发展创新,对人工智能研发及应用采取 包容态度。严守安全底线,对危害国家安全、社会公共利益、公众合法权益的 1.2 风险导向、敏捷治理。密切跟踪人工智能研发及应用趋势,从人工 智能技术自身、人工智能应用两方面分析梳理安全风险,提出针对性防范应对 措施。关注安全风险发展变化,快速动态精准调整治理措施,持续优化治理机 制和方式,对确需政府监管事项及时予以响应。 1.3 技管结合、协同应对。面向人工智能研发应用全过程,综合运用技术、 管理相结合的安全治理措施,防范应对不同类型安全风险。围绕人工智能研发0 码力 | 20 页 | 3.79 MB | 1 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502360集团创始人 周鸿祎 3 政企、创业者必读政企、创业者必读 一张图读懂一堂DeepSeek课政企、创业者必读 AI给了一个比互联网更大的机会 互联网是连接平台,人工智能是生产力 互联网是赋能性技术,生产力属性较弱 人工智能既能单兵作战,也能外部赋能 互联网创造了能写140个字的推特和分享照片的Instagram AI能帮助人解决登陆火星、能源自由的问题 5政企、创业者必读 大模型 电气革命 信息革命 以大模型为代表的 人工智能革命 人工智能是新质生产力的关键支撑技术,人工智能+百业千行将带动新一轮工业革命,为高质量发展注入强大动能 大模型的进一步突破将引领人类社会进入智能化时代,对我们的生活方式、生产方式带来巨大变革 重塑经济图景 解决复杂问题 7政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业政企、创业者必读 全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判 之三 模型越做越专 除了少数科技巨头,大多数公司都专注于做专业大模型 MoE架构盛行,本质是多个专家模型组成一个大模型 Dee0 码力 | 76 页 | 5.02 MB | 5 月前3
DeepSeek从入门到精通(20250204)实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强 调深度推理能力。此类模型 模糊需求(如“写个排序代码”) 多轮对话 通用模型 自然交互,无需结构化指令 “你觉得人工智能的未来会怎样?” 强制逻辑链条(如“分三点回答”) 推理模型 需明确对话目标,避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问(如“你害怕AI吗?”) 逻辑分析 推理模型 直接抛出复杂问题 “分析‘电车难题’中的功利主义 与道德主义冲突” 添加主观引导(如“你认为哪种对?”)0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强 调深度推理能力。此类模型 模糊需求(如“写个排序代码”) 多轮对话 通用模型 自然交互,无需结构化指令 “你觉得人工智能的未来会怎样?” 强制逻辑链条(如“分三点回答”) 推理模型 需明确对话目标,避免开放发散 “从技术、伦理、经济三方面分析 AI的未来” 情感化提问(如“你害怕AI吗?”) 逻辑分析 推理模型 直接抛出复杂问题 “分析‘电车难题’中的功利主义 与道德主义冲突” 添加主观引导(如“你认为哪种对?”)0 码力 | 103 页 | 5.40 MB | 8 月前3
普通人学AI指南1.1 AIGC AIGC 是指使用人工智能模型生成内容的技术。这些内容可以包括图像、音频、 文本、视频、3D 模型等。具体来说,AIGC 技术可以生成如下类型的内容: • 图像:如照片、原创艺术作品 • 音频:如视频游戏中的配音、音乐 • 文本:如代码、广告文案、小说 • 3D 模型:如角色、场景 目前,AIGC 技术处于早期阶段,最常见的产品形态是基于文本的,通过用 户输入来控制 BERT。这些模型因其 高效的学习能力和强大的通用性而受到关注。 开源大模型以 Meta 的 Llama 系列,2024 年 4 月,Llama3 发布,包括 8B 和 70B 模型。 图 2,时间线主要根据技术论文的发布日期(例如提交至 arXiv 的日期)来 确定大型语言模型(大小超过 10B)的发展历程。如果没有相应的论文,我们 将模型的日期设定为其公开发布或宣布的最早时间。我们用黄色标记那些公开 可 AI 工具。 2.3.9 EBSynth 开源:一个开源的视频处理工具,用于将艺术风格应用到视频帧中。 2.4 AI 编程工具 2.4.1 DEvv 程序员的新一代 AI 搜索引擎,专为编程和技术问题检索设计。 2.4.2 JetBrains AI AI 编程开发助手,集成在 JetBrains 系列开发工具中,提升编码效率。 9 Figure 6: AI 编程工具 2.4.3 AirOps0 码力 | 42 页 | 8.39 MB | 8 月前3
Deepseek R1 本地部署完全手册作者wechat:samirtan 版本:V2.0 更新⽇期:2025年2⽉8⽇ ⼀、简介 Deepseek R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册 为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅ 案及完整671B MoE模型的Ollama部署⽅法。 核⼼提示: 个⼈⽤户:不建议部署32B及以上模型,硬件成本极⾼且运维复杂。 调试 14B - RAM: 24GB - GPU: RTX 3090(24GB VRAM) - 存储: 20GB - 内存: 32GB(M3 Max) - 存储: 20GB 复杂推理、技术⽂档⽣ 成 32B+ 企业级部署(需多卡并联) 暂不⽀持 科研计算、⼤规模数据 处理 2. 算⼒需求分析 模型 参数规 模 计算精 度 最低显存需 求 最低算⼒需求 DeepSeek-R1 /swapfile sudo swapon /swapfile 七、附录:技术⽀持与资源 华为昇腾:昇腾云服务 沐曦GPU:免费API体验 李锡涵博客:完整部署教程 结语 Deepseek R1 的本地化部署需极⾼的硬件投⼊与技术⻔槛,个⼈⽤户务必谨慎,企业⽤户应充 分评估需求与成本。通过国产化适配与云端服务,可显著降低⻛险并提升效率。技术⽆⽌境, 理性规划⽅能降本增效! ⼿册更新与反馈:如有补充0 码力 | 7 页 | 932.77 KB | 8 月前3
共 13 条
- 1
- 2













