开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景0 码力 | 32 页 | 13.09 MB | 1 年前3
普通人学AI指南Contents 1 AI 大模型基础 4 1.1 AIGC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 AGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 大模型 . . . . . . . . . . . . . . . . 9 2.3.9 EBSynth . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 AI 编程工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4.1 DEvv . . . . . . . . . . . . . . . . . . . 12 2.5.6 Snack Prompt . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6 AI 大模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.1 AgentGPT . . . . . . . . .0 码力 | 42 页 | 8.39 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 5支持联网查询网址,Claude 3.5 sonnet暂不支持; 四个模型均能根据上传的网页代码,对多个网址链接进行筛选、去重,完全提取出符合指令要求的所有网址链接并形成列表; 在复杂爬虫任务上,DeepSeek R1与Open AI o3min生成的代码均能正常执行数据采集任务,o3响应速度更快,R1数据采集结果更加完 整准确;其他2个模型都存在多次调试但代码仍然运行不成功的问题,如代码中罗列URL不全、输出文本中提取数据为空等。0 码力 | 85 页 | 8.31 MB | 8 月前3
DeepSeek图解10页PDF. . . . . . . . . . . 7 3.1.1 核心创新 1:含 R1-Zero 的中间推理模型 . . . . . . . 8 3.1.2 核心创新 2:通用强化学习 . . . . . . . . . . . . . . . 8 3.2 含 R1-Zero 的中间推理模型训练过程 . . . . . . . . . . . . . . 9 3.3 通用强化学习训练过程 . . . . . . . . . 11 1 1 本地部署并运行 DeepSeek 1.1 为什么要在本地部署 DeepSeek 在本地搭建大模型(如 DeepSeek)具有多个重要的优势,比如: 1. 保护隐私与数据安全。数据不外传:本地运行模型可以完全避免数据上 传至云端,确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调(Fine-tuning):可以根据特定业务需求对模 离线运行,适用于无网络环境。可在离线环境下运行:适用于无互联网 连接或网络受限的场景。提高系统稳定性:即使云服务宕机,本地大模型依 然可以正常工作,不受外部因素影响。 本教程搭建 DeepSeek 好处 本地搭建 DeepSeek 三个比较实际的好处: • 本教程接入的是 DeepSeek 推理模型 R1,开源免费,性能强劲 • 本教程搭建方法 零成本,不需花一分钱。 • 为了照顾到大部分读者,推荐的搭建方法已将电脑配置要求降0 码力 | 11 页 | 2.64 MB | 8 月前3
清华大学第二弹:DeepSeek赋能职场For Culture & Art 文、图、乐、剧 Innovator For Social 智能角色交互体 Innovator For Science & Industry 行业大模型 基座大模型 人机协同 Chatbot •自然语言对话 Reasoner •基本的推理和问 题解决能力 Agent •代表用户执行任 务,具备自主行 动能力 Innovator • 参与发明和创造, • 致力于人机协同和人机共生领域的世界级团队,专注于打造能够驾驭AI、熟悉AI并实现人类与AI共生发展的学术与实践模式。 团队愿景 • 李默非(清华大学人工智能学院拟录博士生):人机共生之基座大模型研究研发 • 何静(清华博士后、北航助理教授):人机共生之快生引擎研究研发 • 尤可可(清华博士后、北石化助理教授):人机共生之AIGC短视频 • 安梦瑶(清华大学博士后):人机共生之AI诊疗研究 • 向安玲(清华博士后、中央民大助理教授):人机共生之AI数据分析领域 • 马绪峰(清华博士后、同济大学助理教授):人机共生之文化艺术创作 成员及核心研究方向 赛事 奖项 2024 “AI4S Cup LLM 挑战赛” 大模型科学文献分析赛道 一等奖 2024 Kaggl e The Learni ng Agency Lab - PII Data Detecti on 金牌 金山办公2024中文文本智能校对大赛 第二名0 码力 | 35 页 | 9.78 MB | 8 月前3
国家人工智能产业综合标准化体系建设指南(2024版)和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现快速发展,形成庞大市场规模。伴随以大模型为代 2 表的新技术加速迭代,人工智能产业呈现出创新技术群体突 基础数据服务标准。规范人工智能研发、测试、应用等 过程中涉及数据服务的要求,包括数据采集、数据标注、数据治 理、数据质量等标准。 2. 智能芯片标准。规范智能芯片相关的通用技术要求,包 括智能芯片架构、指令集、统一编程接口及相关测试要求、芯片 数据格式和协议等标准。 3. 智能传感器标准。规范单模态、多模态新型传感器的接 口协议、性能评定、试验方法等技术要求,包括智能传感器的架 构、指令、数据格式、信息提取方法、信息融合方法、功能集成 包括开发框架的功能要求,与应用系统之间的接口协议、神经网 络模型表达和压缩等标准。 8. 软硬件协同标准。规范智能芯片、计算设备等硬件与系 统软件、开发框架等软件之间的适配要求,包括智能芯片与开发 框架的适配要求、人工智能计算任务调度、分布式计算等软硬件 协同任务的交互协议、执行效率和协同性能等标准。 (三)关键技术标准 关键技术标准主要包括机器学习、知识图谱、大模型、自然 语言处理、智能语音、计算机视觉、生物特征识别、人机混合增0 码力 | 13 页 | 701.84 KB | 1 年前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502AI能帮助人解决登陆火星、能源自由的问题 5政企、创业者必读 大模型是真智能,是人工智能的重大拐点。你相不相信? 大模型是一场工业革命,将重塑所有产品和业务。你相不相信? 不拥抱AI的组织和个人,会被拥抱AI的组织和个人淘汰。你相不相信? 建立AI信仰 6政企、创业者必读 大模型不是泡沫,而是新一轮工业革命的驱动引擎 蒸汽革命 电气革命 信息革命 以大模型为代表的 人工智能革命 人工智能是新质生产力 能 大模型的进一步突破将引领人类社会进入智能化时代,对我们的生活方式、生产方式带来巨大变革 重塑经济图景 解决复杂问题 7政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 人工智能发展历程(二) 从单纯对话的大模型AI,发展到具有行动和执行能力的智能体AI 从数字空间中的AI,走向能理解和操控物理空间的AI 从解决现实问题的AI,走向解决科学问题的科学型AI 大模型AI 智能体AI 物理AI 科学AI 10政企、创业者必读 面对全球大模型产业之争,要打赢「三大战役」 AGI之战 应用场景之战 大模型安全之战 • 探索超越人类的超级人工 智能AGI0 码力 | 76 页 | 5.02 MB | 5 月前3
清华大学 普通人如何抓住DeepSeek红利• DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 让AI用类比解释: “请用‘水管流速’比喻说明隐函数求导中dy/dx的意 义。” Ø 生成记忆口诀: “把隐函数求导步骤编成顺口溜,包含‘遇y先写 dy/dx’等关键词。” 场景2:文科生快速上手编程 加载数据集:使用datasets库加载SQuAD数据集,这个数据 集包含了大量基于2020年之前数据生成的问答对。 提取问题:从数据集中提取问题,并使用set去重。 检查问题数量:确保提取的问题数量至少为10万个。 Dataset),这个数据集 是一个著名的问答数据集,基于维基百科数据生成,并且数 据是2020年之前的。 AI幻觉问题抽取:多数据集 问题加载 探讨大语言模型(LLMs)在模拟人类意见动态和社 会现象(如极化和错误信息传播)中的表现,特别 是引入偏误信息后的意见动态变化。使用大模型模 拟多个虚拟代理,讨论“气候变暖”、“转基因食 品的安全性”和“疫苗的有效性和安全性”三个具 有科学共识的话题。 实验一在无偏误信息条件下,代理通过社交网络进0 码力 | 65 页 | 4.47 MB | 8 月前3
DeepSeek从入门到精通(20250204)DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 当人人都会用AI时,你如何用得更好更出彩? 推理模型 • 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 当人人都会用AI时,你如何用得更好更出彩? 推理模型 • 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。 推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它 们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。 非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强0 码力 | 103 页 | 5.40 MB | 8 月前3
共 15 条
- 1
- 2













