 开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 应用。 13 / 32 LLM 基础设施:编程语言 2023 年是大语言模型 (LLM) 之年,Python 作为人工智能领域使用度最高的编程语言,在 2023 年到底有多火? 从各种开发者报告、编程语言榜单来看。只要出现有关编程语言流行度的排名, ,而 Java、C/C++ 等 同样在 LLM 开发中发挥关键作用的语言紧随其后。 14 / 32 LLM 基础设施:编程语言  20230 码力 | 32 页 | 13.09 MB | 1 年前3 开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 应用。 13 / 32 LLM 基础设施:编程语言 2023 年是大语言模型 (LLM) 之年,Python 作为人工智能领域使用度最高的编程语言,在 2023 年到底有多火? 从各种开发者报告、编程语言榜单来看。只要出现有关编程语言流行度的排名, ,而 Java、C/C++ 等 同样在 LLM 开发中发挥关键作用的语言紧随其后。 14 / 32 LLM 基础设施:编程语言  20230 码力 | 32 页 | 13.09 MB | 1 年前3
 清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单DeepSeek R1的中文数据处理能力,快速分 析法律文本,提取关键信息,自动生成合同草 案、法律意见书等,提高律师工作效率。 • 智能医疗数据分析与诊断:构建智能医疗 平台,分析病历、检查报告和基因数据,帮助 医生提供更准确的诊断与治疗方案。 • 金融风险预测与管理:开发金融风险分析 工具,收集并分析市场数据,预测风险并为金 融机构提供管理建议。 • 智能文学创作辅助:为作家提供创作灵感 和设备的实时数据,进行即时分析和决策,减 少停机时间,提高生产效率。 • 高频交易数据分析:利用o3mini快速处理 高频交易数据,识别市场趋势和交易模式,为 交易者提供实时决策支持。 • 数据报告自动化生成:基于o3mini自动 生成格式化的数据报告,包括图表、表格和文 字说明,帮助管理者快速理解分析结果。 • 数据接口标准化:根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据 共享,提升跨机构协作效率。 增强版绘图功能:增强版具备绘图功能,可通过可视化 图示(如文献关键词共现图)直观展示综述内容,帮助 用户更好理解和呈现研究成果。  无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。  低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 0 码力 | 85 页 | 8.31 MB | 8 月前3 清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单DeepSeek R1的中文数据处理能力,快速分 析法律文本,提取关键信息,自动生成合同草 案、法律意见书等,提高律师工作效率。 • 智能医疗数据分析与诊断:构建智能医疗 平台,分析病历、检查报告和基因数据,帮助 医生提供更准确的诊断与治疗方案。 • 金融风险预测与管理:开发金融风险分析 工具,收集并分析市场数据,预测风险并为金 融机构提供管理建议。 • 智能文学创作辅助:为作家提供创作灵感 和设备的实时数据,进行即时分析和决策,减 少停机时间,提高生产效率。 • 高频交易数据分析:利用o3mini快速处理 高频交易数据,识别市场趋势和交易模式,为 交易者提供实时决策支持。 • 数据报告自动化生成:基于o3mini自动 生成格式化的数据报告,包括图表、表格和文 字说明,帮助管理者快速理解分析结果。 • 数据接口标准化:根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据 共享,提升跨机构协作效率。 增强版绘图功能:增强版具备绘图功能,可通过可视化 图示(如文献关键词共现图)直观展示综述内容,帮助 用户更好理解和呈现研究成果。  无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。  低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 0 码力 | 85 页 | 8.31 MB | 8 月前3
 清华大学 普通人如何抓住DeepSeek红利方案规划 实体识别 l 文本创作 文章/故事/诗歌写作 营销文案 、广告语生成 社交媒体内容(如推文 、帖子) 剧本或对话设计 l 摘要与改写 长文本摘要(论文 、报告) 文本简化(降低复杂度) 多语言翻译与本地化 l 结构化生成 表格 、列表生成(如日程安排 、 菜谱) 代码注释 、文档撰写 文本生成 文本生成 03 02 01 语义分析 • 语义解析 你的操作: • 将AI生成内容插入对应章节,优先保证字数达标。 场景1:1小时内写完一个1万字的项目书 第四阶段:10分钟——用AI优化与格式伪装 p统一话术: “将以下段落改写成政府报告风格,加入‘数字化转型’‘双碳战略’等关键词:{粘贴原文}” p生成图表: 指令:“将上文‘设备配置表’转换成LaTeX格式的三线表。”插入图表后,自动增加方案“厚度”。 p最终润色: “检 场景2:新员工快速熟悉公司情况和行业情况 快速了解行业情况和市场趋势 DeepSeek可以整合行业报告、市场分析、竞争对手信 息等数据,帮助新员工快速掌握行业动态。 操作步骤 上传行业报告、市场分析文档、竞争对手资料等到 DeepSeek。 使用搜索功能查询“电子元器件行业现状”、“未来发 展趋势”等关键词,生成简洁的分析报告。 优势 通过DeepSeek的数据分析功能,快速生成行业概览, 节省了手动整理的时间。0 码力 | 65 页 | 4.47 MB | 8 月前3 清华大学 普通人如何抓住DeepSeek红利方案规划 实体识别 l 文本创作 文章/故事/诗歌写作 营销文案 、广告语生成 社交媒体内容(如推文 、帖子) 剧本或对话设计 l 摘要与改写 长文本摘要(论文 、报告) 文本简化(降低复杂度) 多语言翻译与本地化 l 结构化生成 表格 、列表生成(如日程安排 、 菜谱) 代码注释 、文档撰写 文本生成 文本生成 03 02 01 语义分析 • 语义解析 你的操作: • 将AI生成内容插入对应章节,优先保证字数达标。 场景1:1小时内写完一个1万字的项目书 第四阶段:10分钟——用AI优化与格式伪装 p统一话术: “将以下段落改写成政府报告风格,加入‘数字化转型’‘双碳战略’等关键词:{粘贴原文}” p生成图表: 指令:“将上文‘设备配置表’转换成LaTeX格式的三线表。”插入图表后,自动增加方案“厚度”。 p最终润色: “检 场景2:新员工快速熟悉公司情况和行业情况 快速了解行业情况和市场趋势 DeepSeek可以整合行业报告、市场分析、竞争对手信 息等数据,帮助新员工快速掌握行业动态。 操作步骤 上传行业报告、市场分析文档、竞争对手资料等到 DeepSeek。 使用搜索功能查询“电子元器件行业现状”、“未来发 展趋势”等关键词,生成简洁的分析报告。 优势 通过DeepSeek的数据分析功能,快速生成行业概览, 节省了手动整理的时间。0 码力 | 65 页 | 4.47 MB | 8 月前3
 清华大学第二弹:DeepSeek赋能职场具备十年销售经验的SaaS系统商务 …… Task(任务) 具体任务描述: 写一份关于XXX活动的小红书宣推文案 写一份关于XX事件的舆论分析报告 (XX活动/事件相关背景信息如下……) Goal(目标) 期望达成什么目标效果: 通过该文案吸引潜在客户,促成消 费……通过该报告为相关企业管理 者提供……策略支撑 Objective(操作要 求) 字数要求、段落结构、用词风格、 内容要点、输出格式… 内容要点、输出格式… CO-STAR提示语框架 新加坡 GPT-4 提示工程竞赛冠军提示词框架 "R",代表 "Response", 想要的回应类型。 一份详细的研究 报告?一个表格? Markdown格式? "C"代表 “Context(上 下文)” 相关的 背景信息,比如 你自己或是你希 望它完成的任务 的信息。 "O"代表 “Objective (目标)” 明 确的指示告诉 AI你希望它做什 么。 根据用户提供的主题、内容要求、风格偏好,自动生成专业详实的PPT大纲(markdown),并针 对核心内容设计流程图(mermaid)。 技能: •资料收集能力:能够快速收集和分析相关主题的最新数据和报告,形成表 格,提取关键信息并转化为易于理解的PPT大纲。 •内容结构化:根据用户的需求,提供清晰、条理化的PPT结构,确保内容 流畅且富有逻辑。 •领域特定知识:掌握不同领域的特有知识,包括行业术语、法规、技术发0 码力 | 35 页 | 9.78 MB | 8 月前3 清华大学第二弹:DeepSeek赋能职场具备十年销售经验的SaaS系统商务 …… Task(任务) 具体任务描述: 写一份关于XXX活动的小红书宣推文案 写一份关于XX事件的舆论分析报告 (XX活动/事件相关背景信息如下……) Goal(目标) 期望达成什么目标效果: 通过该文案吸引潜在客户,促成消 费……通过该报告为相关企业管理 者提供……策略支撑 Objective(操作要 求) 字数要求、段落结构、用词风格、 内容要点、输出格式… 内容要点、输出格式… CO-STAR提示语框架 新加坡 GPT-4 提示工程竞赛冠军提示词框架 "R",代表 "Response", 想要的回应类型。 一份详细的研究 报告?一个表格? Markdown格式? "C"代表 “Context(上 下文)” 相关的 背景信息,比如 你自己或是你希 望它完成的任务 的信息。 "O"代表 “Objective (目标)” 明 确的指示告诉 AI你希望它做什 么。 根据用户提供的主题、内容要求、风格偏好,自动生成专业详实的PPT大纲(markdown),并针 对核心内容设计流程图(mermaid)。 技能: •资料收集能力:能够快速收集和分析相关主题的最新数据和报告,形成表 格,提取关键信息并转化为易于理解的PPT大纲。 •内容结构化:根据用户的需求,提供清晰、条理化的PPT结构,确保内容 流畅且富有逻辑。 •领域特定知识:掌握不同领域的特有知识,包括行业术语、法规、技术发0 码力 | 35 页 | 9.78 MB | 8 月前3
 DeepSeek从入门到精通(20250204)表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 体方法和步骤。 6. 请将新获取的信息和反馈整合到已有内容中,形成一个有机整体,详细描述 整合的步骤和方法。 1. 请将[主题]相关的文本描述与数据结合,生成一个全面的分析报告。 2. 请根据[主题]创建一个包含图像和数据可视化的报告,详细描述可视化方法。 3. 请设计一个融合文本、图像、音频或视频元素的多媒体内容,增强内容的丰富 性。 4. 请设计一个互动数据展示方案,使读者可以与数据进行互动,并详细描述设计 请将不同媒体形式的内容进行联动展示,例如将文字内容与图像和数据可视化 结合起来。 6. 请选用合适的数据可视化工具,并详细描述其使用方法,生成可视化内容。 7. 请将具体案例与数据分析相结合,生成一份包含案例分析的多模态报告。 类别 优势 挑战 结构化思维 引导AI按照预设逻辑进行创作 设计合理的逻辑结构需要经验和技巧 内容深度 通过多步引导,实现更深入的内容 探讨 控制每个步骤的输出深度,避免冗余 创意激发0 码力 | 104 页 | 5.37 MB | 8 月前3 DeepSeek从入门到精通(20250204)表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 体方法和步骤。 6. 请将新获取的信息和反馈整合到已有内容中,形成一个有机整体,详细描述 整合的步骤和方法。 1. 请将[主题]相关的文本描述与数据结合,生成一个全面的分析报告。 2. 请根据[主题]创建一个包含图像和数据可视化的报告,详细描述可视化方法。 3. 请设计一个融合文本、图像、音频或视频元素的多媒体内容,增强内容的丰富 性。 4. 请设计一个互动数据展示方案,使读者可以与数据进行互动,并详细描述设计 请将不同媒体形式的内容进行联动展示,例如将文字内容与图像和数据可视化 结合起来。 6. 请选用合适的数据可视化工具,并详细描述其使用方法,生成可视化内容。 7. 请将具体案例与数据分析相结合,生成一份包含案例分析的多模态报告。 类别 优势 挑战 结构化思维 引导AI按照预设逻辑进行创作 设计合理的逻辑结构需要经验和技巧 内容深度 通过多步引导,实现更深入的内容 探讨 控制每个步骤的输出深度,避免冗余 创意激发0 码力 | 104 页 | 5.37 MB | 8 月前3
 清华大学 DeepSeek 从入门到精通表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 体方法和步骤。 6. 请将新获取的信息和反馈整合到已有内容中,形成一个有机整体,详细描述 整合的步骤和方法。 1. 请将[主题]相关的文本描述与数据结合,生成一个全面的分析报告。 2. 请根据[主题]创建一个包含图像和数据可视化的报告,详细描述可视化方法。 3. 请设计一个融合文本、图像、音频或视频元素的多媒体内容,增强内容的丰富 性。 4. 请设计一个互动数据展示方案,使读者可以与数据进行互动,并详细描述设计 请将不同媒体形式的内容进行联动展示,例如将文字内容与图像和数据可视化 结合起来。 6. 请选用合适的数据可视化工具,并详细描述其使用方法,生成可视化内容。 7. 请将具体案例与数据分析相结合,生成一份包含案例分析的多模态报告。 类别 优势 挑战 结构化思维 引导AI按照预设逻辑进行创作 设计合理的逻辑结构需要经验和技巧 内容深度 通过多步引导,实现更深入的内容 探讨 控制每个步骤的输出深度,避免冗余 创意激发0 码力 | 103 页 | 5.40 MB | 8 月前3 清华大学 DeepSeek 从入门到精通表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 体方法和步骤。 6. 请将新获取的信息和反馈整合到已有内容中,形成一个有机整体,详细描述 整合的步骤和方法。 1. 请将[主题]相关的文本描述与数据结合,生成一个全面的分析报告。 2. 请根据[主题]创建一个包含图像和数据可视化的报告,详细描述可视化方法。 3. 请设计一个融合文本、图像、音频或视频元素的多媒体内容,增强内容的丰富 性。 4. 请设计一个互动数据展示方案,使读者可以与数据进行互动,并详细描述设计 请将不同媒体形式的内容进行联动展示,例如将文字内容与图像和数据可视化 结合起来。 6. 请选用合适的数据可视化工具,并详细描述其使用方法,生成可视化内容。 7. 请将具体案例与数据分析相结合,生成一份包含案例分析的多模态报告。 类别 优势 挑战 结构化思维 引导AI按照预设逻辑进行创作 设计合理的逻辑结构需要经验和技巧 内容深度 通过多步引导,实现更深入的内容 探讨 控制每个步骤的输出深度,避免冗余 创意激发0 码力 | 103 页 | 5.40 MB | 8 月前3
 人工智能安全治理框架 1.0混合测试等,利用沙箱仿真等技术对模型进行充分测试和验证。 (i) 研发者应评估人工智能模型算法对外界干扰的容忍程度,以适用范 围、注意事项或使用禁忌的形式告知服务提供者和使用者。 (j) 研发者应生成详细的测试报告,分析安全问题并提出改进方案。 6.2 人工智能服务提供者安全指引 (a)服务提供者应公开人工智能产品和服务的能力、局限性、适用人群、 场景。- 14 - 人工智能安全治理框架 (b)服务 在面临故障、攻击等异常条 件下抵御或克服不利条件的能力,防范出现意外结果和行为错误,确保最低限 度有效功能。 (h)服务提供者应将人工智能系统运行中发现的安全事故、安全漏洞等 及时向主管部门报告。 (i)服务提供者应在合同或服务协议中明确,一旦发现不符合使用意图 和说明限制的误用、滥用,服务提供者有权采取纠正措施或提前终止服务。 (j)服务提供者应评估人工智能产品对使用者的影响,防止对使用者身0 码力 | 20 页 | 3.79 MB | 1 月前3 人工智能安全治理框架 1.0混合测试等,利用沙箱仿真等技术对模型进行充分测试和验证。 (i) 研发者应评估人工智能模型算法对外界干扰的容忍程度,以适用范 围、注意事项或使用禁忌的形式告知服务提供者和使用者。 (j) 研发者应生成详细的测试报告,分析安全问题并提出改进方案。 6.2 人工智能服务提供者安全指引 (a)服务提供者应公开人工智能产品和服务的能力、局限性、适用人群、 场景。- 14 - 人工智能安全治理框架 (b)服务 在面临故障、攻击等异常条 件下抵御或克服不利条件的能力,防范出现意外结果和行为错误,确保最低限 度有效功能。 (h)服务提供者应将人工智能系统运行中发现的安全事故、安全漏洞等 及时向主管部门报告。 (i)服务提供者应在合同或服务协议中明确,一旦发现不符合使用意图 和说明限制的误用、滥用,服务提供者有权采取纠正措施或提前终止服务。 (j)服务提供者应评估人工智能产品对使用者的影响,防止对使用者身0 码力 | 20 页 | 3.79 MB | 1 月前3
 【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502• 把企业内部的碎片化知识, 把专 家头脑中的经验转化为显性知识 管理起来, 如员工邮件、 文档文 件、 聊天记录、 工作记录等 工作流知识管理 1 外部情报分析 • 抓取外部情报, 例如行业报告、 市 场情报等 2 多模态处理 • 用大模型多模态能力把非结构化 数据转化为结构化数据, 例如图 纸、 视频、 录音等 4 5 大数据分析 • 把隐藏在企业各种管理信息化业务系统产生的中间结果/中 接到传真,人工查看病历 利用多模态大模型,识别传真病历, 并自动录入数据库 数字人打电话给患者,预约就诊时间 大模型查询保险知识库,自动生成理赔申请, 提交保险公司 就诊预约智能体 保险报告生成智能体 人工打电话给患者,预约就诊时间 病人到医院就诊 人工填写理赔申请,提交保险公司 病人到医院就诊 社区医生将患者病历传真到斯坦福预约中心 65政企、创业者必读 2023年是大模型之年0 码力 | 76 页 | 5.02 MB | 5 月前3 【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502• 把企业内部的碎片化知识, 把专 家头脑中的经验转化为显性知识 管理起来, 如员工邮件、 文档文 件、 聊天记录、 工作记录等 工作流知识管理 1 外部情报分析 • 抓取外部情报, 例如行业报告、 市 场情报等 2 多模态处理 • 用大模型多模态能力把非结构化 数据转化为结构化数据, 例如图 纸、 视频、 录音等 4 5 大数据分析 • 把隐藏在企业各种管理信息化业务系统产生的中间结果/中 接到传真,人工查看病历 利用多模态大模型,识别传真病历, 并自动录入数据库 数字人打电话给患者,预约就诊时间 大模型查询保险知识库,自动生成理赔申请, 提交保险公司 就诊预约智能体 保险报告生成智能体 人工打电话给患者,预约就诊时间 病人到医院就诊 人工填写理赔申请,提交保险公司 病人到医院就诊 社区医生将患者病历传真到斯坦福预约中心 65政企、创业者必读 2023年是大模型之年0 码力 | 76 页 | 5.02 MB | 5 月前3
共 8 条
- 1













