开源中国 2023 大模型(LLM)技术报告生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 04 向量数据库/数据库向量支持 为大模型提供高效的存储和检索能力 大模型框架及微调 (Fine Tuning) 大模型框架提供基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节 大模型训练平台&工具 提供了在不同硬件和环境中训练大语言模型 所需的基础设施和支持 编程语言 以 Python 为代表 5 / 32 LLM 基础设施:向量数据库/数据库向量支持 向量数据库是专门用于存储和检索向量数据的数据库,它可以为 LLM 提供高效的存储和检索能力。通过数据向量化,实现了 在向量数据库中进行高效的相似性计算和查询。 根据向量数据库的的实现方式,可以将向量数据库大致分为两类: 原生的向量数据库专门为存储和检索向量而设计, 所管理的数据是基于对象或数据点的向量表示进行 组织和索引。 包括 等均属于原生向量数据库。 除了选择专业的向量数据库,对传统数据库添加0 码力 | 32 页 | 13.09 MB | 1 年前3
清华大学 普通人如何抓住DeepSeek红利建立了测量AI触及知识循环边界的方式。 AI的内容生成有一定的边界效应 研究将智能体知识循环边界操作化为生成内容的差异值,衡量标准为生成文本的平均相似度与重复率的加权值。 相似度计算 采用余弦相似度算法,将文本转化为词频向量,计算向量点积 与模长乘积的比值,评估文本间的相似性,取值范围为[-1, 1], 值越接近1表示相似性越高。该方法广泛应用于信息检索和自 然语言处理领域,可有效评估文本内容的相似程度。 重复率计算 使用0 码力 | 65 页 | 4.47 MB | 8 月前3
共 2 条
- 1













