 2024 中国开源开发者报告不是你想要的; (2)当我们给 LLM 原始问题,以及多个模棱两可或互相影响的参考材料,那么 LLM 给出的 最终答案也会出错。 好,那么针对以上问题,是否我们解决好对原始问题的“理解-检索-召回”,送到 LLM 的 context 足够清晰(指的是没有歧义内容、检索相关度高),结果就会非常准确?根据我们的实 践结果,答案是明确的:今年 9 月份我们对一些项目进行了槽位填充(消除模糊问答)和元数 于一体,其核心在于其中的不同策略适应和优化, 如文档处理、检索策略等。 72 / 111 以搜索引擎为基础的演进方案以文档检索为开始,以大语言模型的生成为终。RAG 回答问 题的准确率受限于召回的 Chunks 和 LLM 的生成能力,也受限于搜索引擎向量相似度计算的不 足,传统搜索引擎解决不了的问题,如难以感知文档间细粒度的实体知识关联、无法对文档内知 识的知识要素执行逻辑推理等,这类 来挖掘跨文档的事实关联以回答多跳事实问答,比如"斯坦福哪个教授是从事神经科学阿尔兹海 默症研究的"。两者的核心目标依然是更有效的召回与目标 Query 相关的 Chunks,以生成更高 质量的摘要或事实问答。但由于这两个方法的目标有所不同,导致它们的技术路线在 Chunks 构建、召回、答案生成及评价指标上有所差异。 GraphRAG 类方法有效缓解了 RAG 跨文档语义关联不足的问题,无论在摘要问答和多跳0 码力 | 111 页 | 11.44 MB | 8 月前3 2024 中国开源开发者报告不是你想要的; (2)当我们给 LLM 原始问题,以及多个模棱两可或互相影响的参考材料,那么 LLM 给出的 最终答案也会出错。 好,那么针对以上问题,是否我们解决好对原始问题的“理解-检索-召回”,送到 LLM 的 context 足够清晰(指的是没有歧义内容、检索相关度高),结果就会非常准确?根据我们的实 践结果,答案是明确的:今年 9 月份我们对一些项目进行了槽位填充(消除模糊问答)和元数 于一体,其核心在于其中的不同策略适应和优化, 如文档处理、检索策略等。 72 / 111 以搜索引擎为基础的演进方案以文档检索为开始,以大语言模型的生成为终。RAG 回答问 题的准确率受限于召回的 Chunks 和 LLM 的生成能力,也受限于搜索引擎向量相似度计算的不 足,传统搜索引擎解决不了的问题,如难以感知文档间细粒度的实体知识关联、无法对文档内知 识的知识要素执行逻辑推理等,这类 来挖掘跨文档的事实关联以回答多跳事实问答,比如"斯坦福哪个教授是从事神经科学阿尔兹海 默症研究的"。两者的核心目标依然是更有效的召回与目标 Query 相关的 Chunks,以生成更高 质量的摘要或事实问答。但由于这两个方法的目标有所不同,导致它们的技术路线在 Chunks 构建、召回、答案生成及评价指标上有所差异。 GraphRAG 类方法有效缓解了 RAG 跨文档语义关联不足的问题,无论在摘要问答和多跳0 码力 | 111 页 | 11.44 MB | 8 月前3
共 1 条
- 1













