Structured RAG重塑企业知识库：从模糊答案到精准洞察，解决RAG聚合与完整性挑战

当RAG遭遇分析瓶颈：问题的根源

想象这样一个场景：在一次关键的季度复盘会上，一位决策者向公司的AI知识助手提问：“我们所有子公司中，上一财年资本支出最高的是哪家？具体金额是多少？” AI助手或许能流畅地生成一段文本，但其内容可能只是相关报告的摘要，甚至包含错误信息。

Contents

当RAG遭遇分析瓶颈：问题的根源 S-RAG：用数据库思维重塑AI问答实证检验：S-RAG的性能表现演进与启示：混合模式与深层思考结论：迈向可信赖的企业智能

这暴露了当前广泛应用的检索增强生成（RAG）技术在企业实际应用中的一个核心困境。当问题从简单的“信息查找”转向复杂的“分析推理”时，传统RAG开始显现其局限性。

图1：传统RAG在复杂金融查询中表现不佳，S-RAG通过SQL实现精确计算图1：一个典型的金融查询场景，传统RAG难以直接从文本中计算出精确答案，而S-RAG通过SQL查询可直接获得结果。

这种局限性主要源于其底层机制，并体现在三个关键方面：

1.无法有效处理聚合问题：传统RAG通过向量相似度检索文本片段。但面对“计算所有项目的平均成本”或“找出销售额最高的五个区域”这类需要跨多个文档进行数学运算的查询时，它无能为力。大语言模型（LLM）本身并不擅长在有限的上下文中对零散的文本进行精确计算。
2.难以保证结果的完整性：在合规、审计等领域，“列出所有符合特定条件的合同”是常见需求，答案的完整性至关重要。基于相似度检索的RAG本质上是概率性的，旨在寻找“最相关”而非“所有相关”的文档。这种机制无法保证100%的召回率，任何遗漏都可能带来风险。
3.在密集信息语料库中表现不佳：在金融财报、法律文书、技术手册等内容中，文档的格式、术语和行文风格高度统一。这使得向量模型难以区分细微但关键的差异，导致检索结果充斥着大量语义相近但信息无效的“噪音”，干扰LLM生成准确答案。

S-RAG：用数据库思维重塑AI问答

为了克服这些瓶颈，一种名为Structured RAG (S-RAG)的新范式应运而生。其核心思想是回归经典的数据处理原则：在进行复杂查询之前，先将非结构化信息转化为结构化数据。

这个过程主要分为两个阶段：离线的信息摄取和在线的查询推理。

图2：Structured RAG系统工作流程概览：离线摄取与在线推理图2：S-RAG系统工作流程，分为离线摄取（上）和在线推理（下）两个阶段。

第一步：离线摄取 (Ingestion) – 构建结构化知识库

这一阶段在后台自动完成，旨在将原始文档转化为可供精确查询的数据库。

•模式预测 (Schema Prediction)：系统首先分析少量样本文档和代表性问题，利用LLM的理解能力，智能推断出文档集共同的数据“模式”（Schema）。例如，对于一系列财报，系统能自动识别出“公司名”、“财年”、“总收入”等关键字段及其数据类型。
•记录预测 (Record Prediction)：定义好模式后，S-RAG会遍历整个文档库，从每份文档中精确抽取出对应模式的数值。同时，它会进行关键的标准化处理，例如，将文本中的“一百万”、“1M”和“1,000,000”都统一为数字1000000。这些规整、标准化的信息最终被存入一个结构化数据库表中。

图3：Structured RAG将非结构化简历数据转化为结构化记录的示例图3：S-RAG概念示例，将一组非结构化的简历（Corpus）根据预定义模式（Schema）转换为结构化的记录（Record）。

第二步：在线推理 (Inference) – 从自然语言到精确查询

当用户提出问题时，S-RAG的运行机制与传统RAG截然不同。

• 它不再进行模糊的语义搜索，而是将用户的自然语言问题，精准地翻译成一条数据库查询语句（如SQL）。
• 数据库执行这条确定性的指令后，返回一个或一组精确的数据。最后，LLM将这些数据结果组织成通顺、自然的语言呈现给用户。整个过程逻辑清晰、结果精确且可验证。

实证检验：S-RAG的性能表现

为了客观评估S-RAG的有效性，研究人员构建了两个新的数据集（Hotels、World Cup）并结合已有的金融分析基准（FinanceBench）进行了全面测试。

•数据集概况

为了更好地模拟需要多文档聚合的真实场景，研究人员创建了两个新数据集。Hotels数据集完全由AI生成，以确保模型无法利用先验知识；World Cup数据集则基于真实的维基百科页面。

| Dataset | #Docs | #Questions | Doc Length (avg) | Answer Length (avg) | Requires Aggregation |
| — | — | — | — | — | — |
| FinanceBench | 10,798 | 1,023 | 25,603 | 114 | Partial |
| World Cup | 22 | 83 | 2,752 | 19 | Yes |
| Hotels | 350 | 193 | 1,180 | 12 | Yes |

表1: 实验使用的数据集统计与特性。
•基线模型的挑战

在评估前，研究人员测试了强大的LLM（如GPT-o3）在没有外部知识（Zero-shot）的情况下回答这些问题的能力。结果显示，模型对于Hotels这类全新数据几乎无法回答，而对World Cup这类基于公共知识的数据则表现较好。这证明了对于私有、非公开数据，一个强大的RAG系统是不可或缺的。

| Dataset | Answer Comparison | Answer Recall |
| — | — | — |
| FinanceBench-Agg | 0.08 | 0.09 |
| World Cup | 0.71 | 0.72 |
| Hotels | 0.00 | 0.01 |

表2: LLM在无外部知识（Zero-shot）情况下的表现。
•核心性能对比

在聚合类问题的基准测试中，S-RAG相较于传统方法表现出明显优势。图4：Structured RAG在聚合问题上的答案准确率显著高于传统RAG

图4：在聚合问题基准测试中，S-RAG（Structured RAG）的准确率显著高于基于向量的RAG（Embedder-based RAG）和OpenAI Responses API。图5：Structured RAG在穷举类问题上的答案召回率接近完美

图5：对于要求完整性的穷举类问题，S-RAG的召回率（Answer Recall）接近完美（1.0），远超其他方法。
下表提供了更详细的数值结果，展示了不同S-RAG变体（使用黄金标准模式或自动推断模式）与基线系统的对比。即使是模式需要自动推断的S-RAG，在Hotels和World Cup上也表现出色。

| System | Metric | FinanceBench-Agg | World Cup | Hotels |
| — | — | — | — | — |
| S-RAG-GoldSchema | AnswerComparison | 0.86 | 0.95 | 0.94 |
| | AnswerRecall | 0.88 | 0.97 | 0.96 |
| S-RAG-InferredSchema | AnswerComparison | 0.08 | 0.89 | 0.90 |
| | AnswerRecall | 0.10 | 0.92 | 0.92 |
| OpenAI-Responses | AnswerComparison | 0.60 | 0.81 | 0.35 |
| | AnswerRecall | 0.61 | 0.84 | 0.36 |
| VectorRAG | AnswerComparison | 0.62 | 0.80 | 0.44 |
| | AnswerRecall | 0.67 | 0.81 | 0.45 |
| FullCorpus | AnswerComparison | 0.08 | 0.77 | 0.70 |
| | AnswerRecall | 0.11 | 0.81 | 0.73 |

表3: 各系统在聚合问题评估集上的详细结果。
•一个直观的例子

为了更具体地感受差异，请看下面这个来自World Cup数据集的例子。

| | |
| — | — |
| Question | What is the average number of total goals scored across all World Cups in this dataset? |
| Expected Answer | The average number of total goals scored across all World Cups in this dataset is 119.59. |
| VectorRAG | …Based on the context, the total number of goals in the 1998 World Cup was 171. In the 2002 World Cup, it was 161… It seems I don’t have enough data to calculate the average… |
| FullCorpus | I will calculate the average number of goals. The total goals are 70 + 84 + … + 145 = 1188. There are 10 tournaments… The average is 118.8. |
| S-RAG | The average number of total goals scored across all World Cups in this dataset is 119.59. |

表4: 不同系统对“世界杯平均总进球数”这一问题的回答示例。

可以看到，传统RAG由于上下文不完整，无法给出正确答案，而S-RAG则直接、准确地完成了计算。

演进与启示：混合模式与深层思考

S-RAG并非要完全取代传统RAG，二者结合的“混合模式”展现了更广阔的应用前景。

混合检索：精确性与灵活性的结合

对于同时包含结构化和非结构化查询要素的复杂问题，可以采用混合检索策略：

1.精确筛选：首先，利用S-RAG的结构化查询能力，从海量文档中迅速定位到一小批高度相关的文档。
2.深度理解：然后，在这个高质量、小范围的文档集上，再使用传统向量RAG进行深度的语义理解和答案生成。

这种“先精后广”的策略，兼顾了准确性与灵活性。在包含各类问题的完整FinanceBench测试集上，混合模式的S-RAG表现优于纯粹的向量RAG系统。

图6：混合RAG（Structured RAG与向量检索结合）在金融基准测试中表现最佳图6：在完整的FinanceBench基准测试中，结合了结构化和向量检索的混合RAG（Maestro Hybrid RAG）表现最佳。

| System | Answer Comparison | Answer Recall |
| — | — | — |
| HYBRID-S-RAG | 0.78 | 0.80 |
| OpenAI-Responses | 0.67 | 0.68 |
| VectorRAG | 0.64 | 0.69 |

表5: 在完整的FinanceBench评估集上的性能对比。

S-RAG带来的深层启示

S-RAG的成功，也为我们思考AI发展路径提供了两个重要启示：

1.新旧技术的融合：LLM的强大能力并不意味着要抛弃所有传统技术。S-RAG证明，将LLM的自然语言处理能力与经过数十年验证的数据库技术相结合，可以创造出远超单一技术范式的强大系统。AI的进步在于智慧的融合，而非颠覆一切。
2.重塑RAG的核心瓶颈：过去，许多研究聚焦于优化LLM的“生成（Generation）”环节。S-RAG则指出，对于分析类任务，真正的瓶颈在于“检索（Retrieval）”。通过将检索从“寻找相关文本”转变为“执行精确计算”，从根本上提升了系统的可靠性和确定性。

结论：迈向可信赖的企业智能

S-RAG的出现，标志着企业AI正从一个提供文本摘要和简单问答的辅助工具，向一个能够支撑严肃决策、可信赖的分析引擎进化。

•可信赖与可审计：由于其核心推理基于可验证的数据库查询，S-RAG的输出不再是黑箱，为金融、法务等高风险行业的AI应用提供了信任基石。
•规模化应用潜力：面对海量、复杂的专业语料库，S-RAG的自动化模式构建和数据提取能力，展现了强大的规模化应用潜力。

最终，通过将企业内部庞大、混乱的非结构化数据，转化为结构清晰、随时待命的决策引擎，S-RAG为企业智能化转型铺平了道路。这不仅是一次技术的革新，更是一场关于企业如何利用AI创造核心价值的深刻变革。

图7：S-RAG测试数据集Hotels中的一个文档页面示例图7: 为测试S-RAG而创建的Hotels数据集中的一个文档页面示例。

Structured RAG重塑企业知识库：从模糊答案到精准洞察，解决RAG聚合与完整性挑战

当RAG遭遇分析瓶颈：问题的根源