RAG又进化了！微软整了个企业级AgenticRAG

如果你做过企业级 RAG，你一定经历过这种无奈：不管怎么调向量模型、换 embedding、加 HyDE 改写，复杂查询的效果就是上不去。大多数人会归咎于搜索引擎——召回率不够、排序不准、语料没处理好。

微软的 AgenticRAG 团队发现，问题根本不在这些地方。真正的瓶颈是：传统 RAG 在搜索阶段就把候选集锁死了，模型连"我觉得信息不够，让我回去再搜一次"的权利都没有。

四个工具，一个循环

AgenticRAG 的设计核心是让模型像人一样检索信息。它给了模型四个工具：

search：广撒网。一次调用最多发 5 个改写查询，并行搜索企业文档库，返回带元数据的片段和引用 ID
find：精确定位。在指定文档内搜索关键词或语义匹配，类似增强版 Ctrl+F
open：按行窗口打开完整文档内容。模型可以指定从第几行开始读，像翻书一样导航长文档
summarize：上下文快溢出时压缩历史，保留被引用的关键证据

模型在一个最多 15 轮的迭代循环里自主决定每一步调哪个工具。它可以先搜索拿到候选列表，然后打开最有希望的文档精读，发现不够再换关键词重新搜索，最后综合所有证据生成带引用的答案。

实际运行中，平均每个查询只需要 4.48–4.79 次工具调用，远低于 15 次上限。也就是说，模型通常 4–5 步就能收敛到足够好的答案。

为了防止长推理链把上下文撑爆，系统在对话达到 128K token 阈值 时自动触发摘要压缩，保留模型标记的引用材料，丢弃其余内容。

三个基准，全面碾压

实验覆盖了三个完全不同领域的基准测试：

BRIGHT（长文档检索）：49.6% recall@1（Claude Sonnet 4.5），比最强嵌入模型 Qwen 高 21.8 个百分点，比需要微调的 ReDI 高 23.6 个百分点。在经济学、机器人、心理学等技术领域，提升幅度甚至超过 25–33 个百分点。

WixQA（企业客服 QA）：0.96 事实准确率，比最佳基线高 13%。在模拟复杂推理问题的 Simulated 分割上，优势更明显——22% 的相对提升。

FinanceBench（金融文档问答）：92% 回答正确率，传统 RAG 被甩开 3.8 倍。更关键的是，oracle 设定（直接给模型标准答案原文）的正确率是 94%——AgenticRAG 只差 2 个百分点就触碰到了理论上限。

消融实验：最大的飞跃来自范式转换

消融实验揭示了最有价值的发现：效果提升的最大贡献不是某个具体工具，而是从"单次检索"到"agentic 工具调用"的范式转换。

模式	Recall@1	提升
单次搜索	8.41%	基线
Agentic（GPT-5-mini）	43.49%	5.2 倍
Agentic（Claude Sonnet 4.5）	49.59%	5.9 倍

多查询搜索让工具调用减少了 29%（4.79 次 vs 6.79 次），但效果持平——说明它提升的是效率而非质量。文档内导航（find/open）提升精度但贡献次之。最大的单步飞跃始终是"给模型工具"这一步。

另一个有趣的发现是两个模型的策略差异。**Claude 偏好"精读"——搜索更少但打开文档更多，语义查找使用频率是 GPT 的 3 倍。GPT-5-mini 偏好"广撒"**——更多搜索、更多查询改写。最终 Claude 靠深挖策略赢了 6.1 个百分点，说明在长文档场景下，精准深入比广泛浏览更有效。