大模型热潮之下,真正的瓶颈并非模型本身,而是前端的数据处理。一个公共卫生领域的RAG实验揭示,PDF解析、数据分块等“脏活累活”直接决定系统上限。令人意外的是,一个通用多语言模型在专业任务上甚至超越了本地化模型,这为我们重新思考模型选型与数据策略提供了新视角。
大模型正在重塑几乎所有行业,但一个尴尬的现实是:大量高价值信息,从政府公报、行业研报到企业财报,依然被“锁”在PDF这类非结构化文档里。当我们需要精确数据时,最常用的工具往往还是Ctrl+F和人眼。
为什么不能用AI来解决?检索增强生成(RAG)技术似乎是标准答案。它通过“外挂”知识库,让大模型能基于特定文档回答问题。理论很丰满,但实践中,许多RAG项目效果平平,模型常常答非所问,或者出现事实错误。
问题出在哪?一个针对公共卫生领域流行病学报告的深度实验,揭示了一个被行业普遍忽视的真相:RAG的成败,往往在模型开始工作前就已经决定了。
想象一下,你要分析一份包含大量图表的流行病学报告。这份报告可能是由巴西卫生系统发布的,长达数十页,充满了专业术语和密集的表格,记录着特定病原体的传播数据、抗生素耐药性等关键信息。
直接将这样的PDF扔给RAG系统,无异于一场灾难。PDF格式为视觉呈现而生,而非机器读取。跨页的表格、混乱的换行、页眉页脚的干扰,都会在文本提取阶段制造大量“噪音”。如果第一步的文本提取就支离破碎,后续的检索和生成环节就像在沙上建塔。
这个实验的核心洞察之一,就是数据预处理的优先级远高于模型选择。
研究者没有采用简单粗暴的固定长度分块(chunking),而是采用了一种更“懂”文档结构的策略:
这套“脏活累活”看似基础,却构建了高质量检索的基础。只有当检索器能精准地找到包含答案的上下文时,大模型才能发挥其推理和生成能力。否则,再强的模型也无法凭空捏造事实。

当数据基础打好后,实验进入了模型评估环节。研究者测试了多个针对葡萄牙语优化的模型(如Sabiá系列)和一个通用的多语言模型(Qwen-7B)。直觉上,专为特定语言训练的模型应该在处理本土化文档时更具优势。
但结果出人意料。

在使用BERTScore(一种衡量语义相似度的指标)进行评估时,多语言模型Qwen-7B的表现全面领先于多个葡萄牙语“本地专家”。
这个结果极具启发性。它挑战了“垂直领域必须用专用模型”的传统观念。一种可能的解释是,像Qwen这样的大型多语言模型,在训练过程中接触了海量的、全球范围的科学文献、技术报告和政府文档。这种跨领域的知识积累,使其在理解特定领域(如流行病学)的复杂术语和行文范式时,具备了更强的泛化能力。
相比之下,一些语言专用模型可能在日常对话和通用文本上表现优异,但在处理高度专业化的技术文档时,其训练数据的“专业浓度”反而可能不足。
这个来自海外公共卫生领域的案例,对国内的AI应用落地有着极强的现实意义。
在中国,无论是政府网站上发布的政策文件、上市公司披露的年报,还是医院里沉睡的电子病历,都存在着海量的、以PDF或非结构化文本形式存在的“暗数据”。将这些数据激活,价值巨大。
政务AI:想象一下,一个能深度理解所有中央及地方政策文件的AI助手,可以为企业快速解读最新的法规变化、补贴政策,这将极大提升政策传导效率。但这需要对公文的独特格式、术语有极强的解析能力。
金融AI:自动解析数百家公司的财报,提取关键财务指标,并进行横向对比分析。目前许多尝试都停留在表面,因为无法精准处理财报中复杂的表格和附注。
医疗AI:让AI学习海量的医学文献和临床指南,辅助医生进行诊断。同样,前提是AI能准确无误地“阅读”这些格式各异的文档。
这个实验提醒我们,要实现这些愿景,不能陷入“模型崇拜”。与其无休止地追逐更大参数的模型,不如将更多精力投入到务实的数据工程中。一个精心设计的RAG流程,配上一个7B级别的开源模型,其在特定任务上的表现,完全可能超过一个直接调用、但数据链路粗糙的千亿模型。
国内的AI厂商,如百度的文心、阿里的通义、月之暗面的Kimi,都在模型能力上飞速迭代。但真正的应用壁垒,或许正悄悄地从模型层向上转移到数据层和工程层。
RAG技术的核心,从来不是简单地把大模型和向量数据库连接起来。它是一套精密的系统工程,涵盖了数据解析、信息提取、知识索引、向量检索和文本生成等多个环节。
实验证明,一个成功的RAG系统,其上限由最薄弱的环节决定——而这个环节,通常是那个最不起眼、最需要下“笨功夫”的数据预处理阶段。
未来,衡量一家公司AI能力的标准,将不仅是其拥有多大规模的模型,更是其将非结构化数据转化为高质量知识,并与模型高效协同的能力。这或许没有发布一个新模型那么激动人心,但它离创造真实价值更近。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断