前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

企业级 RAG 系统实战:2万+文档处理的10大挑战与解决方案(附代码示例)

NEXTECH
Last updated: 2025年10月11日 上午6:28
By NEXTECH
Share
96 Min Read
SHARE

企业级 RAG 系统实战(2万+文档):10 个项目踩过的坑

原文来自 Reddit,作者在受监管行业(制药、金融、法律)为中型企业(100-1000 人)构建了 10+ 个 RAG 系统

过去一年中,企业级 RAG 系统得到了广泛实践,服务客户涵盖制药公司、银行、律所和咨询公司。实践表明,其复杂性远超多数教程所描述。本文旨在分享一些在实际项目中真正重要的经验,而非停留于基础理论。

Contents
企业级 RAG 系统实战(2万+文档):10 个项目踩过的坑文档质量检测:企业级 RAG 的关键环节固定大小分块的局限性元数据架构的重要性超越 Embedding 模型语义搜索的局限性与失效场景选择开源模型(Qwen)的考量表格处理:隐藏的挑战生产基础设施的现实挑战企业级 RAG 的核心经验教训企业级 RAG:工程实践重于机器学习四个工程要点代码示例技术问答讨论写在最后

背景:这些公司拥有 1 万到 5 万份文档,多堆积在 SharePoint 或早期文档管理系统中。这些并非精心整理的数据集或知识库,而是数十年积累的业务文档,如今亟需被高效搜索和利用。

文档质量检测:企业级 RAG 的关键环节

在企业级 RAG 系统构建中,一个重大发现是文档质量检测的必要性。多数教程假设 PDF 文档是完美的,但现实是企业文档质量参差不齐。

以制药客户为例,他们的文档包括 1995 年打字机打印后扫描的研究论文(OCR 基本无效),以及包含复杂表格和图表的 500 多页现代临床试验报告。对这两种文档采用同一套分块策略,必然导致检索结果混乱。

经过数周调试,发现部分文档效果差、部分效果好的根本原因在于文档质量。因此,必须先给文档质量打分,再决定如何处理:

  • 干净的 PDF(文本提取完美)→ 完整的层级化处理

  • 一般的文档(存在 OCR 问题)→ 基础分块 + 清理

  • 垃圾文档(扫描的手写笔记)→ 简单固定分块 + 标记人工复查

为此,构建了一个简单的评分系统,评估文本提取质量、OCR 瑕疵和格式一致性,并根据分数将文档路由至不同的处理流程。

You Might Also Like

OpenAI开源两大安全推理模型:GPT-OSS-Safeguard深度解析
Prompt Engineering 最佳实践:一份全面的实战指南
RAG Chunking 2.0:提升文档分块效果的八大实用策略与Python示例
SOTA级Embedding模型F2LLM:模型、数据、代码全面开源,赋能AI研究与应用

“This single change fixed more retrieval issues than any embedding model upgrade.”

这一改动解决的检索问题,比升级 embedding 模型更为有效。

固定大小分块的局限性

多数教程提倡”将所有内容切成 512 token,并加入重叠”,但这种方法在实践中存在局限性。

现实是:文档具有结构性。研究论文的方法论部分与结论部分结构不同,财报包含执行摘要和详细表格。若无视文档结构进行分块,可能导致句子被截断或不相关概念混杂。

实践中需要构建层级化分块(Hierarchical Chunking)以保留文档结构:

  • 文档级(标题、作者、日期、类型)

  • 章节级(摘要、方法、结果)

  • 段落级(200-400 tokens)

  • 句子级(用于精确查询)

核心思路:查询的复杂度应决定检索的层级。宽泛问题可采用段落级检索,而诸如”表 3 里的剂量是多少?”等精确问题则需要句子级精度。

通过简单的关键词检测,如”exact”(精确)、”specific”(具体)、”table”(表格)等词会触发精准模式。若初始置信度较低,系统将自动下钻到更精确的分块层级。

元数据架构的重要性超越 Embedding 模型

元数据架构的开发投入了大量时间,但其投资回报率最高。

多数人将元数据视为事后补充。然而,企业查询的上下文极其复杂。例如,一位制药研究员查询”儿科研究”所需的文档与查询”成人群体”的文档截然不同。

针对不同领域,构建了专门的元数据模式:

制药文档:

  • 文档类型(研究论文、监管文件、临床试验)

  • 药物分类

  • 患者人口统计(儿科、成人、老年)

  • 监管类别(FDA、EMA)

  • 治疗领域(心血管、肿瘤)

金融文档:

  • 时间周期(2023 Q1、2022 财年)

  • 财务指标(收入、EBITDA)

  • 业务部门

  • 地理区域

不建议使用 LLM 提取元数据,因其可靠性不足。简单的关键词匹配方法效果更佳。查询中包含”FDA”时,可过滤regulatory_category: "FDA"。提及”儿科”时,应用患者群体过滤器。

建议从每个领域 100-200 个核心术语开始构建元数据列表,并根据匹配不佳的查询逐步扩展。领域专家通常乐于协助构建此类列表。

语义搜索的局限性与失效场景

纯语义搜索的失效频率远高于普遍认知。在制药和法律等专业领域,观察到的失败率高达15-20%,而非普遍认为的 5%。

主要的失败模式包括:

缩写混淆:“CAR”在肿瘤学中指”嵌合抗原受体”,但在影像论文中却是”计算机辅助放射学”。相同的 embedding 却代表完全不同的含义,这给检索带来了巨大挑战。

精确技术查询:当用户提问”表 3 里的确切剂量是多少?”时,语义搜索可能找到概念上相似的内容,但会遗漏具体的表格引用。

交叉引用链:文档之间存在复杂的互相引用关系。例如,药物 A 的研究引用了药物 B 的交互数据。纯语义搜索难以捕捉这些关系网络。

解决方案:构建混合方法。在处理时使用图层(Graph Layer)跟踪文档关系。语义搜索后,系统会检查检索到的文档是否存在相关文档能提供更优答案。

针对缩写问题,采用了上下文感知的扩展策略,利用领域专用的缩写数据库。对于精确查询,关键词触发机制会切换到基于规则的检索,以获取特定数据点。

选择开源模型(Qwen)的考量

尽管许多人认为 GPT-4o 或 o3-mini 始终更优,但企业客户面临一些特殊的约束:

  • 成本:5 万份文档加上每天数千次查询,API 费用可能急剧增加。

  • 数据主权:制药和金融等行业的敏感数据通常不允许发送至外部 API。

  • 领域术语::通用模型可能在未经训练的专业术语上产生幻觉。

Qwen QWQ-32B 在经过领域微调后表现出色:

  • 相较 GPT-4o,成本节省达85%(针对大批量处理)。

  • 完全部署于客户基础设施之上。

  • 可在医疗/金融术语上进行微调。

  • 响应时间稳定,不受 API 限流影响。

微调方法直接有效——利用领域问答对进行监督训练。例如,创建”药物 X 的禁忌症是什么?”这类数据集,并匹配实际的 FDA 指南答案。基础的监督微调效果优于 RAFT 等复杂方法,关键在于拥有干净的训练数据。

表格处理:隐藏的挑战

企业文档中普遍存在复杂表格,如财务模型、临床试验数据、合规矩阵。标准 RAG 方法要么忽略表格,要么将其提取为非结构化文本,从而丢失所有关系。

“Tables contain some of the most critical information… If you can’t handle tabular data, you’re missing half the value.”

表格包含了最关键的信息。若无法有效处理表格数据,将损失一半的企业价值。

财务分析师需要特定季度的精确数字,研究人员需要临床表格中的剂量信息。

处理方法包括:

  • 将表格视为独立实体,采用专门的处理流程。

  • 利用启发式方法检测表格(例如间距模式、网格结构)。

  • 简单表格转换为 CSV 格式。复杂表格则在元数据中保留层级关系。

  • 采用双重 embedding 策略:同时 embed 结构化数据和语义描述。

在银行项目中,财务表格无处不在,还需要跟踪汇总表和详细分解表之间的关系。

生产基础设施的现实挑战

教程常假设资源无限且运行时间完美。然而,生产环境需要应对并发用户、GPU 内存管理、稳定的响应时间以及运行时间保障。

多数企业客户已拥有闲置的 GPU 基础设施,包括未使用的算力或其他数据科学工作负载,这使得本地部署比预期更容易。

通常部署 2-3 个模型:

  • 主生成模型(Qwen 32B)用于复杂查询。

  • 轻量级模型用于元数据提取。

  • 专门的 embedding 模型。

尽可能使用量化版本。Qwen QWQ-32B 量化到 4-bit 仅需 24GB VRAM,且能保持良好质量。可在单张 RTX 4090 上运行,但 A100 对并发用户支持更佳。

最大的挑战并非模型质量,而是如何防止多个用户同时访问系统时的资源竞争。解决方案包括使用信号量限制并发模型调用,并配合合适的队列管理。

企业级 RAG 的核心经验教训

  1. 文档质量检测优先:不能以相同方式处理所有企业文档。首要任务是构建质量评估机制。

  2. 元数据优于 embeddings::若元数据架构不佳,即使向量质量再高,检索效果也差。投入时间构建领域专用的元数据模式至关重要。

  3. 混合检索不可或缺:纯语义搜索在专业领域失败率过高。需要基于规则的后备方案和文档关系映射。

  4. 表格处理是关键::未能有效处理表格数据,将损失企业价值的重要部分。

  5. 基础设施是成败关键::客户更关注系统的可靠性而非华丽功能。资源管理和运行时间的重要性超越模型复杂度。

企业级 RAG:工程实践重于机器学习

“Enterprise RAG is way more engineering than ML.”

企业级 RAG 更侧重于工程实践,而非纯粹的机器学习。

多数项目失败并非源于模型性能不佳,而是低估了文档处理的挑战、元数据的复杂性以及生产基础设施的需求。

当前对这类系统的需求巨大。每个拥有大量文档库的公司都亟需 RAG 系统,但多数人尚未充分认识到处理真实世界文档的复杂性。

总之,企业级 RAG 系统的实际构建远比教程复杂。企业文档的各种边缘情况可能带来巨大挑战。然而,一旦成功部署,其投资回报率非常可观——团队文档搜索时间可从数小时缩短至数分钟。

四个工程要点代码示例

为更直观地展示上述译文内容,精选了四个重要工程要点,并结合业界常用开源组件,展示其核心代码逻辑,供读者参考。

文档质量评分系统

原帖最大的创新点在于处理文档前先进行评分,并根据质量路由到不同的处理流水线。作者指出,这一改动解决的检索问题比升级 embedding 模型更为显著。

核心在于识别三类文档:Clean(80+分)文档文本提取完美,可进行完整层级化处理;Decent(50-80 分)文档存在 OCR 瑕疵,需基础分块加清理;Garbage(<50 分)扫描手写笔记,只能固定分块并标记人工复查。

评分维度包括文本提取质量(权重 50%)、格式一致性(30%)和表格完整性(20%),通过采样前 3 页快速评估整个文档。以下以 PaddleOCR 为例,进行代码逻辑演示:

from paddleocr import PaddleOCR
import numpy as np
class DocumentQualityScorer:
    def __init__(self):
        self.ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    def score_document(self, pdf_images):
        """对文档打分并选择pipeline"""
        scores = []
        for img in pdf_images[:3]: # 采样前3页
            result = self.ocr.ocr(img, cls=True)
            if not result or not result[0]:
                scores.append(0)
                continue
            # 提取置信度
            confidences = [line[1][1] for line in result[0]]
            avg_conf = np.mean(confidences)
            scores.append(avg_conf * 100)
        overall = np.mean(scores)
        # 分类并路由
        if overall >= 80:
            return "clean", CleanPipeline()
        elif overall >= 50:
            return "decent", DecentPipeline()
        else:
            return "garbage", GarbagePipeline()

这段代码的核心逻辑是通过采样前 3 页图像进行 OCR,提取每个文本块的置信度分数(PaddleOCR 会为每个识别的文字块返回 0-1 的 confidence 值),然后通过平均值转换为 0-100 的分数。阈值 80 和 50 源于作者在多个项目中总结的经验:置信度高于 80% 的文档通常文本提取完美;50-80% 之间存在瑕疵但仍可用;低于 50% 则表示 OCR 质量很差。

仅采样 3 页而非全文的原因是前几页通常能代表整体风格,处理全文耗时过长(例如 100 页文档可能需 10+分钟),实测 3 页的准确率已达 95% 以上。将置信度乘以 100 是为了将 0-1 的浮点数转换为 0-100 的分数,便于理解和设置阈值。

在实际使用中,建议首先在数据集上标注约 100 个文档(人工判断 Clean/Decent/Garbage),然后运行评分并绘制散点图,观察三类文档的分数分布,以此调整阈值使分类准确率超过 90%。常见问题包括彩色扫描件 OCR 置信度可能很高但实际内容为垃圾,此时需加入”是否为图片 PDF”的判断;表格密集的文档(如财报)可能被低估,可适当提高表格评分的权重至 30%。性能优化方面,可改为均匀采样(如第 1 页、中间页、最后页各 1 页)以提高代表性,多页图像可并行 OCR 加速处理,同一文档的评分结果应缓存以避免重复计算。

层级化分块策略

原帖批判了”固定 512 token 分块”的做法,并提出了 4 层结构:Document(2048 tokens)→ Section(1024 tokens)→ Paragraph(512 tokens)→ Sentence(128 tokens)。关键洞察在于查询复杂度应决定检索层级:宽泛问题(如”这篇讲什么”)适合段落级或章节级检索,而精确问题(如”表 3 第 2 行是多少”)则需要句子级定位。每一层都生成独立的 embedding 存储在向量数据库中,检索时根据查询特征自动选择合适的层级,从而避免大海捞针的问题。以下以 LlamaIndex 为例进行演示:

from llama_index.core.node_parser import HierarchicalNodeParser
from llama_index.core import Document
class AdaptiveRetriever:
    def __init__(self):
        self.parser = HierarchicalNodeParser.from_defaults(
            chunk_sizes=[2048, 1024, 512, 128]
        )
        self.precision_keywords = ['exact', 'table', 'figure', '表', '图', '第']
    def retrieve(self, query, doc_text, vector_store):
        """层级化分块并自适应检索"""
        # 生成4层节点
        doc = Document(text=doc_text)
        nodes = self.parser.get_nodes_from_documents([doc])
        # 判断查询类型选择层级
        has_precision = any(kw in query.lower() for kw in self.precision_keywords)
        word_count = len(query.split())
        if has_precision:
            level = 'sentence'
        elif word_count > 15:
            level = 'section'
        else:
            level = 'paragraph'
        return vector_store.search(query, filter={'layer': level}, top_k=5)

HierarchicalNodeParser 会根据 chunk_sizes 参数自动将文档切分成 4 层,每层的大小是近似值而非严格限制,因为切分时会保持语义边界完整。参数 [2048, 1024, 512, 128] 适合英文文档,中文文档建议调整为 [3000, 1500, 600, 150],因为中文信息密度更高。

查询路由逻辑如下:如果查询包含精确关键词(如 table、figure、第 X 章等),则采用句子级检索;如果查询很长(超过 15 个词),表明是复杂概念问题,则采用章节级检索;否则,默认使用段落级检索。此启发式规则来源于原帖讨论区的经验,实测准确率约在 85% 左右。层级信息在存储到 vector_store 时通过元数据(metadata)的 layer 字段区分,检索时可利用 filter 过滤,仅在对应层级搜索。

实际使用时,并非每次查询都需要所有 4 层,多数情况下段落层已足够。可优先在段落层检索,若置信度较低再下钻到句子层进行二次检索。文档层主要用于”文档级”问题(如”这篇讲什么”)或生成摘要。

特殊文档类型需特别处理:表格和代码块应提前提取并单独分块,避免被切碎;标题应合并到后续内容而非单独成块;列表应保持完整性,避免在中间截断。性能优化方面,chunk_sizes 的 overlap 建议设置为大小的 5-10%,以防止切断完整语义,过大浪费存储,过小则可能丢失上下文。对于技术文档(代码较多),可使用更大的分块尺寸,如 [4096, 2048, 1024, 256]。

混合检索策略

原帖指出纯语义搜索在专业领域失败率高达 15-20%,因此需要采用三路并行策略:语义检索(向量相似度)理解语义但可能遗漏精确匹配,关键词检索(BM25)实现精确匹配但不理解同义词,元数据过滤(结构化字段)用于过滤无关文档。随后,使用 RRF(Reciprocal Rank Fusion)算法融合结果。融合公式为:对于文档 d 在结果列表中的排名 rank_d,融合分数等于各路结果的权重除以(60 + rank_d)之和。常数 60 是 RRF 的标准参数,用于平衡头部和尾部结果;权重通常设置为语义 0.7、关键词 0.3,具体场景可调整。以下以 Qdrant 为例进行代码示例:

from qdrant_client import QdrantClient
class HybridRetriever:
    def __init__(self):
        self.client = QdrantClient("localhost", port=6333)
    def search(self, query, top_k=10):
        """三路检索 + RRF融合"""
        # 语义检索(dense vector)
        semantic = self.client.search(
            collection_name="docs",
            query_vector=("dense", embed(query)),
            limit=top_k * 2
        )
        # 关键词检索(sparse vector)
        keyword = self.client.search(
            collection_name="docs",
            query_vector=("sparse", extract_keywords(query)),
            limit=top_k * 2
        )
        # RRF 融合
        scores = {}
        for rank, r in enumerate(semantic, 1):
            scores[r.id] = scores.get(r.id, 0) + 0.7 / (60 + rank)
        for rank, r in enumerate(keyword, 1):
            scores[r.id] = scores.get(r.id, 0) + 0.3 / (60 + rank)
        # 排序返回
        return sorted(scores.items(), key=lambda x: x[1], reverse=True)[:top_k]

Qdrant 支持在同一文档上同时存储 dense 和 sparse 两种向量:dense 向量是传统的语义 embedding(如 OpenAI、BGE),sparse 向量是关键词的稀疏表示,类似于 BM25 的词频向量。RRF 融合算法的核心在于使用排名的倒数而非原始分数进行融合,这有助于处理不同检索器分数尺度不统一的问题。权重 0.7 和 0.3 是通用场景的经验值(以语义为主);在精确查询较多的场景,可设置为 0.5/0.5 以达到均衡;概念查询较多时,可设置为 0.8/0.2 更偏向语义。limit 设置为 top_k * 2 是因为融合后可能存在重复结果,多取一些以确保最终获得足够数量的结果。元数据过滤(如 doc_type='clinical_trial')应在数据库层面通过 Filter 实现,而非在应用层过滤,以获得更好的性能。

混合检索在专业术语密集领域(医疗、法律、金融)是必不可少的,因为纯语义搜索容易遗漏缩写、代号、产品型号等精确匹配。当用户查询包含需要精确匹配的内容(如法规编号、技术规格)时,也必须启用混合检索。然而,在通用聊天场景中,纯语义搜索通常已足够,开启混合检索会增加 20-30% 的延迟。

性能优化方面,三路检索可并行执行以减少延迟,高频查询的结果应进行缓存。实践中,建议通过 A/B 测试来调整权重:记录用户点击率,观察哪个权重组合的 top3 点击率最高。若文档具有丰富的元数据(如时间、类别、作者),元数据过滤能显著提升准确率,例如对于”2024 年儿科临床试验”这类查询,可先利用元数据过滤掉无关文档,再进行语义检索。

置信度驱动的智能路由

根据原帖讨论区的具体参数,可设定 0.7 的相似度阈值并结合 20-30 个触发词。其逻辑是:初始时使用段落级检索获取最高分数,若置信度高(大于 0.85),则认为段落级检索已足够;若置信度中等(0.7-0.85)且包含精确关键词,则切换到句子级检索;若置信度较低(0.5-0.7),则下钻到句子级细粒度检索;若置信度极低(小于 0.5),则降级到关键词搜索作为兜底方案。这是一种简单而有效的”智能路由”策略,避免所有查询都采用相同粒度检索,既节省计算资源又提高了准确率。以下是纯 Python 的实现示例:

class ConfidenceRouter:
    def __init__(self):
        self.precision_kw = ['exact', 'table', 'figure', '表', '图', '第']
        self.high_conf = 0.85
        self.med_conf = 0.70
        self.low_conf = 0.50
    def route(self, query, search_engine):
        """置信度驱动的检索路由"""
        # 初始检索(段落级)
        initial = search_engine.search(query, level='paragraph', top_k=10)
        if not initial:
            return []
        max_score = max(r.score for r in initial)
        has_precision = any(kw in query.lower() for kw in self.precision_kw)
        # 决策
        if max_score >= self.high_conf:
            return initial # 高置信度,段落级足够
        elif max_score >= self.med_conf:
            if has_precision:
                return search_engine.search(query, level='sentence', top_k=10)
            return initial
        elif max_score >= self.low_conf:
            return search_engine.search(query, level='sentence', top_k=10)
        else:
            return search_engine.keyword_search(query, top_k=10) # 兜底

阈值 0.85/0.7/0.5 源自原帖讨论区作者在多个项目中验证的经验值,这些数字并非随意设定,而是通过标注数据找到的准确率突变点。精确关键词列表包含 20-30 个词,包括 exact、table、figure 以及中文的”表、图、第”等,还可利用正则表达式匹配”表 3″、”第 5 章”这类模式。决策逻辑是先用段落级试探,根据最高分数和是否存在精确词来决定是否需要更细粒度。如此,大部分查询(约 70%)在段落级即可解决,仅 30% 需要下钻到句子级或降级到关键词搜索。降级到关键词搜索是兜底策略,虽粗糙但总比返回空结果好,能在语义搜索完全失败时至少匹配到一些相关词。

实际使用时,建议在数据上标注约 100 个查询,绘制相似度分数的分布图,找出准确率突变点以设置阈值,不宜直接照搬 0.7/0.85 等数字。精确关键词列表需持续维护,从“不良案例”(用户重新搜索表明上次结果不满意)中收集,定期审查并删除误判率高的词,也可利用 TF-IDF 寻找领域特有的精确词。

建议记录详细日志,包括查询、最高分数、选择的策略(paragraph/sentence/keyword)、是否包含精确关键词以及用户点击率,通过日志分析持续优化阈值和触发词。进行 A/B 测试时,可对比不同阈值组合的 top3 点击率,选择表现最佳的组合。常见问题是阈值设置过高导致过多下钻到句子级,增加延迟;或设置过低导致许多查询在段落级返回,但准确率不足。需根据业务场景平衡准确率与性能。

技术问答讨论

原帖信息密度已高,但评论区蕴含更多实战细节。从 108 条讨论中精选了 17 条核心问答,涵盖以下四大主题:

技术实现细节:VLM 处理 PDF 比 HTML 转换更可靠的原因、小模型(7B-13B)的能力与局限、递归搜索的实现与触发机制、10-20 页文档全文读取与分块检索的选择标准;

成本和性能数据:GPT-4o 与 Qwen 的详细成本计算、H100 上运行 Qwen 32B 的真实性能数据、A100 部署成本及选型理由;

商业模式和团队运作:60-70%代码复用率的实现方法;2 人团队如何服务 10+企业客户、客户获取与合作伙伴模式、授权许可与定制开发的商业模式;

重要的澄清和补充:元数据提取中 LLM 与规则使用的边界、混合检索的自动选择挑战、法律和工程领域从业者的跨行业验证。

这些帖子评论区内容经过完整翻译、要点提炼,并补充了国内场景对照及实用性标注,作为会员专属资料,有兴趣的读者也可自行查阅原帖。

为直观展示,以下节选讨论区第 6 条关于成本对比的内容:

讨论区成本对比图

评论:

Qwen 比 GPT-4o 便宜 85% 的说法是否准确?在评估类似项目成本时,GPT-4o 的月度费用大致是多少?

作者回答:

GPT-4o 的价格是输入 $2.50/百万 tokens、输出 $10.00/百万 tokens。在典型的企业 RAG 场景中,假设首次处理 5 万文档(一次性 embedding),每月 1 万次查询,平均每次 1K 输入、500 输出。GPT-4o 成本估算:初始 embedding 约 $125,月度查询约 $100($75 输入 + $25 输出),总计中等使用量每月 $200-300+,规模扩大后会快速增长。Qwen QWQ-32B 的成本:输入 $0.15-0.50/百万 tokens、输出 $0.45-1.50/百万 tokens(Groq 报价为 $0.29 输入/$0.39 输出)。同样工作量下:初始 embedding 约 $15-25,月度查询约 $15-20,总计每月 $30-50,而非 $200-300+。这就是 85% 成本节省的来源。

写在最后

帖子作者指出”企业 RAG 是 70% 工程 + 20% 领域知识 + 10% 模型”。本文作者对此深表认同,并补充了一个维度:企业 RAG = 70% 工程 + 20% 领域知识 + 10% 模型 + ∞ 耐心。

毕竟,企业 RAG 不仅仅是一个纯粹的技术问题,对行业的深入理解、对脏数据的高效处理能力以及对工程细节的精准把控,都是不可或缺的必修课。

企业RAG系统总结图

TAGGED:Qwen模型RAG实战企业级AI文档处理混合检索
Share This Article
Email Copy Link Print
Previous Article Bose SoundTouch 音箱 Bose SoundTouch音箱云服务2026年停运:多房间播放等核心功能告终
Next Article AI驱动软件开发:从“写代码”到“聊需求”的范式大转变
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技

相关内容

Google ReasoningBank系统架构图
AI 前沿技术

微调已死?Google与斯坦福揭示AI学习新范式:ReasoningBank与ACE驱动智能体持续进化

2025年10月12日
人脑记忆与AI记忆对比图示
AI 前沿技术

AI学会遗忘:浙大LightMem团队以“睡眠机制”破解大模型记忆难题,显著降低成本并提升准确率

2025年10月26日
Opera Neon 浏览器集成Sora 2,支持文本生成视频
AI 前沿技术

Opera Neon 浏览器重磅升级:集成OpenAI Sora 2,开启智能视频创作新纪元

2025年10月15日
AI 前沿技术

Agent、信息召回与语义索引:LLM时代的深度解析

2025年10月26日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up