腾讯开源Youtu-Embedding：加速企业级RAG落地

通用大模型并非总是可靠的专家。

在企业级智能客服、知识库管理等场景中，通用大模型可能一本正经地产生幻觉内容，即资料库中明明存在答案，却编造出貌似合理的虚假信息。为有效降低此类风险，越来越多的企业选择引入文本Embedding技术，以实现信息的精准提取，并将其交由大模型生成回复。

然而，随之而来的新问题是：Embedding模型容易陷入「负迁移」困境。「负迁移」指的是模型在原有训练领域（例如通用语料）表现良好，但当应用于新领域时，由于语境和表达方式的差异，其性能可能急剧下降。

以法律合同场景为例，若将通用Embedding模型应用于此类文档，当用户提问「这份协议的甲方有哪些权利?」时，模型可能难以准确找到答案。这通常是因为模型过度依赖通用语料中「甲方」、「权利」等常见词汇搭配，反而忽视了合同中诸如「许可方享有下述独家授权」等真正关键的专业表述。这会导致模型检索出看似相关但实际无关的内容，从而错失最核心的信息。

为破解这一难题，腾讯优图实验室正式开源了Youtu-Embedding——

Youtu-Embedding是一款专为企业级应用设计的通用文本表示模型，能够同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它不仅有效避免了「负迁移」带来的性能限制，还具备即插即用的通用性。

该模型开源后，开发者可直接使用Youtu-Embedding构建语义检索系统，也可基于其提供的训练框架，结合自身业务数据进行持续训练，从而打造更贴合特定场景的语义基础能力。

Youtu-Embedding模型解决负迁移问题示意图

这款「全能」模型是如何炼成的？它通过以下三步训练方法实现——

//第一步：通读3万亿Token语料，打好语言底子

模型若要具备强大的理解力，首要任务是打牢语言基础。Youtu-Embedding并非基于现有开源模型进行微调，而是从零开始，利用3万亿Token的中英文语料进行训练，从而奠定其语言理解的基本盘。

同时，该模型准备了充足的「数据燃料」，其中包括人工精标的语义任务数据、常见中文表达的真实语料，以及利用大模型辅助生成并经人工筛选的合成样本。这些数据不仅数量充足、结构清晰，更重要的是贴近真实业务语境，为后续多任务协同训练奠定了坚实的语言理解基础。

//第二步：建好语义桥梁，让模型理解真实意图

语言模型天生擅长「生成」，但对于语义检索、相似度判断等任务，更需要的是「理解」和「判断」能力。

模型引入大规模弱监督训练，使其从「语言建模者」转变为真正的「语义理解者」。例如，当用户提问「这款产品保修多久？」与「坏了可以免费修吗？」时，这两句虽用词和句式不同，但语义相近，均是在询问产品的保修期。

通过此类训练，模型能够学会识别「表达不同但意图一致」的句子，并在向量空间中建立准确的语义映射。

//第三步：创新微调框架，多任务协同进化

为实现业务场景的真正落地，模型还需要适配具体任务的复杂规则与多样化需求。例如，在检索任务中，模型需判断哪个文本与问题更为接近；在分类任务中，则需为内容打上合适的标签。

由于每种任务的训练方式各异，若将所有任务一股脑儿地交给模型学习，轻则导致混淆，重则造成能力间的互相干扰。为了解决这一「多任务训练」的挑战，该模型设计了一套创新的「协同－判别式微调框架」，其核心做法包括：

●统一格式：针对不同语义任务（如文本相似度、文本检索）迥异的数据结构，通过统一建模方式实现格式标准化，使模型无需切换理解不同格式，即可适应各类任务；

●差异化训练：为每类任务定制专属的损失函数，这相当于针对不同的任务类型，设定个性化的「评分标准」。例如，在检索任务中，模型只需粗略判断文本与问题「相关」或「不相关」；而在语义相似度任务中，则需更细致地区分「非常相似」、「有点相似」、「基本无关」等不同程度。通过这种差异化设计，模型能够明确每类任务的评估方式和优化方向，从而更精准地提升各项能力；

●动态采样：鉴于不同任务的难度和重要性存在差异，模型引入了动态采样机制，使其在训练过程中能按阶段「合理分配精力」。如同安排课程表一般，模型不会将所有任务一股脑儿地混合学习，而是进行「有计划地轮训」——例如，今日重点训练「检索」，明日则专攻「语义相似度」。这种方式确保模型能在各类任务上扎实学习，避免顾此失彼或出现某些任务的「偏科」训练。

Youtu-Embedding本地实测效果图