前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

腾讯开源Youtu-Embedding:加速企业级RAG落地,降低应用风险

NEXTECH
Last updated: 2025年10月15日 上午7:30
By NEXTECH
Share
17 Min Read
SHARE

腾讯开源Youtu-Embedding:加速企业级RAG落地

通用大模型并非总是可靠的专家。

在企业级智能客服、知识库管理等场景中,通用大模型可能一本正经地产生幻觉内容,即资料库中明明存在答案,却编造出貌似合理的虚假信息。为有效降低此类风险,越来越多的企业选择引入文本Embedding技术,以实现信息的精准提取,并将其交由大模型生成回复。

然而,随之而来的新问题是:Embedding模型容易陷入「负迁移」困境。「负迁移」指的是模型在原有训练领域(例如通用语料)表现良好,但当应用于新领域时,由于语境和表达方式的差异,其性能可能急剧下降。

以法律合同场景为例,若将通用Embedding模型应用于此类文档,当用户提问「这份协议的甲方有哪些权利?」时,模型可能难以准确找到答案。这通常是因为模型过度依赖通用语料中「甲方」、「权利」等常见词汇搭配,反而忽视了合同中诸如「许可方享有下述独家授权」等真正关键的专业表述。这会导致模型检索出看似相关但实际无关的内容,从而错失最核心的信息。

为破解这一难题,腾讯优图实验室正式开源了Youtu-Embedding——

Youtu-Embedding是一款专为企业级应用设计的通用文本表示模型,能够同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它不仅有效避免了「负迁移」带来的性能限制,还具备即插即用的通用性。

You Might Also Like

深度学习视频数据预处理:高效工具 Vid Prepper 全面解析
过拟合与欠拟合:深入理解机器学习中的偏差-方差权衡
IMF《世界经济展望》:2025年增长微调,警惕AI泡沫与贸易保护主义双重风险
Python 实现你的“真实”生日计算:天文与地理空间时序分析实战

该模型开源后,开发者可直接使用Youtu-Embedding构建语义检索系统,也可基于其提供的训练框架,结合自身业务数据进行持续训练,从而打造更贴合特定场景的语义基础能力。

Youtu-Embedding模型解决负迁移问题示意图

这款「全能」模型是如何炼成的?它通过以下三步训练方法实现——

//第一步:通读3万亿Token语料,打好语言底子

模型若要具备强大的理解力,首要任务是打牢语言基础。Youtu-Embedding并非基于现有开源模型进行微调,而是从零开始,利用3万亿Token的中英文语料进行训练,从而奠定其语言理解的基本盘。

同时,该模型准备了充足的「数据燃料」,其中包括人工精标的语义任务数据、常见中文表达的真实语料,以及利用大模型辅助生成并经人工筛选的合成样本。这些数据不仅数量充足、结构清晰,更重要的是贴近真实业务语境,为后续多任务协同训练奠定了坚实的语言理解基础。

//第二步:建好语义桥梁,让模型理解真实意图

语言模型天生擅长「生成」,但对于语义检索、相似度判断等任务,更需要的是「理解」和「判断」能力。

模型引入大规模弱监督训练,使其从「语言建模者」转变为真正的「语义理解者」。例如,当用户提问「这款产品保修多久?」与「坏了可以免费修吗?」时,这两句虽用词和句式不同,但语义相近,均是在询问产品的保修期。

通过此类训练,模型能够学会识别「表达不同但意图一致」的句子,并在向量空间中建立准确的语义映射。

//第三步:创新微调框架,多任务协同进化

为实现业务场景的真正落地,模型还需要适配具体任务的复杂规则与多样化需求。例如,在检索任务中,模型需判断哪个文本与问题更为接近;在分类任务中,则需为内容打上合适的标签。

由于每种任务的训练方式各异,若将所有任务一股脑儿地交给模型学习,轻则导致混淆,重则造成能力间的互相干扰。为了解决这一「多任务训练」的挑战,该模型设计了一套创新的「协同-判别式微调框架」,其核心做法包括:

●统一格式:针对不同语义任务(如文本相似度、文本检索)迥异的数据结构,通过统一建模方式实现格式标准化,使模型无需切换理解不同格式,即可适应各类任务;

●差异化训练:为每类任务定制专属的损失函数,这相当于针对不同的任务类型,设定个性化的「评分标准」。例如,在检索任务中,模型只需粗略判断文本与问题「相关」或「不相关」;而在语义相似度任务中,则需更细致地区分「非常相似」、「有点相似」、「基本无关」等不同程度。通过这种差异化设计,模型能够明确每类任务的评估方式和优化方向,从而更精准地提升各项能力;

●动态采样:鉴于不同任务的难度和重要性存在差异,模型引入了动态采样机制,使其在训练过程中能按阶段「合理分配精力」。如同安排课程表一般,模型不会将所有任务一股脑儿地混合学习,而是进行「有计划地轮训」——例如,今日重点训练「检索」,明日则专攻「语义相似度」。这种方式确保模型能在各类任务上扎实学习,避免顾此失彼或出现某些任务的「偏科」训练。

Youtu-Embedding本地实测效果图

Youtu-Embedding的实力已获得权威检验——

在中文语义评测基准CMTEB上,Youtu-Embedding此前以77.46分的综合成绩登顶,成为表现最均衡的中文语义模型之一。

Youtu-Embedding企业级RAG应用场景

Youtu-Embedding可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景,尤其适用于构建RAG检索增强生成系统。

此外,Youtu-Embedding支持集成至LangChain、LlamaIndex等主流框架,实现「开箱即用」,有效降低了开发门槛,助力开发者快速构建更智能的语义应用。

腾讯优图实验室开源Agent、GraphRAG、Embedding模型

自九月以来,腾讯优图实验室已陆续开源了Youtu-Agent、Youtu-GraphRAG和Youtu-Embedding等多款AI能力。

腾讯优图实验室坚信,真正好用的AI不仅体现在性能的不断提升,更在于底层能力的持续夯实与对开发者生态的长期开放。

TAGGED:AI前沿Embedding模型RAG落地大模型技术腾讯开源
Share This Article
Email Copy Link Print
Previous Article 20251015072352746.jpg Impulse Space:2028年实现月球货运新突破,填补太空运输空白
Next Article 20251015073829212.jpg 美司法部施压Meta移除ICE群组:科技巨头与言论自由的冲突
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

图1:期望值公式
未分类

AI 产品管理中的期望值分析:不确定性决策的指路明灯

2025年11月7日
癌症的标志——左侧呈现了癌症需要积累的一系列公认特征,以实现持续的增殖生长。
未分类

PyTorch深度学习:利用DNA拷贝数数据精准分类肺癌亚型

2025年10月18日
Google ReasoningBank系统架构图
AI 前沿技术

微调已死?Google与斯坦福揭示AI学习新范式:ReasoningBank与ACE驱动智能体持续进化

2025年10月12日
iPhone Air 极薄机身与弯曲测试
未分类

超薄iPhone Air:惊人坚固,弯曲测试揭示216磅极限

2025年9月21日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up