前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

美团开源LongCat-Audio-Codec:高效语音编解码器助力Speech LLM实时交互落地

NEXTECH
Last updated: 2025年10月18日 上午6:42
By NEXTECH
Share
27 Min Read
SHARE

Speech LLM 落地挑战

语音大语言模型(Speech LLM)在实际落地中,面临一个核心挑战:既要快速准确地理解语音语义,又要生成自然的音色,同时还需保证实时响应。常见问题包括智能音箱“听不懂”用户指令、车载助手“说”话生硬如机器人,以及实时翻译出现明显延迟。究其根本,问题出在“语音 Token 化”这一关键步骤上。作为将语音拆分为Speech LLM“离散单元”的核心环节,传统方案难以在语义提取、声学还原和实时性之间取得平衡,从而制约了Speech LLM的广泛应用。

为解决Speech LLM落地过程中的音频处理难题,美团LongCat团队正式开源了专用语音编解码方案——LongCat-Audio-Codec。该方案提供了一站式的Token生成器(Tokenizer)与Token还原器(DeTokenizer)工具链。其核心功能是将原始音频信号高效映射为语义与声学并行的Token序列,并通过解码模块重构高质量音频,从而为Speech LLM提供从信号输入到输出的全链路音频处理支持。凭借创新的架构设计与训练策略,LongCat-Audio-Codec在语义建模、声学重建、流式合成三大维度实现了显著突破。

开源平台:

  • Github:https://github.com/meituan-longcat/LongCat-Audio-Codec
  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Audio-Codec

LongCat-Audio-Codec 模型架构图

LongCat-Audio-Codec 模型架构图

You Might Also Like

DeepSeek开源OCR模型:视觉Token压缩文本,重塑AI长文本处理效率与成本
DeepSeek-OCR深度解析:面向PM的视觉语言模型与智能体上下文工程新范式
DocReward:让智能体生成更专业文档的奖励模型,聚焦结构与样式优化
Apache Gravitino: 统一元数据与血缘,赋能Data+AI时代数据治理

LongCat-Audio-Codec 三大创新设计

LongCat-Audio-Codec 的核心竞争力源于三大创新设计:

设计一:语义-声学双Token并行提取机制:兼顾理解与生成

为解决语义空间干扰声学空间导致的重构质量不佳问题,LongCat-Audio-Codec创新性地采用“级联训练-并行推理”设计:

  • 语义 Token:首先基于双向Transformer架构,聚焦语音内容的核心信息,利用CTC微调后的ASR模型提取纯粹的语义信息,为Speech LLM的语义理解提供有力支撑。

  • 声学 Token:随后,结合已有的语义信息和改进的量化技术,在大码本空间下补充韵律、音色等副语言特征的声学Token,有效解决非语义信息覆盖不足的问题。

同时,该方案支持声学码本的动态配置。在保证语义能力一致的前提下,可以根据下游任务需求调整码本层数。例如,若下游任务为少音色场景,可选择单个声学码本以降低Speech LLM的学习负担;若为多音色场景,则可选择全部声学码本以提供丰富的说话人支持。

设计二:低延迟流式解码器:兼顾实时与质量

低延迟流式处理能力是Speech LLM在实时交互场景(如车载语音助手、实时翻译)中的核心需求,其关键指标是端到端延迟(End-to-End Latency)。传统解码架构并非专为流式场景设计,容易导致实时交互延迟高(例如实时翻译卡顿半秒)。LongCat-Audio-Codec通过引入低延迟流式解码器解决了这一问题。其解码器采用帧级增量处理模式,通过控制对未来语音Token的依赖,将解码延迟控制在百毫秒级。此架构显著提升了Speech LLM的交互实时性,符合工业级实时响应标准。


设计三:超低比特率高保真与集成超分辨率设计:兼顾压缩效率与音质

为解决“低比特率音质劣化”和“超分辨率需额外模型”的挑战,LongCat-Audio-Codec采用了协同优化设计:

  • 超低比特率:比特率是衡量音频压缩效率的核心指标。依靠模型优化与三阶段训练机制,通过降低信息量,该技术在确保Speech LLM能从海量数据中学习语音本质的同时,也降低了其训练难度,并为Speech LLM的规模化落地提供了有力支撑。

  • 集成超分辨率:LongCat-Audio-Codec将超分辨率思想嵌入解码器,通过神经网络对重建音频进行频域补全。此集成设计不仅提升了核心内容的压缩率,还通过提高输出音频的采样率,增强了语音的自然度和细节表现力。

低比特率下的可懂性与音质优势

低比特率下的可懂性与音质优势

在测试中,LongCat-Audio-Codec在低比特率区间(0.43-0.87kbps)的关键指标优于同类方案。对比其他携带语义的编解码器,LongCat-Audio-Codec在各比特率区间均表现最优。

LongCat-Audio-Codec 比特率与性能对比

  • 0.85-2kbps 区间(4 个码本,0.87kbps):词错误率(WER,越低表示语音可懂性越高)仅 1.48;语音质量感知评估(PESQ,越高表示主观音质越好)达 2.30;短时客观可懂性(STOI,越高表示语音信息保留越完整)达 0.921;说话人相似度(SECS)0.942,兼顾可懂性与音色一致性。

  • 0.65-0.85kbps 区间(3 个码本,0.65kbps):WER 1.70,STOI 0.900,优于同类低比特率方案。

  • <0.65kbps 区间(2 个码本,0.43kbps):WER 2.10,STOI 0.839,在极端低比特率下仍保持高可懂性,适合资源受限场景。

比特率与性能的灵活适配

当前架构支持在保证语义理解能力的情况下灵活调整码本数量(2-4 个)。LongCat-Audio-Codec能够实现比特率从0.43kbps到0.87kbps的渐进式优化,且指标同步提升:

  • WER 从 2.10 降至 1.48,STOI 从 0.839 升至 0.921,语音可懂度显著提高。

  • 总基音误差(GPE)从 3.69 降至 1.65,PESQ 从 1.47 升至 2.30(增幅 56.5%),说话人相似度从 0.862 升至 0.942,语音重构相似度进一步提高。

多阶段训练策略适配多样化场景

LongCat-Audio-Codec设计了多阶段训练策略,以兼容压缩率和音质的需求。其中,Stage1用于满足高压缩率下的重构需求,Stage2用于满足高音质合成需求,Stage3用于满足个性化定制需求。

LongCat-Audio-Codec 多阶段训练策略
LongCat-Audio-Codec 音质表现

经过Stage2优化后,LongCat-Audio-Codec在音质上表现突出,无参考音质指标SIGMOS达3.35,NISQA达4.33,甚至超过LibriTTS clean数据集(SIGMOS 3.24、NISQA 4.09)的录音水平。

LongCat-Audio-Codec Stage2 优化后音质表现

经过Stage3优化后,有限集说话人相似度(SIM)从0.717升至0.938,这证明在当前架构下,使用最低码率(0.43kbps)也能满足说话人定制需求。

LongCat-Audio-Codec Stage3 优化后说话人相似度

作为工业级语音大模型(Speech LLM)的专用语音Token解决方案,LongCat-Audio-Codec以三大核心创新打破了语音大模型落地的关键瓶颈:通过“语义-声学双Token并行提取”破解“懂却说不清”的平衡难题;以“低延迟流式解码”解决“说得清却不实时”的交互痛点;并依靠“超低比特率高保真+集成超分辨率”兼顾压缩效率与音质细节,真正让语音大模型既“听懂”语义,又能够“说清”。

LongCat-Audio-Codec的开源发布,为语音大模型领域带来了三重关键价值:

  • 第一,降低技术门槛:为缺乏专用语音处理模块的研究团队提供一站式Token生成器(Tokenizer)与Token还原器(DeTokenizer)工具链,有效缓解语音大模型领域架构碎片化和上手难度高的问题,使开发者能够基于开源代码快速构建语音大模型;

  • 第二,丰富应用场景:凭借灵活的码本配置、轻量化设计及低延迟解码方案,该编解码器能够适应更多样化的应用场景;

  • 第三,完善技术生态:与美团此前发布的LongCat系列模型形成协同,覆盖从语音Token处理到语音大模型全链路能力,为构建全栈式语音智能系统奠定坚实基础。

作为开源的语音大模型专用语音编解码器,LongCat-Audio-Codec的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案,更给语音-语言跨模态研究提供了新的参考范式。

未来,LongCat团队还将在多语言语音处理、长音频建模等方向持续优化,期待为行业带来更多突破,也欢迎更多开发者关注与参与共建。

LongCat-Audio-Codec现已全面开源,欢迎访问项目主页获取更多信息:

  • Github:https://github.com/meituan-longcat/LongCat-Audio-Codec

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Audio-Codec

TAGGED:AI前沿Speech LLM开源大模型语音编解码
Share This Article
Email Copy Link Print
Previous Article DeepResearch模型在科研场景中的应用示意图 阿里开源通义DeepResearch:科研智能体训练全流程深度解析
Next Article AIOps实践:基于n8n、Jumpserver、K8s、Prometheus与Loki的智能运维方案
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技

相关内容

智能问答与知识检索流程中的文档分段示意图
AI 前沿技术

文档分段深度解析:从基础规则到LLM智能分块,构建高效RAG系统的核心技术

2025年10月20日
黄仁勋向马斯克交付DGX Spark个人AI超级计算机
AI 前沿技术

黄仁勋再为马斯克送货上门:英伟达AI个人超算DGX Spark终亮相,开启桌面AI新时代

2025年10月15日
AI代码生成可能带来的安全隐患示意图
AI 前沿技术

用Claude/Cursor写代码?警惕AI生成代码的10大安全漏洞!

2025年10月26日
李继刚在43 Talks分享现场
AI 前沿技术

李继刚解密AI时代:AI本质、提示词心法与未来人才进化论 | 43 Talks

2025年10月16日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up