美团开源LongCat-Audio-Codec：高效语音编解码器助力Speech LLM实时交互落地

Speech LLM 落地挑战

语音大语言模型（Speech LLM）在实际落地中，面临一个核心挑战：既要快速准确地理解语音语义，又要生成自然的音色，同时还需保证实时响应。常见问题包括智能音箱“听不懂”用户指令、车载助手“说”话生硬如机器人，以及实时翻译出现明显延迟。究其根本，问题出在“语音 Token 化”这一关键步骤上。作为将语音拆分为Speech LLM“离散单元”的核心环节，传统方案难以在语义提取、声学还原和实时性之间取得平衡，从而制约了Speech LLM的广泛应用。

为解决Speech LLM落地过程中的音频处理难题，美团LongCat团队正式开源了专用语音编解码方案——LongCat-Audio-Codec。该方案提供了一站式的Token生成器（Tokenizer）与Token还原器（DeTokenizer）工具链。其核心功能是将原始音频信号高效映射为语义与声学并行的Token序列，并通过解码模块重构高质量音频，从而为Speech LLM提供从信号输入到输出的全链路音频处理支持。凭借创新的架构设计与训练策略，LongCat-Audio-Codec在语义建模、声学重建、流式合成三大维度实现了显著突破。

开源平台：

Github：https://github.com/meituan-longcat/LongCat-Audio-Codec
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Audio-Codec

LongCat-Audio-Codec 模型架构图

LongCat-Audio-Codec 三大创新设计

LongCat-Audio-Codec 的核心竞争力源于三大创新设计：

设计一：语义-声学双Token并行提取机制：兼顾理解与生成

为解决语义空间干扰声学空间导致的重构质量不佳问题，LongCat-Audio-Codec创新性地采用“级联训练-并行推理”设计：

语义 Token：首先基于双向Transformer架构，聚焦语音内容的核心信息，利用CTC微调后的ASR模型提取纯粹的语义信息，为Speech LLM的语义理解提供有力支撑。
声学 Token：随后，结合已有的语义信息和改进的量化技术，在大码本空间下补充韵律、音色等副语言特征的声学Token，有效解决非语义信息覆盖不足的问题。

同时，该方案支持声学码本的动态配置。在保证语义能力一致的前提下，可以根据下游任务需求调整码本层数。例如，若下游任务为少音色场景，可选择单个声学码本以降低Speech LLM的学习负担；若为多音色场景，则可选择全部声学码本以提供丰富的说话人支持。

设计二：低延迟流式解码器：兼顾实时与质量

低延迟流式处理能力是Speech LLM在实时交互场景（如车载语音助手、实时翻译）中的核心需求，其关键指标是端到端延迟（End-to-End Latency）。传统解码架构并非专为流式场景设计，容易导致实时交互延迟高（例如实时翻译卡顿半秒）。LongCat-Audio-Codec通过引入低延迟流式解码器解决了这一问题。其解码器采用帧级增量处理模式，通过控制对未来语音Token的依赖，将解码延迟控制在百毫秒级。此架构显著提升了Speech LLM的交互实时性，符合工业级实时响应标准。

设计三：超低比特率高保真与集成超分辨率设计：兼顾压缩效率与音质

为解决“低比特率音质劣化”和“超分辨率需额外模型”的挑战，LongCat-Audio-Codec采用了协同优化设计：

超低比特率：比特率是衡量音频压缩效率的核心指标。依靠模型优化与三阶段训练机制，通过降低信息量，该技术在确保Speech LLM能从海量数据中学习语音本质的同时，也降低了其训练难度，并为Speech LLM的规模化落地提供了有力支撑。
集成超分辨率：LongCat-Audio-Codec将超分辨率思想嵌入解码器，通过神经网络对重建音频进行频域补全。此集成设计不仅提升了核心内容的压缩率，还通过提高输出音频的采样率，增强了语音的自然度和细节表现力。

低比特率下的可懂性与音质优势

在测试中，LongCat-Audio-Codec在低比特率区间（0.43-0.87kbps）的关键指标优于同类方案。对比其他携带语义的编解码器，LongCat-Audio-Codec在各比特率区间均表现最优。

LongCat-Audio-Codec 比特率与性能对比

0.85-2kbps 区间（4 个码本，0.87kbps）：词错误率（WER，越低表示语音可懂性越高）仅 1.48；语音质量感知评估（PESQ，越高表示主观音质越好）达 2.30；短时客观可懂性（STOI，越高表示语音信息保留越完整）达 0.921；说话人相似度（SECS）0.942，兼顾可懂性与音色一致性。
0.65-0.85kbps 区间（3 个码本，0.65kbps）：WER 1.70，STOI 0.900，优于同类低比特率方案。
<0.65kbps 区间（2 个码本，0.43kbps）：WER 2.10，STOI 0.839，在极端低比特率下仍保持高可懂性，适合资源受限场景。

比特率与性能的灵活适配

当前架构支持在保证语义理解能力的情况下灵活调整码本数量（2-4 个）。LongCat-Audio-Codec能够实现比特率从0.43kbps到0.87kbps的渐进式优化，且指标同步提升：

WER 从 2.10 降至 1.48，STOI 从 0.839 升至 0.921，语音可懂度显著提高。
总基音误差（GPE）从 3.69 降至 1.65，PESQ 从 1.47 升至 2.30（增幅 56.5%），说话人相似度从 0.862 升至 0.942，语音重构相似度进一步提高。

多阶段训练策略适配多样化场景

LongCat-Audio-Codec设计了多阶段训练策略，以兼容压缩率和音质的需求。其中，Stage1用于满足高压缩率下的重构需求，Stage2用于满足高音质合成需求，Stage3用于满足个性化定制需求。

LongCat-Audio-Codec 多阶段训练策略
LongCat-Audio-Codec 音质表现

经过Stage2优化后，LongCat-Audio-Codec在音质上表现突出，无参考音质指标SIGMOS达3.35，NISQA达4.33，甚至超过LibriTTS clean数据集（SIGMOS 3.24、NISQA 4.09）的录音水平。

LongCat-Audio-Codec Stage2 优化后音质表现

经过Stage3优化后，有限集说话人相似度（SIM）从0.717升至0.938，这证明在当前架构下，使用最低码率（0.43kbps）也能满足说话人定制需求。

LongCat-Audio-Codec Stage3 优化后说话人相似度

作为工业级语音大模型（Speech LLM）的专用语音Token解决方案，LongCat-Audio-Codec以三大核心创新打破了语音大模型落地的关键瓶颈：通过“语义-声学双Token并行提取”破解“懂却说不清”的平衡难题；以“低延迟流式解码”解决“说得清却不实时”的交互痛点；并依靠“超低比特率高保真+集成超分辨率”兼顾压缩效率与音质细节，真正让语音大模型既“听懂”语义，又能够“说清”。

LongCat-Audio-Codec的开源发布，为语音大模型领域带来了三重关键价值：

第一，降低技术门槛：为缺乏专用语音处理模块的研究团队提供一站式Token生成器（Tokenizer）与Token还原器（DeTokenizer）工具链，有效缓解语音大模型领域架构碎片化和上手难度高的问题，使开发者能够基于开源代码快速构建语音大模型；
第二，丰富应用场景：凭借灵活的码本配置、轻量化设计及低延迟解码方案，该编解码器能够适应更多样化的应用场景；
第三，完善技术生态：与美团此前发布的LongCat系列模型形成协同，覆盖从语音Token处理到语音大模型全链路能力，为构建全栈式语音智能系统奠定坚实基础。

作为开源的语音大模型专用语音编解码器，LongCat-Audio-Codec的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案，更给语音-语言跨模态研究提供了新的参考范式。

未来，LongCat团队还将在多语言语音处理、长音频建模等方向持续优化，期待为行业带来更多突破，也欢迎更多开发者关注与参与共建。

LongCat-Audio-Codec现已全面开源，欢迎访问项目主页获取更多信息：

Github：https://github.com/meituan-longcat/LongCat-Audio-Codec
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Audio-Codec

美团开源LongCat-Audio-Codec：高效语音编解码器助力Speech LLM实时交互落地

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

Claude Skills：知识工程赋能AI Agent，实现通用模型向专业‘行家里手’的范式转变

火山引擎AICC机密计算重磅升级：开源Trusted MCP，实现全链路安全

OpenAI 公开 Atlas 架构：为AI Agent重新发明浏览器

如何理性认识AI能力边界？Jason Wei斯坦福分享的3大核心框架

分类

快速链接

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复