Hugging Face 与 Cerebras 合作，将 Gemma 4 带入实时语音 AI

Hugging Face 与 Cerebras Systems 宣布达成合作，旨在将 Google 的 Gemma 4 大语言模型引入实时语音 AI 场景。这项合作让开发者能利用 Cerebras 的 CS-3 晶圆级芯片加速推理，实现亚百毫秒级的语音响应，适用于语音助手、实时转录和对话式 AI 等应用。

Gemma 4 是 Google 于 2025 年 4 月发布的最新开源模型系列，包含 2B、9B 和 27B 参数版本，并原生支持多模态输入（文本、图像、语音）。但语音应用的端到端延迟一直是关键瓶颈。Cerebras 的晶圆级芯片通过减少内存数据传输，显著降低推理时间。

Hugging Face 已将 Gemma 4 模型集成到其 Inference Endpoints 服务中，并与 Cerebras 的 API 打通。开发者只需几行代码即可部署实时语音管道，无需自行管理基础设施。此外，双方还提供了优化的语音模型微调脚本，便于定制领域特定任务。

这次合作也让 Cerebras 的硬件能力首次通过 Hugging Face 平台直接面向开源社区。Cerebras 联合创始人 Andrew Feldman 表示：“语音 AI 正从实验走向生产，延迟是首要障碍。与 Hugging Face 的合作让任何开发者都能轻松利用晶圆级计算。”

目前，该方案已在几个测试中达到流式语音识别延迟低于 150 毫秒，接近人类对话的自然节奏。Hugging Face 团队表示，后续还将开放更多 Gemma 4 的语音微调检查点和推理优化工具。

原文链接：Hugging Face
本文由前途科技编辑整理