Hugging Face 与芯片厂商 Cerebras 宣布合作,将 Google 的 Gemma 4 模型集成到实时语音 AI 应用中。通过 Cerebras 的专用硬件加速,语音交互的延迟大幅降低,为开发者提供更高效的部署方案。
Hugging Face 与 Cerebras Systems 宣布达成合作,旨在将 Google 的 Gemma 4 大语言模型引入实时语音 AI 场景。这项合作让开发者能利用 Cerebras 的 CS-3 晶圆级芯片加速推理,实现亚百毫秒级的语音响应,适用于语音助手、实时转录和对话式 AI 等应用。
Gemma 4 是 Google 于 2025 年 4 月发布的最新开源模型系列,包含 2B、9B 和 27B 参数版本,并原生支持多模态输入(文本、图像、语音)。但语音应用的端到端延迟一直是关键瓶颈。Cerebras 的晶圆级芯片通过减少内存数据传输,显著降低推理时间。
Hugging Face 已将 Gemma 4 模型集成到其 Inference Endpoints 服务中,并与 Cerebras 的 API 打通。开发者只需几行代码即可部署实时语音管道,无需自行管理基础设施。此外,双方还提供了优化的语音模型微调脚本,便于定制领域特定任务。
这次合作也让 Cerebras 的硬件能力首次通过 Hugging Face 平台直接面向开源社区。Cerebras 联合创始人 Andrew Feldman 表示:“语音 AI 正从实验走向生产,延迟是首要障碍。与 Hugging Face 的合作让任何开发者都能轻松利用晶圆级计算。”
目前,该方案已在几个测试中达到流式语音识别延迟低于 150 毫秒,接近人类对话的自然节奏。Hugging Face 团队表示,后续还将开放更多 Gemma 4 的语音微调检查点和推理优化工具。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断