
行业洞察:音频优先的未来
过去两个月,OpenAI整合了多个工程、产品和研究团队,旨在全面革新其音频人工智能模型。据The Information报道,此举是为预计一年内推出的音频优先个人设备发布做准备。这一组织架构调整反映了硅谷的一个广泛共识:下一代计算的核心将由语音界面,而非屏幕来定义。
该公司正在开发一种新的音频模型架构,计划于2026年第一季度发布。该架构将能够提供更自然的语音、处理实时打断,并且与现有模型不同,它可以在用户仍在讲话时进行回应。从Character.AI招募的研究员Kundan Kumar正领导这项技术攻关,旨在缩小OpenAI音频模型与其基于文本的模型之间的差距。据现任和前任员工透露,后者目前仍具有更快的响应速度和更高的准确性。
此次硬件推进紧随OpenAI于五月以65亿美元收购io公司的行动。io由前苹果设计总监乔尼·艾夫共同创立。艾夫将减少设备成瘾作为核心优先事项,将音频优先设计视为纠正过去消费电子产品“错误”的契机。尽管具体细节尚不明确,但据报道,OpenAI正在考虑多种设备形态,包括智能眼镜和无屏幕智能音箱。
OpenAI的战略转向,呼应了整个科技行业对音频体验的探索浪潮。Meta在其雷朋智能眼镜中部署了五麦克风阵列,以在嘈杂环境中过滤对话;谷歌则于六月推出了“音频概览”功能,利用其Gemini AI模型将搜索结果转化为对话式摘要。特斯拉已将xAI的对话助手Grok集成到其车辆中,用于免提导航和气候控制。
然而,通往成功的音频优先硬件之路仍布满失败的先例。Humane公司于二月关闭了其AI Pin产品线,此前惠普以1.16亿美元收购了该公司的资产,终结了这个烧掉数亿美元资金的产品。这款售价699美元的可穿戴设备因响应缓慢、电池续航差以及无法完成基本任务而备受诟病。
这对OpenAI而言风险极高。首席执行官萨姆·奥特曼曾将io的原型机称为“世界前所未见的最酷技术”,并设定了雄心勃勃的目标:以“比任何公司推出全新产品达到1亿台销量更快的速度”出货1亿台设备。仅凭音频能否支撑起一个新的计算平台,还是它仍需依赖用户已离不开的基于屏幕的生态系统,这仍是悬在行业头顶的价值数十亿美元的问题。
