谷歌DeepMind CEO 与Gemini负责人揭秘Gemini 3三大突破(对话实录)
在谷歌发布Gemini 3系列模型之后,《纽约时报》旗下科技播客《Hard Fork》发布特别节目,由主持人Kevin Roose和Casey Newton专访谷歌DeepMind首席执行官Demis Hassabis与谷歌Gemini团队负责人Josh Woodward。
在这场独家对话中,谷歌DeepMind CEO Demis Hassabis和Gemini团队副总裁Josh Woodward首次全面揭秘了Gemini 3的技术突破、产品策略,以及通往AGI的路径。
他们坦言,距离AGI仍需要一到两个重大突破,时间线仍是5-10年,但Gemini 3已经让人们看到了这个未来的雏形。
Gemini 3的核心能力
谷歌分享了Gemini 3的几个核心能力方面。除了常规升级如编码能力更强、氛围编程更好之外,该模型在用户提问时会生成新的交互界面。
与大多数聊天机器人用文本回复不同,Gemini 3能够直接为用户构建定制化的界面。谷歌展示了相关例子,包括为梵高相关知识构建交互式教程,以及针对百万美元以上房产的抵押贷款计算器。
在基准测试方面,Gemini 3 Pro在”人类最后的考试”中得分37.5%,而之前的Gemini 2.5 Pro得分约21.6%。新模型在所有基准测试中都轻松击败了旧模型。
谷歌还展示了正在测试的Gemini智能体功能,包括浏览用户收件箱、理解内容、提议回复、分类整理邮件等能力,真正帮助用户控制收件箱。
Gemini 3本周将在Gemini应用和AI模式中提供,也会向开发者提供。虽然不会立即集成到Google Docs或Gmail等产品中,但已经进入谷歌搜索的AI模式,表明谷歌能够以足够低的成本提供服务。
对话:Demis Hassabis & Josh Woodward
在对话中,主持人询问Gemini 3相比以前AI模型的具体改进。
Josh Woodward指出三个突出方面:第一,模型在推理方面真正表现出色,能够同时思考很多步骤,比过去模型更好地保持思路追踪;第二,生成各种新的交互界面,是迄今为止在创建新型界面方面最好的模型;第三,在编码方面投入大量精力,展示了强大的编码能力。
关于普通用户是否能注意到差异的问题,Josh表示模型更简洁、更有表现力,以更容易理解的方式呈现信息。模型开始与其他类型信息互动,帮助学生学习和连接到用户在谷歌产品中的数据。
Demis Hassabis补充说,模型的总体可靠性显著提升,风格更简洁、切中要点,在实用性上跨越了某种门槛。特别是在氛围编程方面达到了非常有用和强大的水平。
通往AGI的路径
关于AGI发展时间线,Demis Hassabis表示进展完全按计划进行。虽然对Gemini 3的进展非常满意,符合预期的发展轨迹,但仍然认为需要一到两个额外突破才能真正获得通用智能的全面一致性。
需要在推理、记忆方面继续改进,以及世界模型等想法,这些将建立在Gemini之上并以各种方式扩展。一些想法也是完全解决物理智能等问题所必需的。
Demis重申时间线仍然是5到10年,可能还需要一到两个突破。
关于Gemini的”人设”
关于Gemini 3的个性和用户关系,Josh Woodward表示团队很大程度上将其视为工具,用于处理和应对日常工作。无论是帮助解决不同类型问题还是帮助创造东西,都是模型真正擅长的方向。
谷歌正在思考AI如何成为用户工具箱中的超级工具,无论用于写作、研究、制作电影还是其他用途。团队关注能够追踪”帮助用户完成多少任务”的新型指标。
谷歌是否领先AI竞赛?
针对谷歌在AI竞赛中的地位问题,Demis Hassabis表示这是一个非常激烈的竞争环境,真正重要的是进步速度。谷歌对此非常满意。
Demis强调谷歌一直在AI研究领域处于先锋地位,现在确保这在下游反映在所有产品中。谷歌DeepMind是谷歌的引擎室,为Gemini应用、Notebook LM等AI优先产品以及地图、YouTube、安卓、搜索等现有产品提供动力。
进展非常好,谷歌完成了这个进化的一半,用户在每个新功能中获得了价值和兴奋。
历史学家的惊喜体验
主持人提到历史学家在AI Studio中使用未发布谷歌模型的体验,该模型能够转录非常古老的文件并正确推理出1800年代加拿大皮毛贸易中的糖分测量单位。
Josh Woodward表示不确定是否使用了Gemini 3,但确认模型在建立这种连接方面非常惊人,能够处理旧文件或日记的照片,甚至字迹很差的笔记。
关于成本、搜索与Scaling Laws
关于将模型整合到搜索AI模式的效率问题,Demis Hassabis表示谷歌总是处于前沿,在模型效率方面做得非常好,开创了许多蒸馏技术。
不仅为了服务数十亿用户的极端用例,也为了云客户,谷歌一直试图处于成本与性能的帕累托前沿。
针对缩放定律和边际收益递减的讨论,Demis表示对Gemini 3相对于2.5的进步非常满意,符合预期。但这不意味着出现”收益递减”。
即使不是指数级翻倍,仍然非常值得做,投资回报率极高。在此期间,需要尽可能大规模的基础模型,仍然看到巨大进步。
安全和泡沫
关于基准测试对普通用户的重要性,Josh Woodward表示大多数人不会盯着基准测试看,它们是代理指标。真正重要的是产品中的用户满意度,两者同向发展令人鼓舞。
随着模型能力提升,Demis Hassabis表示在Gemini 3上花了很长时间进行安全测试,与安全机构和外部测试人员进行安全测试,是当前测试最彻底的模型。
特别改进了工具调用和函数调用能力,这对编程和推理非常重要,但也让它在网络攻击等高风险事情上更具能力,需要在提升这些维度时加倍谨慎。
关于AI泡沫问题,Demis认为AI行业某些部分可能处于泡沫中,如有些种子轮融资拿到几百亿美元但除了团队什么都没有。但另一方面,机器人技术、游戏、药物发现和自动驾驶等领域会发展成数千亿美元业务。
谷歌的”引擎室”策略把AI推送到数十亿用户的产品中,带来近期收入和回报。无论是否有泡沫,谷歌的工作都是在两种情况下获胜。
对于展示Gemini 3功能震惊全场的建议,Josh推荐使用Gemini的图像模型,拿出手机拍自拍并进行编辑,然后顺便展示Gemini 3的其他能力。
