黄仁勋:AI 时代,Nvidia 正在引领变革
在 2025 年的 CES 上,Nvidia CEO 黄仁勋发表了令人耳目一新的主题演讲。人工智能,他最钟爱的主题,正在席卷全球,而 Nvidia 也因此成为全球最有价值的公司之一。苹果最近以 3.58 万亿美元的市值超越了 Nvidia,而 Nvidia 的市值则为 3.33 万亿美元。
今年是 Nvidia GeForce 图形芯片业务成立 25 周年。从 1996 年我第一次采访黄仁勋,谈论为“Windows 加速器”开发图形芯片,到如今,Nvidia 从图形领域转向 AI,经历了漫长的发展历程。当年,Nvidia 是 80 家 3D 图形芯片制造商之一,如今,它成为了仅存的三家公司之一。
黄仁勋本人并没有太大变化。在主题演讲中,他发布了一款新的游戏显卡,Nvidia GeForce RTX 50 系列,但同时还宣布了十几个与 AI 相关的消息,展示了 Nvidia 如何为机器人开发者提供蓝图和平台,简化机器人训练过程,使其能够适应现实世界。事实上,Nvidia 现在正在使用 AI 来提升其图形芯片的帧速率,这项技术被称为 DLSS 4。此外,还有像 Cosmos 这样的技术,它可以帮助机器人开发者使用合成数据来训练他们的机器人。这些 Nvidia 的发布,其中几个是我在 CES 上最喜欢的 13 个亮点。
主题演讲结束后,黄仁勋在拉斯维加斯富兰克林酒店与媒体进行了自由的问答环节。起初,他与房间里的音视频团队就音质问题进行了有趣的讨论,因为他在台上听不到问题。于是,他走下台,来到媒体人群中,在调侃了名叫塞巴斯蒂安的音视频团队成员后,回答了我们所有人的问题,甚至还和我一起自拍。之后,他又回答了来自金融分析师的一系列问题。
黄仁勋在主题演讲中对 AI 的技术掌控给我留下了深刻印象,但这更像是一场 SIGGRAPH 技术大会的演讲,而不是 CES 上面向消费者的主题演讲。我问了他这个问题,你可以看到他的回答。我将所有媒体的提问和回答都包含在下面。
以下是媒体问答环节的编辑版记录。
问答环节
问:去年,你定义了一个新的计算单位,数据中心。从建筑开始,一直到系统。现在你已经完成了从底层到顶层的构建。是时候让 Nvidia 开始考虑基础设施、电力以及系统中其他部分了吗?
黄仁勋:作为一项原则,Nvidia 仅专注于其他人没有做,或者我们可以做得更好的事情。这就是为什么我们没有涉足太多业务的原因。我们之所以这样做,是因为如果我们没有构建 NVLink72,谁会做?谁能够做?如果我们没有构建像 Spectrum-X 这样的交换机,这种具有 InfiniBand 优势的以太网交换机,谁会做?谁能够做?我们希望公司保持相对较小规模,我们只有 3 万多人,仍然是一家小公司。我们希望确保我们的资源高度集中在我们可以做出独特贡献的领域。
我们现在在整个供应链中上下游运作。我们与电力传输和电力调节公司合作,与从事冷却等工作的公司合作。我们努力在整个供应链中上下游运作,让大家为即将到来的 AI 解决方案做好准备。超大规模数据中心每机架的功率约为 10 千瓦,Hopper 为 40 到 50 到 60 千瓦,而 Blackwell 则约为 120 千瓦。我的感觉是,这个数字还会继续上升。我们希望它上升,因为功率密度是一件好事。我们宁愿拥有密集且靠近的计算机,也不愿拥有分散且分布在各处的计算机。密度是好的。我们将看到功率密度不断上升。我们将对数据中心内部和外部进行更好的冷却,更加可持续。还有很多工作要做。我们尽量不做非做不可的事情。
问:昨晚你发布了很多关于 AI 个人电脑的消息。这些产品的采用率还没有起飞。是什么阻碍了它们的普及?你认为 Nvidia 能否帮助改变这种情况?
黄仁勋:AI 起源于云,也是为云而生的。如果你看看 Nvidia 在过去几年的所有增长,都是来自云,因为训练模型需要 AI 超级计算机。这些模型相当庞大。在云中部署它们很容易。它们被称为端点,如你所知。我们认为,仍然有一些设计师、软件工程师、创意人员和爱好者希望使用他们的个人电脑来完成所有这些事情。一个挑战是,由于 AI 存在于云中,并且云中充满了活力和发展,因此仍然很少有人为 Windows 开发 AI。
事实证明,Windows 个人电脑非常适合 AI。有一个叫做 WSL2 的东西。WSL2 是一个虚拟机,一个基于 Linux 的第二个操作系统,它运行在 Windows 内部。WSL2 的创建是为了成为本质上的云原生。它支持 Docker 容器。它对 CUDA 有完美的支持。我们将把为云创建的 AI 技术,通过确保 WSL2 可以支持它,将其带到个人电脑上。我认为这是正确的答案。我对此感到兴奋。所有个人电脑 OEM 都对此感到兴奋。我们将让所有这些个人电脑准备好 Windows 和 WSL2。我们将把 AI 云的所有活力和发展直接带到个人电脑上。
问:昨晚,在演讲的某些部分,感觉像是一场 SIGGRAPH 演讲。非常技术性。你现在已经接触到更广泛的受众。我想知道你是否可以解释一下昨晚发布的 AI 相关消息,尤其是那些对昨晚你所说内容一无所知的人。
黄仁勋:如你所知,Nvidia 是一家技术公司,而不是一家消费公司。我们的技术会影响,并将影响消费电子产品的未来。但这并不改变我本可以做得更好的事实,我本可以更好地解释这项技术。再试一次。
我们昨天宣布的最重要的事情之一是,一个理解物理世界的基础模型。就像 GPT 是一个理解语言的基础模型,Stable Diffusion 是一个理解图像的基础模型一样,我们创建了一个理解物理世界的基础模型。它理解摩擦、惯性、重力、物体存在和持久性、几何和空间理解等概念。这些都是孩子们都知道的东西。他们以语言模型今天无法理解的方式理解物理世界。我们相信,需要一个理解物理世界的基础模型。
一旦我们创建了它,你就可以用 GPT 和 Stable Diffusion 做的所有事情,现在都可以用 Cosmos 做。例如,你可以和它对话。你可以和这个世界模型对话,说:“现在世界上有什么?”根据季节,它会说:“有很多坐在房间里桌子前的人。音响效果不太好。”诸如此类。Cosmos 是一个世界模型,它理解世界。
问题是,为什么我们需要这样的东西?原因是,如果你希望 AI 能够在物理世界中合理地运行和交互,你就必须拥有一个理解物理世界的 AI。你可以在哪里使用它?自动驾驶汽车需要理解物理世界。机器人需要理解物理世界。这些模型是实现所有这些目标的起点。就像 GPT 使我们今天经历的一切成为可能,就像 Llama 对 AI 领域非常重要,就像 Stable Diffusion 触发了所有这些生成式图像和视频模型一样,我们希望用 Cosmos,这个世界模型,做同样的事情。
问:昨晚你提到,我们正在看到一些新的 AI 扩展定律出现,特别是关于测试时计算。OpenAI 的 O3 模型表明,从计算的角度来看,扩展推理非常昂贵。其中一些运行在 ARC-AGI 测试中花费了数千美元。Nvidia 在做什么来提供更具成本效益的 AI 推理芯片,更广泛地说,你们如何定位自己,从测试时扩展中获益?
黄仁勋:测试时计算的直接解决方案,无论是在性能还是经济性方面,都是提高我们的计算能力。这就是为什么 Blackwell 和 NVLink72 的推理性能可能比 Hopper 高 30 或 40 倍。通过将性能提高 30 或 40 倍,你将成本降低 30 或 40 倍。数据中心的成本大致相同。
摩尔定律在计算史上的重要性在于,它降低了计算成本。我之所以谈论过去 10 年中 GPU 性能提高了 1000 倍或 10000 倍,是因为通过谈论这一点,我们实际上是在说,我们把成本降低了 1000 倍或 10000 倍。在过去 20 年中,我们已经将计算的边际成本降低了 100 万倍。机器学习成为可能。推理也会发生同样的事情。当我们提高性能时,推理成本就会下降。
思考这个问题的第二种方式是,今天需要多次迭代测试时计算,测试时扩展,才能推断出答案。这些答案将成为下次训练后的数据。这些数据将成为下次预训练的数据。所有收集到的数据都将进入预训练和后训练的数据池。我们将继续将其推入训练过程,因为让一台超级计算机变得更聪明,训练模型,让每个人的推理成本都下降,这更便宜。
然而,这需要时间。所有这三个扩展定律都会持续一段时间。无论如何,它们都会同时发生一段时间。我们将及时让所有模型变得更聪明,但人们会提出越来越难的问题,要求模型做越来越聪明的事情。测试时扩展会增加。
问:你是否打算进一步增加在以色列的投资?
黄仁勋:我们从几乎所有地方招募高技能人才。我认为 Nvidia 网站上有超过一百万份来自对职位感兴趣的人的简历。公司只雇佣了 32000 人。人们对加入 Nvidia 的兴趣很高。我们所做的事情非常有趣。我们在以色列有很大的增长空间。
当我们收购 Mellanox 时,我认为他们有 2000 名员工。现在我们在以色列有近 5000 名员工。我们可能是以色列增长最快的雇主。我对此感到非常自豪。团队非常棒。在以色列经历的所有挑战中,团队始终保持高度专注。他们做出了非凡的工作。在这段时间里,我们的以色列团队创建了 NVLink。我们的以色列团队创建了 Spectrum-X 和 Bluefield-3。所有这些都发生在过去几年。我为团队感到无比自豪。但我们今天没有要宣布的交易。
问:多帧生成,它仍然是渲染两帧,然后生成中间帧吗?另外,关于纹理压缩,RTX 神经材质,这是游戏开发者需要专门采用的东西,还是可以在驱动程序端完成,以惠及更多游戏?
黄仁勋:很快就会发布详细的简报。你们应该参加。但我们在 Blackwell 中所做的是,我们增加了着色器处理器处理神经网络的能力。你可以在着色器管道中放入代码,并将其与神经网络混合。这之所以如此重要,是因为纹理和材质是在着色器中处理的。如果着色器无法处理 AI,你就无法获得通过神经网络获得的一些算法进步的益处,例如压缩。与我们过去 30 年使用的算法相比,你今天可以更好地压缩纹理。压缩率可以大幅提高。如今,游戏的体积非常大。如果我们可以将这些纹理再压缩 5 倍,那将是一件大事。
接下来是材质。光线穿过材质的方式,它的各向异性特性,导致它以一种表明它是金色油漆还是金色的方式反射光线。光线在其微观原子结构上的反射和折射方式导致材质具有这些特性。用数学方法描述这一点非常困难,但我们可以使用 AI 来学习它。神经材质将是彻底的突破。它将为计算机图形带来活力和逼真度。这两者都需要内容方面的努力。显然是内容。开发者必须以这种方式开发他们的内容,然后他们才能将这些东西整合进去。
关于 DLSS,帧生成不是插值。它是真正的帧生成。你是在预测未来,而不是插值过去。之所以这样做,是因为我们试图提高帧速率。如你所知,DLSS 4 彻底改变了游戏体验。一定要看看它。
问:5090 和 5080 之间存在巨大的差距。5090 的核心数量是 5080 的两倍多,价格也是两倍多。为什么你们要在这两款产品之间制造如此大的差距?
黄仁勋:当有人想要拥有最好的东西时,他们就会选择最好的。世界上没有那么多细分市场。我们大多数用户都想要最好的。如果我们给他们稍微差一点的东西,以节省 100 美元,他们不会接受。他们只想要最好的。
当然,2000 美元不是小数目。它很有价值。但这项技术将进入你的家庭影院 PC 环境。你可能已经投入了 10000 美元购买显示器和音响。你想要最好的 GPU。我们很多客户,他们绝对只想要最好的。
问:随着 AI 个人电脑在 PC 游戏中变得越来越重要,你是否想象过一个未来,不再有传统渲染的帧?
黄仁勋:不会。原因是——还记得 ChatGPT 发布的时候,人们说,“哦,现在我们可以直接生成整本书了吗?”但内部没有人期望那样。这叫做条件化。我们现在用上下文对聊天或提示进行条件化。在你理解一个问题之前,你必须理解上下文。上下文可以是 PDF,可以是网络搜索,也可以是确切地告诉它上下文是什么。图像也是如此。你必须给它上下文。
视频游戏中的上下文必须是相关的,不仅是故事方面,而且是空间相关的,与世界相关的。当你对其进行条件化并赋予它上下文时,你给了它一些早期的几何图形或早期的纹理。它可以从那里生成并上采样。条件化,基础,与你在 ChatGPT 中所做的以及那里的上下文相同。在企业使用中,它被称为 RAG,检索增强生成。在未来,3D 图形将是基础的,条件化的生成。
让我们看看 DLSS 4。在这四帧中,有 3300 万像素——我们渲染了一帧,生成了三帧——我们渲染了 200 万像素。这不是奇迹吗?我们实际上渲染了两帧,生成了 31 帧。这之所以如此重要,是因为这 200 万像素必须在精确的点上渲染。从这个条件化开始,我们可以生成另外 3100 万像素。这不仅令人惊叹,而且这 200 万像素可以被精美地渲染。我们可以应用大量的计算,因为我们本来要应用于另外 3100 万像素的计算,现在我们将其引导并定向到这 200 万像素。这 200 万像素非常复杂,它们可以激发和告知另外 3100 万像素。
未来,视频游戏也会发生同样的事情。我刚刚描述了不仅是我们渲染的像素,还有我们渲染的几何图形,我们渲染的动画等等。视频游戏的未来,现在 AI 已经融入计算机图形——我们创建的这个神经渲染系统现在已经成为常识。这花了大约六年时间。我第一次宣布 DLSS 时,所有人都表示不相信。部分原因是我们没有很好地解释它。但花了这么长时间,每个人才意识到生成式 AI 是未来。你只需要用艺术家的意图对其进行条件化和基础化。
我们对 Omniverse 也做了同样的事情。Omniverse 和 Cosmos 之所以相互关联,是因为 Omniverse 是 Cosmos 的 3D 引擎,是生成引擎。我们在 Omniverse 中完全控制,现在我们可以控制尽可能少,尽可能少,这样我们就可以生成尽可能多。当我们控制得更少时会发生什么?然后我们可以模拟更多。我们现在可以在 Omniverse 中模拟的世界可以非常庞大,因为我们在另一边有一个生成引擎,让它看起来很漂亮。
问:你是否认为 Nvidia GPU 将开始通过 AI 计算来处理未来游戏中的逻辑?通过 AI 将图形和逻辑都带到 GPU 上是一个目标吗?
黄仁勋:是的。绝对的。记住,GPU 是 Blackwell。Blackwell 可以生成文本,语言。它可以推理。一个完整的代理 AI,一个完整的机器人,可以在 Blackwell 上运行。就像它在云中或汽车中运行一样,我们可以在 Blackwell 中运行整个机器人循环。就像我们可以在 Blackwell 中进行流体动力学或粒子物理学一样。CUDA 是一样的。Nvidia 的架构在机器人、汽车、云、游戏系统中完全相同。这是我们做出的明智决定。软件开发者需要有一个通用的平台。当他们创建一些东西时,他们希望知道他们可以在任何地方运行它。
昨天我说,我们将创建云中的 AI,并在你的个人电脑上运行它。还有谁能这么说?它完全与 CUDA 兼容。云中的容器,我们可以将其下载并在你的个人电脑上运行它。SDXL NIM 将会很棒。FLUX NIM?很棒。Llama?直接从云中下载并在你的个人电脑上运行它。游戏也会发生同样的事情。
问:毫无疑问,超大规模数据中心对你们产品的需求很大。但你能详细说明一下,你对扩大收入基础以包括企业、政府,以及构建自己的数据中心的紧迫感有多强?尤其是当像亚马逊这样的客户正在寻求构建自己的 AI 芯片时。其次,你能详细说明一下,你从企业发展中看到了多少?
黄仁勋:我们的紧迫感来自为客户服务。我从未担心过,我的某些客户也在构建其他芯片。我很高兴他们在云中构建,我认为他们做出了明智的选择。如你所知,我们的技术节奏非常快。当我们每年将性能提高两倍时,实际上我们每年将成本降低两倍。这比摩尔定律在最佳状态下还要快。我们将响应客户的需求,无论他们在哪里。
关于企业,重要的是,如今的企业由两个行业提供服务:软件行业,ServiceNow、SAP 等等,以及帮助他们将这些软件适应其业务流程的解决方案集成商。我们的策略是与这两个生态系统合作,帮助他们构建代理 AI。NeMo 和蓝图是构建代理 AI 的工具包。例如,我们与 ServiceNow 合作的工作非常棒。他们将拥有一系列代理,这些代理位于 ServiceNow 之上,帮助进行客户支持。这是我们的基本策略。对于解决方案集成商,我们与 Accenture 等公司合作——Accenture 正在做着至关重要的工作,帮助客户将代理 AI 整合到他们的系统中。
第一步是帮助整个生态系统开发 AI,这与开发软件不同。他们需要不同的工具包。我认为我们在过去一年中在构建代理 AI 工具包方面做得很好,现在是关于部署等等。
问:昨晚看到 5070 以及价格下降令人兴奋。我知道现在还早,但我们能从 60 系列显卡中期待什么,尤其是在 400 美元以下的价格范围内?
黄仁勋:昨晚我们发布了四款 RTX Blackwell,性能最低的一款拥有今天世界上高端 GPU 的性能。这说明了 AI 的强大功能。如果没有 AI,如果没有张量核心以及围绕 DLSS 4 的所有创新,这种能力是不可能实现的。我没有什么要宣布的。有 60 系列吗?我不知道。不过,它是我最喜欢的数字之一。
问:你谈到了代理 AI。现在很多公司都在谈论代理 AI。你如何与 AWS、微软、Salesforce 等公司合作或竞争?这些公司拥有平台,他们也在告诉客户开发代理。你如何与他们合作?
黄仁勋:我们不是一家直接面向企业的公司。我们是一家技术平台公司。我们为 ServiceNow 等公司开发工具包、库和 AI 模型。这是我们的主要关注点。我们的主要关注点是 ServiceNow、SAP、Oracle、Synopsys、Cadence 和 Siemens,这些公司拥有丰富的专业知识,但 AI 的库层不是他们想要关注的领域。我们可以为他们创建它。
这很复杂,因为本质上我们是在谈论将 ChatGPT 放入容器中。那个端点,那个微服务,非常复杂。当他们使用我们的产品时,他们可以在任何平台上运行它。我们为他们开发了技术,NIM 和 NeMo。不是为了与他们竞争,而是为了他们。如果我们的任何 CSP 想要使用它们,并且我们很多 CSP 已经使用了——使用 NeMo 来训练他们的大型语言模型或训练他们的引擎模型——他们在他们的云存储中拥有 NIM。我们为他们创建了所有这些技术层。
思考 NIM 和 NeMo 的方式,就像思考 CUDA 和 CUDA-X 库一样。CUDA-X 库对 Nvidia 平台的采用至关重要。这些东西包括用于线性代数的 cuBLAS,用于深度神经网络处理引擎的 cuDNN,它彻底改变了深度学习,CUTLASS,以及我们一直在谈论的所有这些花哨的库。我们为行业创建了这些库,这样他们就不必自己创建。我们正在为行业创建 NeMo 和 NIM,这样他们就不必自己创建。
问:你认为今天非游戏 PC 市场中有哪些最大的未满足需求?
黄仁勋:DIGITS 代表深度学习 GPU 智能训练系统。这就是它的含义。DIGITS 是一个面向数据科学家的平台。DIGITS 是一个面向数据科学家、机器学习工程师的平台。今天,他们正在使用他们的个人电脑和工作站来完成这些工作。对于大多数人的个人电脑来说,要进行机器学习和数据科学,要运行 PyTorch 等等,它并不理想。我们现在有了这个可以放在你桌子上的小设备。它是无线的。你与它交流的方式就像你与云交流的方式一样。它就像你自己的私人 AI 云。
你想要它的原因是,如果你在你的机器上工作,你总是使用那台机器。如果你在云中工作,你总是使用云。账单可能非常高。我们让拥有个人开发云成为可能。它适用于数据科学家、学生和工程师,他们需要一直使用系统。我认为 DIGITS——整个宇宙都在等待 DIGITS。这非常合理,因为 AI 起源于云,最终也回到了云,但它却留下了世界上的计算机。我们只需要想出一些方法来服务这些用户。
问:你昨天谈到机器人很快就会出现在我们周围。你认为机器人会站在哪一边——与人类站在一起,还是与人类为敌?
黄仁勋:与人类站在一起,因为我们将以这种方式构建它们。超级智能的概念并不罕见。如你所知,我有一家公司,里面有很多员工,对我来说,他们在各自的领域都是超级智能的。我被超级智能包围着。我更喜欢被超级智能包围,而不是其他选择。我喜欢我的员工,我们公司的领导者和科学家,都是超级智能的。我的智力水平一般,但我被超级智能包围着。
这就是未来。你将拥有超级智能的 AI,它们将帮助你写作、分析问题、进行供应链规划、编写软件、设计芯片等等。它们将构建营销活动或帮助你制作播客。你将拥有超级智能,帮助你做很多事情,它会一直都在。当然,这项技术可以以多种方式使用。是人类有害,机器只是机器。
问:2017 年,Nvidia 在 CES 上展示了一辆自动驾驶汽车。同年 5 月,你与丰田合作。2017 年和 2025 年有什么区别?2017 年的问题是什么,2025 年正在进行哪些技术创新?
黄仁勋:首先,未来所有移动的东西都将是自动的,或者具有自动功能。将不会有你需要推动的割草机。我希望在 20 年后看到有人推着割草机。那将非常有趣。这毫无意义。在未来,所有汽车——你仍然可以选择自己驾驶,但所有汽车都将能够自动驾驶。从我们今天所处的位置,道路上有 10 亿辆汽车,没有一辆能够自动驾驶,到——让我们说,选择我们最喜欢的某个时间,20 年后。我相信汽车将能够自动驾驶。五年前,这还不太确定,这项技术将有多强大。现在,传感器技术、计算机技术、软件技术已经触手可及。现在有太多证据表明,新一代汽车,尤其是电动汽车,几乎每一辆都将是自动的,具有自动功能。
如果说有两个因素真正改变了传统汽车公司的想法,一个是特斯拉。他们很有影响力。但最大的影响是来自中国的令人难以置信的技术。新兴的电动汽车公司,新的电动汽车公司——比亚迪、理想汽车、小鹏汽车、小米、蔚来——他们的技术非常出色。自动驾驶能力非常出色。现在它正在走向世界其他地方。它设定了标准。每家汽车制造商都必须考虑自动驾驶汽车。世界正在改变。这项技术需要一段时间才能成熟,我们自己的观念也需要一段时间才能成熟。我认为现在我们已经做到了。Waymo 是我们伟大的合作伙伴。Waymo 现在遍布旧金山。
问:关于昨天发布的新模型,Cosmos、NeMo 等等,它们会成为智能眼镜的一部分吗?鉴于行业的发展方向,这似乎将成为未来许多人体验 AI 代理的地方?
黄仁勋:我对连接到云中 AI 的智能眼镜感到非常兴奋。我在看什么?我应该如何从这里到达那里?你可以阅读,它可以帮助你阅读。AI 的使用,随着它与可穿戴设备和眼镜的虚拟存在技术相连接,所有这些都非常有前景。
我们使用 Cosmos 的方式,云中的 Cosmos 将为你提供视觉穿透。如果你想要眼镜中的东西,你可以使用 Cosmos 来提炼一个更小的模型。Cosmos 成为一个知识转移引擎。它将自己的知识转移到一个更小的 AI 模型中。你之所以能够做到这一点,是因为这个更小的 AI 模型变得高度专注。它不太通用。这就是为什么有可能将知识狭隘地转移并将其提炼成一个更小的模型。这也是我们总是从构建基础模型开始的原因。然后我们可以通过蒸馏过程构建一个更小的模型,再构建一个更小的模型。师生模型。
问:昨天发布的 5090 是一款很棒的显卡,但让神经渲染工作起来的一个挑战是,Windows 和 DirectX 将如何处理。你们打算做些什么来帮助团队最大限度地减少在实现引擎方面遇到的阻力,以及激励微软与你们合作,确保他们改进 DirectX?
黄仁勋:无论 DirectX API 的新演变是什么,微软多年来一直非常合作。我们可以想象,我们与 DirectX 团队有着良好的关系。随着我们 GPU 的发展,如果 API 需要改变,他们会非常支持。对于我们使用 DLSS 所做的大多数事情,API 不需要改变。实际上是引擎需要改变。从语义上讲,它需要理解场景。场景更多地存在于 Unreal 或 Frostbite 中,即开发者的引擎中。这就是为什么 DLSS 今天被集成到很多引擎中的原因。一旦 DLSS 的管道被安装,特别是从 DLSS 2、3 和 4 开始,那么当我们更新 DLSS 4 时,即使游戏是为 3 开发的,你也会获得 4 的一些好处,等等。对于场景理解 AI 的管道,基于场景中的语义信息进行处理的 AI,你真的需要在引擎中完成它。
问:所有这些重大的科技转型都不是由一家公司完成的。对于 AI,你认为是否存在任何阻碍我们前进的东西,生态系统中是否存在任何缺失的部分?
黄仁勋:是的。让我将其分解为两部分。一方面,在语言方面,认知 AI 方面,当然我们正在推进 AI 的认知能力,基本能力。它必须是多模态的。它必须能够进行自己的推理等等。但另一方面是将这项技术应用到 AI 系统中。AI 不是一个模型。它是一个模型系统。代理 AI 是一个模型系统的集成。有一个模型用于检索、搜索、生成图像、推理。它是一个模型系统。
在过去几年中,行业一直在沿着应用路径进行创新,而不仅仅是基础 AI 路径。基础 AI 路径是用于多模态、推理等等。与此同时,存在一个缺口,一个行业加速其进程所必需的缺失的东西。那就是物理 AI。物理 AI 需要相同的基础模型,基础模型的概念,就像认知 AI 需要经典的基础模型一样。GPT-3 是第一个达到一定能力水平的基础模型,它开启了一系列能力。我们必须为物理 AI 达到基础模型的能力。
这就是我们正在开发 Cosmos 的原因,这样我们就可以达到这种能力水平,将这个模型发布到世界上,然后突然之间,一系列终端用例就会开始,下游任务,下游技能,这些技能是由于拥有基础模型而被激活的。这个基础模型也可以成为一个教学模型,就像我们之前谈到的那样。这个基础模型是我们构建 Cosmos 的原因。
世界上缺失的第二件事是我们正在与 Omniverse 和 Cosmos 合作,将这两个系统连接在一起,这样它就是一个物理条件,物理基础,这样我们就可以使用这个基础来控制生成过程。从 Cosmos 中出来的东西是高度可信的,而不仅仅是高度幻觉的。Cosmos 加上 Omniverse 是未来可能非常庞大的机器人行业的缺失的初始起点。这就是我们构建它的原因。
问:你对贸易和关税以及它们可能对每个人意味着什么感到担忧吗?
黄仁勋:我不担心。我相信政府会为他们的贸易谈判做出正确的决定。无论最终结果如何,我们都会尽最大努力帮助我们的客户和市场。
后续问题听不清。
黄仁勋:我们只在市场需要我们的时候,在市场上存在一个需要填补的空白,而我们注定要填补它的时候,才会做一些事情。我们倾向于做一些远远领先于市场的事情,如果我们不做,它就不会被完成。这就是 Nvidia 的心理。不要做别人做的事情。我们不是市场守护者。我们是市场创造者。我们倾向于不去进入已经存在的市场,然后占据我们的份额。这只是我们公司的理念。
我们公司的理念是,如果市场不存在——例如,世界上没有 DIGITS 这样的东西。如果我们不构建 DIGITS,世界上没有人会构建 DIGITS。软件堆栈太复杂了。计算能力太强大了。除非我们做,否则没有人会做。如果我们没有推进神经图形,没有人会做到。我们必须这样做。我们倾向于这样做。
问:你认为 AI 当前的增长方式是否可持续?
黄仁勋:是的。据我所知,没有物理限制。如你所知,我们能够如此迅速地推进 AI 能力的原因之一是,我们能够同时构建和集成我们的 CPU、GPU、NVLink、网络以及所有软件和系统。如果这些工作必须由 20 家不同的公司完成,而我们必须将它们全部集成在一起,那么时间将太长。当我们拥有所有集成在一起并得到软件支持的东西时,我们可以非常迅速地推进这个系统。从 Hopper、H100 和 H200 到下一个,再到下一个,我们将能够每年都取得进步。
第二件事是,因为我们能够在整个系统中进行优化,所以我们能够实现的性能远远不止晶体管本身。摩尔定律已经放缓。晶体管的性能并没有逐代提高那么多。但我们的系统整体性能却逐年大幅提高。据我所知,没有物理限制。
随着我们推进计算,模型将继续发展。如果我们提高计算能力,研究人员就可以用更大的模型、更多的数据进行训练。我们可以提高他们的计算能力,以实现第二条扩展定律,强化学习和合成数据生成。这将继续扩展。第三条扩展定律,测试时扩展——如果我们继续提高计算能力,成本将继续下降,而这条定律的扩展也将继续增长。我们现在有三个扩展定律。我们有大量的数据可以处理。我还没有看到任何物理原因,让我们无法继续推进计算。AI 将会非常迅速地发展。
问:Nvidia 还会在台湾建造新的总部