整理/第一新声
"去年这个时候,我说过,我们看到了5000亿美元的高确信度需求,覆盖Blackwell和Rubin直到2026年。现在,就在此时此地,我看到到2027年至少有1万亿美元的需求(at least $1 trillion)。"
2026年3月16日,英伟达创始人兼CEO黄仁勋在GTC 2026主题演讲中,给出了AI行业迄今为止最乐观的业绩指引。话音刚落,英伟达股价应声涨超4.3%。
但这还不是全部。黄仁勋补充道:"这合理吗?这就是我接下来要讲的。事实上,我们甚至会供不应求。我确定,实际的计算需求会比这高得多。"
从5000亿到1万亿美元,黄仁勋的底气来自哪里?答案藏在他首次系统阐述的"Token工厂经济学"中。
近年来,全球AI计算需求呈指数级增长。随着大模型从"感知"、"生成"进化到"推理"与"行动(执行任务)",算力的消耗量急剧攀升。
黄仁勋指出,如今的英伟达系统已经证明了自己是全球"成本最低的基础设施"。由于英伟达能运行几乎所有领域的AI模型,这种通用性使得客户投入的这1万亿美元能够被充分利用并保持长久的生命周期。
目前,英伟达60%的业务来自排名前五的超大型云服务商,而另外40%的业务则广泛分布于主权云、企业、工业、机器人和边缘计算等各个领域。

这一信心的背后,是CUDA架构20年积累的飞轮效应:全球数亿块运行CUDA的GPU形成了庞大的安装基数,吸引开发者创造新算法,催生新市场,进而扩大安装基数——这一飞轮正在加速旋转。"CUDA就在这一切的中心。"黄仁勋强调。
"我们正处于某件非常、非常重大的事情的起点。"黄仁勋说。
为了解释这1万亿需求的合理性,黄仁勋向全球企业CEO展示了一套全新的商业思维。他指出,未来的数据中心不再是存储文件的仓库,而是生产Token(AI生成的基本单位)的"工厂"。
"每一座数据中心、每一座工厂,从定义上来说都是受电力限制的。一座1GW(吉瓦)的工厂永远不会变成2GW,这是物理和原子的定律。在固定的功率下,谁的每瓦Token吞吐量最高,谁的生产成本就最低。"
黄仁勋将未来的AI服务分为以下商业层级:
免费层(高吞吐、低速度)
中级层(~每百万token 3美元)
高级层(~每百万token 6美元)
高速层(~每百万token 45美元)
超高速层(~每百万token 150美元)
他指出,随着模型越来越大、上下文越来越长,AI会变得更聪明,但Token的生成速率会降低。"在这个Token工厂里,你的吞吐量和Token生成速度,将直接转化为你明年的精确收入。"

根据研究机构SemiAnalysis的评测,在数据中心层面,衡量AI系统效率的关键指标是每瓦特能够生成多少token(tokens per watt)。评测结果显示,英伟达在AI推理性能和效率上依然保持领先。按照传统Moore's Law,新一代芯片通常只能带来约1.5倍性能提升,但从Hopper H200到Grace Blackwell NVLink 72架构,英伟达的每瓦特性能提升约35倍。SemiAnalysis分析师Dylan Patel甚至认为实际提升接近50倍。
黄仁勋强调:"英伟达的Token成本在世界范围内是'不可触碰'的。即便竞争对手的架构是免费的,它也不够便宜。" 他解释,建立一个1GW的工厂,即便里面什么都不放,15年的摊销成本也高达400亿美元。"你必须确保在这个工厂里运行最强的计算机系统,才能获得最低的Token生产成本。"
与Hopper相比,英伟达最新的Grace Blackwell在最高价值层提升了35倍吞吐量,并引入全新层级。以简化模型估算,将25%功率分别分配给四个层级,Grace Blackwell可比Hopper多产生5倍的收入。
黄仁勋还特别强调了数据处理基础设施的变革。随着AI时代到来,不仅人类会使用数据结构,AI系统和智能体也将直接访问和使用结构化数据库,而AI的处理速度远远快于人类。为此,英伟达构建了两项关键基础技术:cuDF用于加速数据框计算(结构化数据处理),cuVS面向向量存储和语义数据(非结构化数据处理)。这两项技术将成为未来数据基础设施中最重要的平台之一。
整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。这是一个全新的计算平台,由七款芯片组成,涵盖计算、网络和存储三大功能,是目前最先进的POD规模AI平台。
"过去我发布产品时,可能只是手里举着一块芯片(比如Hopper);但现在,当我谈到Vera Rubin时,我说的是一个全栈垂直整合的庞大系统。"黄仁勋表示。
据介绍,该平台由七款芯片组成, 涵盖计算、网络和存储三大功能。同时包含40个机架、1.2千万亿个晶体管、近2万个英伟达芯片、1152个英伟达Rubin GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。该平台目前已全面投产,并得到了包括Anthropic、OpenAI、Meta和Mistral AI以及所有主要云提供商在内的众多客户的鼎力支持。

在这个100%液冷、完全消灭了传统线缆的系统中,过去需要两天安装的机架,现在只需两小时。通过极致的端到端软硬件协同设计,Vera Rubin在同一座1GW数据中心里创造了惊人的数据跨越:"在短短两年时间内,我们将Token的生成速率从2200万提升到了7亿,实现了350倍的增长。摩尔定律在同时期仅能带来约1.5倍的提升。"
英伟达还为这一平台开发了一款全新的数据中心CPU——英伟达Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化,并成为全球首个在数据中心中采用LPDDR5内存的CPU,从而实现领先的性能功耗比。黄仁勋透露,这款CPU已经开始单独销售,并有望成为英伟达的一项数十亿美元级业务。
为了解决极速推理(如1000 Tokens/秒)条件下的带宽瓶颈,英伟达给出了整合被收购公司Groq的最终方案:非对称式的分离推理。
黄仁勋解释:"这两款处理器的特点截然不同。Groq芯片拥有500MB的SRAM,而一颗Rubin芯片拥有288GB的内存。"英伟达通过Dynamo软件系统,将需要海量计算和显存的"预填充(Pre-fill)"阶段交给Vera Rubin,将对延迟极度敏感的"解码"阶段交给Groq。

黄仁勋还对企业算力配置给出了建议:"如果你的工作主要是高吞吐,100%使用Vera Rubin;如果你有大量高价值的编程级别的Token生成需求,拿出25%的数据中心规模给Groq。"
据透露,由三星代工的Groq LP30芯片已在量产,预计第三季度出货,而首个Vera Rubin机架已在微软Azure云上运行。
整场演讲中对软件开发者影响最深远的部分,是黄仁勋对于最近爆火的"龙虾"(OpenClaw)现象的评论。他将开源项目OpenClaw形容为"人类历史上最受欢迎的开源项目",称其仅用几周时间就超越了Linux在过去30年取得的成就。
"从技术本质上看,OpenClaw可以被理解为一种智能体计算机的操作系统。"黄仁勋说。它能够连接大语言模型,管理各种计算资源,并调用文件系统、工具和模型服务;同时具备任务调度能力,可以将复杂问题分解为多个步骤,并调用子智能体协同完成任务。此外,它还提供多模态输入输出能力,用户既可以通过文本、语音甚至手势与其交互,也可以通过消息、邮件等方式获得反馈。
黄仁勋做出了一个惊人断言:"所有SaaS公司都将消失。"
他解释道,在传统企业IT架构中,数据中心主要负责存储数据和运行应用程序,各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代,这一模式将发生根本性变化。
"未来几乎所有SaaS(Software as a Service)公司都将演变为AaaS(Agentic as a Service)——即以智能体为核心的服务平台。"黄仁勋强调,企业软件正在从传统工具型软件,转向以智能体为核心的系统。
正因如此,OpenClaw的意义类似于过去的关键基础软件。黄仁勋表示,就像Linux让个人计算机和服务器生态得以发展,Kubernetes推动了云计算时代的基础设施,而HTML构建了互联网应用基础一样,OpenClaw为智能体时代提供了关键的软件栈。他认为,未来所有科技公司和软件公司都会面临一个问题——"你的OpenClaw战略是什么?"
不过,智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据,还可以执行代码并与外部网络通信。如果缺乏安全机制,可能带来严重风险。
为此,英伟达与OpenClaw作者Peter Steinberger以及多位安全与计算专家合作,对系统进行了企业级安全扩展,并推出NVIDIA NemoClaw参考架构。

该架构在OpenClaw基础上加入了名为OpenShell的安全组件,并提供企业级策略执行、网络防护和隐私路由等能力,使企业能够安全地部署和运行智能体系统。同时,系统还支持连接企业已有的策略引擎和治理工具,从而在确保合规和数据安全的前提下运行AI智能体。
演讲之前,市场早已躁动不安。黄仁勋曾在2月预告将发布一款"前所未见的芯片",被普遍认为是采用台积电1.6nm制程、引入光通信技术的下一代Feynman架构。
存储性能是制约AI推理的瓶颈,为此英伟达改变了以往使用标准HBM的策略,转而为Feynman GPU配备定制化HBM技术。现有的Rubin系列分别采用HBM4和HBM4E,而Feynman将跳过通用规格,可能采用基于HBM4E的定制增强版甚至提前布局定制化HBM5方案。

Feynman平台将不再沿用目前的Vera CPU架构,而是确认搭载代号为Rosa的全新CPU。Rosa CPU被设计为AI智能体(Agentic AI)的编排中枢,旨在更高效地调度GPU、存储与网络之间的Token流动,优化处理极其复杂的逻辑决策任务。
黄仁勋表示,Feynman时代标志着英伟达将计算、存储和封装三者进行了深度耦合。通过"3D堆叠核心 + 定制化内存 + 专用Rosa CPU"的组合,英伟达正在将数据中心从传统的服务器集群演进为一台高度集成的"巨型超级计算机"。
黄仁勋在演讲总结中强调,推理已成为AI最核心的工作负载,token是新的大宗商品,推理性能直接决定收入。
"数据中心已从文件存储设施演变为token生产工厂,未来每家公司都将以'AI工厂效率'来衡量自身竞争力。"黄仁勋说。
但这场演讲最震撼的预言是:"所有SaaS公司都将消失。" 随着OpenClaw成为智能体时代的"操作系统",传统软件即服务模式将被智能体即服务(AaaS)彻底取代。
从万亿需求到Token工厂经济学,从Vera Rubin的350倍性能飞跃到Feynman架构前瞻,再到宣告SaaS时代终结,黄仁勋的GTC 2026演讲不仅为英伟达的未来增长描绘了清晰蓝图,更为整个AI行业指明了下一个十年的演进方向——一个由智能体主导、Token驱动、算力为王的的全新时代。

