黄仁勋GTC2026演讲：万亿Token工厂时代，Agent终结SaaS_企业/人物深度

封面.png 整理/第一新声

校对/Tina

"去年这个时候，我说过，我们看到了5000亿美元的高确信度需求，覆盖Blackwell和Rubin直到2026年。现在，就在此时此地，我看到到2027年至少有1万亿美元的需求（at least $1 trillion）。"

2026年3月16日，英伟达创始人兼CEO黄仁勋在GTC 2026主题演讲中，给出了AI行业迄今为止最乐观的业绩指引。话音刚落，英伟达股价应声涨超4.3%。

但这还不是全部。黄仁勋补充道："这合理吗？这就是我接下来要讲的。事实上，我们甚至会供不应求。我确定，实际的计算需求会比这高得多。"

从5000亿到1万亿美元，黄仁勋的底气来自哪里？答案藏在他首次系统阐述的"Token工厂经济学"中。

从5000亿到1万亿美元，英伟达的底气何在？

近年来，全球AI计算需求呈指数级增长。随着大模型从"感知"、"生成"进化到"推理"与"行动（执行任务）"，算力的消耗量急剧攀升。

黄仁勋指出，如今的英伟达系统已经证明了自己是全球"成本最低的基础设施"。由于英伟达能运行几乎所有领域的AI模型，这种通用性使得客户投入的这1万亿美元能够被充分利用并保持长久的生命周期。

目前，英伟达60%的业务来自排名前五的超大型云服务商，而另外40%的业务则广泛分布于主权云、企业、工业、机器人和边缘计算等各个领域。

这一信心的背后，是CUDA架构20年积累的飞轮效应：全球数亿块运行CUDA的GPU形成了庞大的安装基数，吸引开发者创造新算法，催生新市场，进而扩大安装基数——这一飞轮正在加速旋转。"CUDA就在这一切的中心。"黄仁勋强调。

"我们正处于某件非常、非常重大的事情的起点。"黄仁勋说。

Token工厂经济学：英伟达Token成本全球最低

为了解释这1万亿需求的合理性，黄仁勋向全球企业CEO展示了一套全新的商业思维。他指出，未来的数据中心不再是存储文件的仓库，而是生产Token（AI生成的基本单位）的"工厂"。

"每一座数据中心、每一座工厂，从定义上来说都是受电力限制的。一座1GW（吉瓦）的工厂永远不会变成2GW，这是物理和原子的定律。在固定的功率下，谁的每瓦Token吞吐量最高，谁的生产成本就最低。"

黄仁勋将未来的AI服务分为以下商业层级：

免费层（高吞吐、低速度）
中级层（~每百万token 3美元）
高级层（~每百万token 6美元）
高速层（~每百万token 45美元）
超高速层（~每百万token 150美元）

他指出，随着模型越来越大、上下文越来越长，AI会变得更聪明，但Token的生成速率会降低。"在这个Token工厂里，你的吞吐量和Token生成速度，将直接转化为你明年的精确收入。"

根据研究机构SemiAnalysis的评测，在数据中心层面，衡量AI系统效率的关键指标是每瓦特能够生成多少token（tokens per watt）。评测结果显示，英伟达在AI推理性能和效率上依然保持领先。按照传统Moore's Law，新一代芯片通常只能带来约1.5倍性能提升，但从Hopper H200到Grace Blackwell NVLink 72架构，英伟达的每瓦特性能提升约35倍。SemiAnalysis分析师Dylan Patel甚至认为实际提升接近50倍。

黄仁勋强调："英伟达的Token成本在世界范围内是'不可触碰'的。即便竞争对手的架构是免费的，它也不够便宜。" 他解释，建立一个1GW的工厂，即便里面什么都不放，15年的摊销成本也高达400亿美元。"你必须确保在这个工厂里运行最强的计算机系统，才能获得最低的Token生产成本。"

与Hopper相比，英伟达最新的Grace Blackwell在最高价值层提升了35倍吞吐量，并引入全新层级。以简化模型估算，将25%功率分别分配给四个层级，Grace Blackwell可比Hopper多产生5倍的收入。

黄仁勋还特别强调了数据处理基础设施的变革。随着AI时代到来，不仅人类会使用数据结构，AI系统和智能体也将直接访问和使用结构化数据库，而AI的处理速度远远快于人类。为此，英伟达构建了两项关键基础技术：cuDF用于加速数据框计算（结构化数据处理），cuVS面向向量存储和语义数据（非结构化数据处理）。这两项技术将成为未来数据基础设施中最重要的平台之一。

Vera Rubin时代降临：350倍性能飞跃与极速推理

整场演讲的另一个小高潮来自于Vera Rubin超级AI平台的亮相。这是一个全新的计算平台，由七款芯片组成，涵盖计算、网络和存储三大功能，是目前最先进的POD规模AI平台。

"过去我发布产品时，可能只是手里举着一块芯片（比如Hopper）；但现在，当我谈到Vera Rubin时，我说的是一个全栈垂直整合的庞大系统。"黄仁勋表示。

据介绍，该平台由七款芯片组成，涵盖计算、网络和存储三大功能。同时包含40个机架、1.2千万亿个晶体管、近2万个英伟达芯片、1152个英伟达Rubin GPU、60 exaflops的运算能力以及10 PB/s的总扩展带宽。该平台目前已全面投产，并得到了包括Anthropic、OpenAI、Meta和Mistral AI以及所有主要云提供商在内的众多客户的鼎力支持。

在这个100%液冷、完全消灭了传统线缆的系统中，过去需要两天安装的机架，现在只需两小时。通过极致的端到端软硬件协同设计，Vera Rubin在同一座1GW数据中心里创造了惊人的数据跨越："在短短两年时间内，我们将Token的生成速率从2200万提升到了7亿，实现了350倍的增长。摩尔定律在同时期仅能带来约1.5倍的提升。"

英伟达还为这一平台开发了一款全新的数据中心CPU——英伟达Vera CPU。该处理器针对极高的单线程性能、大规模数据处理能力以及能效进行了优化，并成为全球首个在数据中心中采用LPDDR5内存的CPU，从而实现领先的性能功耗比。黄仁勋透露，这款CPU已经开始单独销售，并有望成为英伟达的一项数十亿美元级业务。

为了解决极速推理（如1000 Tokens/秒）条件下的带宽瓶颈，英伟达给出了整合被收购公司Groq的最终方案：非对称式的分离推理。

黄仁勋解释："这两款处理器的特点截然不同。Groq芯片拥有500MB的SRAM，而一颗Rubin芯片拥有288GB的内存。"英伟达通过Dynamo软件系统，将需要海量计算和显存的"预填充（Pre-fill）"阶段交给Vera Rubin，将对延迟极度敏感的"解码"阶段交给Groq。

黄仁勋还对企业算力配置给出了建议："如果你的工作主要是高吞吐，100%使用Vera Rubin；如果你有大量高价值的编程级别的Token生成需求，拿出25%的数据中心规模给Groq。"

据透露，由三星代工的Groq LP30芯片已在量产，预计第三季度出货，而首个Vera Rubin机架已在微软Azure云上运行。

OpenClaw：智能体时代的"操作系统"，终结SaaS时代

整场演讲中对软件开发者影响最深远的部分，是黄仁勋对于最近爆火的"龙虾"（OpenClaw）现象的评论。他将开源项目OpenClaw形容为"人类历史上最受欢迎的开源项目"，称其仅用几周时间就超越了Linux在过去30年取得的成就。

"从技术本质上看，OpenClaw可以被理解为一种智能体计算机的操作系统。"黄仁勋说。它能够连接大语言模型，管理各种计算资源，并调用文件系统、工具和模型服务；同时具备任务调度能力，可以将复杂问题分解为多个步骤，并调用子智能体协同完成任务。此外，它还提供多模态输入输出能力，用户既可以通过文本、语音甚至手势与其交互，也可以通过消息、邮件等方式获得反馈。

黄仁勋做出了一个惊人断言："所有SaaS公司都将消失。"

他解释道，在传统企业IT架构中，数据中心主要负责存储数据和运行应用程序，各类软件系统通过工具和工作流为人类员工提供服务。但在智能体时代，这一模式将发生根本性变化。

"未来几乎所有SaaS（Software as a Service）公司都将演变为AaaS（Agentic as a Service）——即以智能体为核心的服务平台。"黄仁勋强调，企业软件正在从传统工具型软件，转向以智能体为核心的系统。

正因如此，OpenClaw的意义类似于过去的关键基础软件。黄仁勋表示，就像Linux让个人计算机和服务器生态得以发展，Kubernetes推动了云计算时代的基础设施，而HTML构建了互联网应用基础一样，OpenClaw为智能体时代提供了关键的软件栈。他认为，未来所有科技公司和软件公司都会面临一个问题——"你的OpenClaw战略是什么？"

NemoClaw：企业级智能体安全解决方案

不过，智能体系统进入企业网络也带来了新的安全挑战。因为这些系统不仅能够访问敏感数据，还可以执行代码并与外部网络通信。如果缺乏安全机制，可能带来严重风险。

为此，英伟达与OpenClaw作者Peter Steinberger以及多位安全与计算专家合作，对系统进行了企业级安全扩展，并推出NVIDIA NemoClaw参考架构。

该架构在OpenClaw基础上加入了名为OpenShell的安全组件，并提供企业级策略执行、网络防护和隐私路由等能力，使企业能够安全地部署和运行智能体系统。同时，系统还支持连接企业已有的策略引擎和治理工具，从而在确保合规和数据安全的前提下运行AI智能体。

Feynman架构前瞻：下一代AI平台已在路上

演讲之前，市场早已躁动不安。黄仁勋曾在2月预告将发布一款"前所未见的芯片"，被普遍认为是采用台积电1.6nm制程、引入光通信技术的下一代Feynman架构。

存储性能是制约AI推理的瓶颈，为此英伟达改变了以往使用标准HBM的策略，转而为Feynman GPU配备定制化HBM技术。现有的Rubin系列分别采用HBM4和HBM4E，而Feynman将跳过通用规格，可能采用基于HBM4E的定制增强版甚至提前布局定制化HBM5方案。

Feynman平台将不再沿用目前的Vera CPU架构，而是确认搭载代号为Rosa的全新CPU。Rosa CPU被设计为AI智能体（Agentic AI）的编排中枢，旨在更高效地调度GPU、存储与网络之间的Token流动，优化处理极其复杂的逻辑决策任务。

黄仁勋表示，Feynman时代标志着英伟达将计算、存储和封装三者进行了深度耦合。通过"3D堆叠核心 + 定制化内存 + 专用Rosa CPU"的组合，英伟达正在将数据中心从传统的服务器集群演进为一台高度集成的"巨型超级计算机"。

黄仁勋在演讲总结中强调，推理已成为AI最核心的工作负载，token是新的大宗商品，推理性能直接决定收入。

"数据中心已从文件存储设施演变为token生产工厂，未来每家公司都将以'AI工厂效率'来衡量自身竞争力。"黄仁勋说。

但这场演讲最震撼的预言是："所有SaaS公司都将消失。" 随着OpenClaw成为智能体时代的"操作系统"，传统软件即服务模式将被智能体即服务（AaaS）彻底取代。

从万亿需求到Token工厂经济学，从Vera Rubin的350倍性能飞跃到Feynman架构前瞻，再到宣告SaaS时代终结，黄仁勋的GTC 2026演讲不仅为英伟达的未来增长描绘了清晰蓝图，更为整个AI行业指明了下一个十年的演进方向——一个由智能体主导、Token驱动、算力为王的的全新时代。

企业/人物深度

黄仁勋GTC2026演讲：万亿Token工厂时代，Agent终结SaaS

关注我们

189-1071-7116

服务热线（9:00-18:00）