代理式AI时代,英伟达要掌握的不只是算力
2026-06-16
09:59:49
来源: 杜芹
点击
2026年6月1日的台北GTC大会上,NVIDIA CEO黄仁勋给出了一个让全行业震动的宣告:智能体AI(Agentic AI)已经真正到来,实用化AI已经真正到来。
黄仁勋用两个小时的密集输出,向全世界展示了NVIDIA如何将自己的角色推向一个更具统治力的王座。从单颗GPU到解耦分布式的Vera Rubin系统,从自研Vera CPU向传统芯片巨头挑战,到联合MediaTek、微软重构PC版图,再到用开源Nemotron 3 Ultra大模型与企业级Agent Toolkit构建生态护城河——NVIDIA早已不再是一家卖芯片的硬件公司,它正在成为AI时代整个硅基世界“计算基础设施”的造物主。
Vera Rubin:从“单颗GPU”到“解耦分布式系统”的范式跃迁
半导体行业必须戒掉用“单颗单晶圆芯片”来评估算力红利的旧习惯了。
在本次大会上,备受瞩目的下一代硬件主角Vera Rubin宣布加速进入全面量产。面对台下无数试图探寻其算力参数(TFLOPS)的分析师,黄仁勋极其严谨地纠正了市场的行业认知,即Vera Rubin不是一颗芯片,也不仅仅是一个GPU。它是一个从端到端解耦、分布式且异构的超大规模系统。
过去,芯片公司提供GPU,服务器厂商做整机,云厂商负责数据中心建设,软件公司开发应用。产业链各环节相对分散。
但Agentic AI对系统协同的要求太高了。GPU、CPU、DPU、网络、存储、内存、液冷、机架、电源、软件栈,必须围绕同一个工作负载做联合优化。否则,单点性能再强,也无法转化为稳定的Token产出。
因此,Vera Rubin不是简单升级GPU,而是把Vera Rubin NVL72、Vera CPU、BlueField、Spectrum-X、NVLink、DOCA、液冷系统和AI工厂设计蓝图放进同一个架构里。NVIDIA要交付的不是某一块硅片,而是一套从芯片到机架、从网络到软件、从仿真到运维的系统方案。
这意味着,NVIDIA正在把产业链的多个环节纳入自己的架构边界。它未必亲自制造所有部件,也未必直接运营数据中心,但它要定义数据中心应该如何建,服务器应该如何连,网络应该如何扩展,软件应该如何部署,AI工厂应该如何计算回报。
这就是Vera Rubin的深层价值。它不是产品代际,而是标准雏形。谁定义了AI工厂的标准,谁就掌握了下一轮AI基础设施的议价权。
Vera CPU暴露了NVIDIA最关键的野心
本次大会最让半导体同行感到“窒息”的,是Vera CPU的正式发布及全面投产。
过去行业普遍认为,NVIDIA在Grace CPU上的试水只是为了摆脱x86阵营的掣肘,完成买GPU绑定CPU的商业闭环。然而,Vera CPU暴露了NVIDIA更深层的野心:它不仅要实现AI工厂里的加速计算,还要掌握调度逻辑。
过去谈AI算力,GPU是绝对主角,CPU经常被视为配套资源。但Agentic AI改变了这一点。Agent要频繁调用工具、运行代码、访问数据库、处理上下文、管理权限和连接外部系统。越是复杂的Agent,越依赖CPU的低延迟调度、内存访问和核心间通信。这时,CPU 不再只是GPU的辅助,而是Agent loop的指挥系统。
黄仁勋说,CPU是指挥家,GPU是管弦乐队。这句话的核心不在比喻,而在权力关系。
“过去四十年,全球所有的CPU都是为了人类设计的,人类能忍受毫秒甚至秒级的延迟;但AI智能体毫无耐心,它们生活在纳秒级的世界里。”黄仁勋一针见血。
为了彻底根除传统处理器在Token吞吐过程中的“指挥官瓶颈”,Vera CPU摒弃了堆砌核心数的传统做法,将研发准星死死对准了单线程性能、延迟、以及极致的每核带宽:Vera CPU使用NVIDIA Olympus Core,采用单片式裸片设计、宽核心架构、先进的分支预测技术以及第二代NVIDIA可扩展一致性互连架构,从而确保数据在全部88颗核心之间的高效传输。它还支持PCIe Gen 6,采用LPDDR5X内存,内存带宽达到每秒1.2TB,通过第二代NVIDIA NVLink™-C2C互连技术,CPU与GPU之间相干带宽高达1.8TB/s 。
Vera相比x86 CPU,峰值内存延迟降低40%,核心到核心通信快50%。在半导体演进步履维艰的当下,5%的提升已属不易,而Vera CPU则在真实工作负载上实现数倍级性能暴涨,是极其罕见的。
很值得一提的是,可能很多人以为Vera会攻占x86的市场,但是黄仁勋指出,它不会取代旧市场,这是一个新市场:面向Agent的CPU。而且这个市场一定会比上一个市场更大。原因是,未来Agent的数量会远远超过人类,而且Agent非常没有耐心。
“在Grace Blackwell时代,行业曾认为从x86大换血到ARM架构的Grace是极度危险的一跃,”黄仁勋在台上坦言,“但我们以完美的执行力完成了这个转折。如今,随着数以百万计的Vera芯片随Rubin系统一起铺向全球,NVIDIA事实上可能已经演变成了全球最大的CPU制造商之一。”
联手微软,Wintel同盟的40年版图重塑
数据中心之外,NVIDIA用一颗筹备三年的“核弹”,彻底震碎了PC半导体市场的原有格局。
NVIDIA联合微软共同打造了NVIDIA RTX Spark超级芯片。这并非一张普通的端侧加速卡,而是一颗具备全天续航、本地运行“主权智能体沙盒”能力的异构SoC:采用台积电3纳米工艺;拥有20-CoreArm架构的NVIDIA Grace CPU(内含10个最新Arm Cortex-X925超大核与10个Cortex-A725大核),集成高达128GB的统一内存;具备1 PetaFLOP AI性能;为个人智能体打造的Windows PC提供强大动力。
这一大招的精妙之处在于其生态兼容性:它为Windows PC打造,支持CUDA生态。
这意味着,四十年前由微软和英特尔缔造的“Wintel”传统PC统治生态,在这一刻被微软与NVIDIA联合重写。本地智能体不再是一个只能联网对话的聊天框,而是能够通过OpenShell安全运行时,在断网状态下直接驱动Rhino、Blender等专业工业设计软件,进行自动化光追渲染、自主查错、甚至调用3D打印CAD的“高能数字伴侣”。
从联手微星(MSI)推出具备全屋智能指挥功能的迷你主机,到能够直接在桌面上吃下“万亿参数大模型”的适用于Windows的DGX Station终极怪兽工作站(拥有748GB统一内存),NVIDIA正在把算力网络从云端直接抽引到每一个家庭的桌面上。过去40年PC运行应用软件的传统形态,正式转向了由意图(Intent)驱动的智能体计算时代。
商业底层逻辑的质变:“买得越多,赚得越多”
每次的GTC,黄仁勋在发布会上都反复强调的那句口头禅——“The more you buy, the more you make(买得越多,赚得越多)”。这绝非简单的话术,而是当前AI产业极其残酷的精细化商业逻辑。
随着吉瓦(Gigawatt)级别的AI工厂建造成本从200亿美元飙升至800亿~1000亿美元,算力的物理约束已经触及能源天花板。
“如果你的数据中心拥有1吉瓦的电力,1吉瓦就是你的物理上限。在这种情况下,每瓦特带来的Token吞吐量就是你的全部营收。”黄仁勋为全球算力买家算了一笔账:AI软件架构每隔几个月就在发生剧烈异变。六年前行业在谈CNN(卷积神经网络),四年前在谈Transformer,随后演进到混合专家模型(MoE),而今天则是智能体系统。
如果贪图芯片本身的廉价而选择了生态孤立、架构僵化的硬件,一旦上层软件算法迭代,底层硬件资产将跟不上发展需求。而全球软件开发者的生命周期全部根植于NVIDIA CUDA体系。
过去CUDA的核心价值,是绑定开发者。开发者学习CUDA,调用CUDA-X库,把科学计算、图形渲染、数据处理、AI训练和工程仿真迁移到GPU上。但在Agentic AI时代,CUDA-X的角色开始变化。Agent会使用工具。这个工具可以是数据库、浏览器和Python,也可以是用于优化求解、数据处理、物理仿真、计算光刻、量子计算的CUDA-X库。也就是说,CUDA-X 不再只是人类开发者调用的函数库,而会成为Agent可以调用的专业技能层。这意味着NVIDIA的算力资产拥有极长的有效寿命(Useful Lifetime),能够实现最低的总体拥有成本(TCO)。
为了保驾护航这种千亿美金级别的超级基建,NVIDIA顺理成章地推出了全新的基础设施蓝图——NVIDIA DSX平台。通过Omniverse,客户可以在动工前虚拟仿真出整座AI工厂的电力、冷却、网络拓扑与系统集成,开机即完美交付。正因为这种全栈集成,CoreWeave、Nebius、GMI Cloud等新兴AI云服务商才能凭借NVIDIA的算力资产实现估值的疯狂暴涨。在2026年的科技产业里,Token已经变成了可直接盈利的货币,算力即是硬通货。
通往物理世界的终局之战
NVIDIA早早的就在为自己寻找下一个十年增长天花板,它就是物理AI。
在NVIDIA看来,物理AI并不是独立支线,而是Agentic AI逻辑向物理世界的延伸。如果一个Agent能理解环境、制定计划、调用工具并执行任务,那么当工具从软件变成机械臂、轮子、方向盘和传感器时,它就变成了物理AI。
底层逻辑并没有变:模型理解世界,harness编排任务,工具执行动作,runtime保证安全。
区别在于,Physical AI面临的数据难题更大。语言模型可以从互联网文本中学习,视觉模型可以从公开视频中学习,但机器人需要的是第一人称视角、动作轨迹、接触反馈、物理约束和长尾场景。真实世界数据昂贵、稀缺且不可穷尽。
所以NVIDIA的路线不是单纯造机器人,而是构建物理AI的数据闭环。Cosmos负责世界模型和物理世界生成,Omniverse提供仿真环境,Isaac提供机器人开发平台,GR00T面向人形机器人策略学习,Alpamayo面向自动驾驶推理规划,Thor则承担端侧计算底座。这套组合说明,NVIDIA想做的不是某一家机器人公司,而是机器人行业的训练场、仿真器和计算平台。
这与它在AI工厂中的策略完全一致。
在云端,它定义AI工厂;在PC上,它定义本地Agent;在机器人和汽车里,它定义Physical AI平台。不同市场,不同硬件形态,但背后都是同一个目标:把Agentic AI的运行环境纳入NVIDIA的计算栈。
结语
在当下这个时间节点上,全球AI产业博弈的基本单位已经彻底变了。四年前,行业竞争的基本单位是单颗GPU;两年前,是服务器与万卡集群;而今天,竞争的单位变成了吉瓦(Gigawatt)级别的AI工厂。
一旦竞争单位变成AI工厂,NVIDIA的优势就会被再次放大。因为AI工厂需要的不只是GPU,而是CPU、GPU、DPU、网络、存储、液冷、电力、封装、软件、工具链、运维系统和生态伙伴的端到端协同。越是复杂的系统,越需要总架构师;越是昂贵的基础设施,客户越不敢只买便宜零部件。
这正是NVIDIA的战略机会。它正在把自己从芯片供应商,升级为AI工厂的总设计方;从GPU公司,升级为Agentic AI的基础设施公司;从硬件卖方,升级为计算产业的规则制定者。这也是为什么传统芯片公司的估值逻辑,已经很难解释NVIDIA。
黄仁勋用两个小时的密集输出,向全世界展示了NVIDIA如何将自己的角色推向一个更具统治力的王座。从单颗GPU到解耦分布式的Vera Rubin系统,从自研Vera CPU向传统芯片巨头挑战,到联合MediaTek、微软重构PC版图,再到用开源Nemotron 3 Ultra大模型与企业级Agent Toolkit构建生态护城河——NVIDIA早已不再是一家卖芯片的硬件公司,它正在成为AI时代整个硅基世界“计算基础设施”的造物主。
Vera Rubin:从“单颗GPU”到“解耦分布式系统”的范式跃迁
半导体行业必须戒掉用“单颗单晶圆芯片”来评估算力红利的旧习惯了。
在本次大会上,备受瞩目的下一代硬件主角Vera Rubin宣布加速进入全面量产。面对台下无数试图探寻其算力参数(TFLOPS)的分析师,黄仁勋极其严谨地纠正了市场的行业认知,即Vera Rubin不是一颗芯片,也不仅仅是一个GPU。它是一个从端到端解耦、分布式且异构的超大规模系统。
过去,芯片公司提供GPU,服务器厂商做整机,云厂商负责数据中心建设,软件公司开发应用。产业链各环节相对分散。
但Agentic AI对系统协同的要求太高了。GPU、CPU、DPU、网络、存储、内存、液冷、机架、电源、软件栈,必须围绕同一个工作负载做联合优化。否则,单点性能再强,也无法转化为稳定的Token产出。
因此,Vera Rubin不是简单升级GPU,而是把Vera Rubin NVL72、Vera CPU、BlueField、Spectrum-X、NVLink、DOCA、液冷系统和AI工厂设计蓝图放进同一个架构里。NVIDIA要交付的不是某一块硅片,而是一套从芯片到机架、从网络到软件、从仿真到运维的系统方案。
这意味着,NVIDIA正在把产业链的多个环节纳入自己的架构边界。它未必亲自制造所有部件,也未必直接运营数据中心,但它要定义数据中心应该如何建,服务器应该如何连,网络应该如何扩展,软件应该如何部署,AI工厂应该如何计算回报。
这就是Vera Rubin的深层价值。它不是产品代际,而是标准雏形。谁定义了AI工厂的标准,谁就掌握了下一轮AI基础设施的议价权。
Vera CPU暴露了NVIDIA最关键的野心
本次大会最让半导体同行感到“窒息”的,是Vera CPU的正式发布及全面投产。
过去行业普遍认为,NVIDIA在Grace CPU上的试水只是为了摆脱x86阵营的掣肘,完成买GPU绑定CPU的商业闭环。然而,Vera CPU暴露了NVIDIA更深层的野心:它不仅要实现AI工厂里的加速计算,还要掌握调度逻辑。
过去谈AI算力,GPU是绝对主角,CPU经常被视为配套资源。但Agentic AI改变了这一点。Agent要频繁调用工具、运行代码、访问数据库、处理上下文、管理权限和连接外部系统。越是复杂的Agent,越依赖CPU的低延迟调度、内存访问和核心间通信。这时,CPU 不再只是GPU的辅助,而是Agent loop的指挥系统。
黄仁勋说,CPU是指挥家,GPU是管弦乐队。这句话的核心不在比喻,而在权力关系。
“过去四十年,全球所有的CPU都是为了人类设计的,人类能忍受毫秒甚至秒级的延迟;但AI智能体毫无耐心,它们生活在纳秒级的世界里。”黄仁勋一针见血。
为了彻底根除传统处理器在Token吞吐过程中的“指挥官瓶颈”,Vera CPU摒弃了堆砌核心数的传统做法,将研发准星死死对准了单线程性能、延迟、以及极致的每核带宽:Vera CPU使用NVIDIA Olympus Core,采用单片式裸片设计、宽核心架构、先进的分支预测技术以及第二代NVIDIA可扩展一致性互连架构,从而确保数据在全部88颗核心之间的高效传输。它还支持PCIe Gen 6,采用LPDDR5X内存,内存带宽达到每秒1.2TB,通过第二代NVIDIA NVLink™-C2C互连技术,CPU与GPU之间相干带宽高达1.8TB/s 。
Vera相比x86 CPU,峰值内存延迟降低40%,核心到核心通信快50%。在半导体演进步履维艰的当下,5%的提升已属不易,而Vera CPU则在真实工作负载上实现数倍级性能暴涨,是极其罕见的。
很值得一提的是,可能很多人以为Vera会攻占x86的市场,但是黄仁勋指出,它不会取代旧市场,这是一个新市场:面向Agent的CPU。而且这个市场一定会比上一个市场更大。原因是,未来Agent的数量会远远超过人类,而且Agent非常没有耐心。
“在Grace Blackwell时代,行业曾认为从x86大换血到ARM架构的Grace是极度危险的一跃,”黄仁勋在台上坦言,“但我们以完美的执行力完成了这个转折。如今,随着数以百万计的Vera芯片随Rubin系统一起铺向全球,NVIDIA事实上可能已经演变成了全球最大的CPU制造商之一。”
联手微软,Wintel同盟的40年版图重塑
数据中心之外,NVIDIA用一颗筹备三年的“核弹”,彻底震碎了PC半导体市场的原有格局。
NVIDIA联合微软共同打造了NVIDIA RTX Spark超级芯片。这并非一张普通的端侧加速卡,而是一颗具备全天续航、本地运行“主权智能体沙盒”能力的异构SoC:采用台积电3纳米工艺;拥有20-CoreArm架构的NVIDIA Grace CPU(内含10个最新Arm Cortex-X925超大核与10个Cortex-A725大核),集成高达128GB的统一内存;具备1 PetaFLOP AI性能;为个人智能体打造的Windows PC提供强大动力。
这一大招的精妙之处在于其生态兼容性:它为Windows PC打造,支持CUDA生态。
这意味着,四十年前由微软和英特尔缔造的“Wintel”传统PC统治生态,在这一刻被微软与NVIDIA联合重写。本地智能体不再是一个只能联网对话的聊天框,而是能够通过OpenShell安全运行时,在断网状态下直接驱动Rhino、Blender等专业工业设计软件,进行自动化光追渲染、自主查错、甚至调用3D打印CAD的“高能数字伴侣”。
从联手微星(MSI)推出具备全屋智能指挥功能的迷你主机,到能够直接在桌面上吃下“万亿参数大模型”的适用于Windows的DGX Station终极怪兽工作站(拥有748GB统一内存),NVIDIA正在把算力网络从云端直接抽引到每一个家庭的桌面上。过去40年PC运行应用软件的传统形态,正式转向了由意图(Intent)驱动的智能体计算时代。
商业底层逻辑的质变:“买得越多,赚得越多”
每次的GTC,黄仁勋在发布会上都反复强调的那句口头禅——“The more you buy, the more you make(买得越多,赚得越多)”。这绝非简单的话术,而是当前AI产业极其残酷的精细化商业逻辑。
随着吉瓦(Gigawatt)级别的AI工厂建造成本从200亿美元飙升至800亿~1000亿美元,算力的物理约束已经触及能源天花板。
“如果你的数据中心拥有1吉瓦的电力,1吉瓦就是你的物理上限。在这种情况下,每瓦特带来的Token吞吐量就是你的全部营收。”黄仁勋为全球算力买家算了一笔账:AI软件架构每隔几个月就在发生剧烈异变。六年前行业在谈CNN(卷积神经网络),四年前在谈Transformer,随后演进到混合专家模型(MoE),而今天则是智能体系统。
如果贪图芯片本身的廉价而选择了生态孤立、架构僵化的硬件,一旦上层软件算法迭代,底层硬件资产将跟不上发展需求。而全球软件开发者的生命周期全部根植于NVIDIA CUDA体系。
过去CUDA的核心价值,是绑定开发者。开发者学习CUDA,调用CUDA-X库,把科学计算、图形渲染、数据处理、AI训练和工程仿真迁移到GPU上。但在Agentic AI时代,CUDA-X的角色开始变化。Agent会使用工具。这个工具可以是数据库、浏览器和Python,也可以是用于优化求解、数据处理、物理仿真、计算光刻、量子计算的CUDA-X库。也就是说,CUDA-X 不再只是人类开发者调用的函数库,而会成为Agent可以调用的专业技能层。这意味着NVIDIA的算力资产拥有极长的有效寿命(Useful Lifetime),能够实现最低的总体拥有成本(TCO)。
为了保驾护航这种千亿美金级别的超级基建,NVIDIA顺理成章地推出了全新的基础设施蓝图——NVIDIA DSX平台。通过Omniverse,客户可以在动工前虚拟仿真出整座AI工厂的电力、冷却、网络拓扑与系统集成,开机即完美交付。正因为这种全栈集成,CoreWeave、Nebius、GMI Cloud等新兴AI云服务商才能凭借NVIDIA的算力资产实现估值的疯狂暴涨。在2026年的科技产业里,Token已经变成了可直接盈利的货币,算力即是硬通货。
通往物理世界的终局之战
NVIDIA早早的就在为自己寻找下一个十年增长天花板,它就是物理AI。
在NVIDIA看来,物理AI并不是独立支线,而是Agentic AI逻辑向物理世界的延伸。如果一个Agent能理解环境、制定计划、调用工具并执行任务,那么当工具从软件变成机械臂、轮子、方向盘和传感器时,它就变成了物理AI。
底层逻辑并没有变:模型理解世界,harness编排任务,工具执行动作,runtime保证安全。
区别在于,Physical AI面临的数据难题更大。语言模型可以从互联网文本中学习,视觉模型可以从公开视频中学习,但机器人需要的是第一人称视角、动作轨迹、接触反馈、物理约束和长尾场景。真实世界数据昂贵、稀缺且不可穷尽。
所以NVIDIA的路线不是单纯造机器人,而是构建物理AI的数据闭环。Cosmos负责世界模型和物理世界生成,Omniverse提供仿真环境,Isaac提供机器人开发平台,GR00T面向人形机器人策略学习,Alpamayo面向自动驾驶推理规划,Thor则承担端侧计算底座。这套组合说明,NVIDIA想做的不是某一家机器人公司,而是机器人行业的训练场、仿真器和计算平台。
这与它在AI工厂中的策略完全一致。
在云端,它定义AI工厂;在PC上,它定义本地Agent;在机器人和汽车里,它定义Physical AI平台。不同市场,不同硬件形态,但背后都是同一个目标:把Agentic AI的运行环境纳入NVIDIA的计算栈。
结语
在当下这个时间节点上,全球AI产业博弈的基本单位已经彻底变了。四年前,行业竞争的基本单位是单颗GPU;两年前,是服务器与万卡集群;而今天,竞争的单位变成了吉瓦(Gigawatt)级别的AI工厂。
一旦竞争单位变成AI工厂,NVIDIA的优势就会被再次放大。因为AI工厂需要的不只是GPU,而是CPU、GPU、DPU、网络、存储、液冷、电力、封装、软件、工具链、运维系统和生态伙伴的端到端协同。越是复杂的系统,越需要总架构师;越是昂贵的基础设施,客户越不敢只买便宜零部件。
这正是NVIDIA的战略机会。它正在把自己从芯片供应商,升级为AI工厂的总设计方;从GPU公司,升级为Agentic AI的基础设施公司;从硬件卖方,升级为计算产业的规则制定者。这也是为什么传统芯片公司的估值逻辑,已经很难解释NVIDIA。
责任编辑:duqin
相关文章
-
- 半导体行业观察
-
- 摩尔芯闻