从黄教主的GTC主题演讲看懂NVIDIA和AI的未来
如果你对AI或者投资稍微感兴趣,那你应该读一读这篇文章。 英伟达CEO黄仁勋在GTC大会上发表了长达两个小时的主题演讲,展示了英伟达未来的路线图,这场大会也被称为“AI界的春晚”。 这次演讲信息量巨大,相当于讲了三年的内容,但用的术语和行话让大多数人听得一头雾水。 那么,真正重要的要点是什么?哪些内容会决定这个行业未来几年的走向? 如果英伟达打个喷嚏,整个AI行业都要感冒。下面是你需要知道的关于AI硬件、软件、机器人和投资的全部要点。

如果你对AI或者投资稍微感兴趣,那你应该读一读这篇文章。
英伟达CEO黄仁勋在GTC大会上发表了长达两个小时的主题演讲,展示了英伟达未来的路线图,这场大会也被称为“AI界的春晚”。
这次演讲信息量巨大,相当于讲了三年的内容,但用的术语和行话让大多数人听得一头雾水。
那么,真正重要的要点是什么?哪些内容会决定这个行业未来几年的走向?
如果英伟达打个喷嚏,整个AI行业都要感冒。下面是你需要知道的关于AI硬件、软件、机器人和投资的全部要点。
伟大的决定已经做出
这次的发布内容可以拆分为四个收入板块:
- AI数据中心硬件业务
- 高性能计算(HPC)数据中心业务
- 消费级硬件业务
- 替代性收入来源,主要包括机器人和自动驾驶
我们从最底下往上看。
机器人与自动驾驶
英伟达已经讲“AI机器人”这个事(他们叫它“物理AI”)讲了好一阵子了。
他们的策略是三管齐下:
- 他们要训练机器人背后的AI模型
- 他们要打造机器人训练的虚拟环境
- 他们还要生成训练所需的数据
换句话说,他们要参与到机器人AI生态的每一个环节里。
在第一个方面,他们发布了Gr00t N1——一个面向机器人的基础模型,是一种双模型架构,用来作为机器人的“大脑”。
这与FigureAI提出的架构非常相似(我最近在我的视频号里也讲过),本质上是视觉-语言-动作的AI模型:
它接收一系列图像帧和机器人状态(即机器人在环境中的位置),然后决定下一步该怎么做。
除此之外,他们还打算用Omniverse/Isaac Gym平台来驱动这些训练环境。
正如我在视频里解释的,机器人并不会在现实世界中接受训练,原因有两个:
- 太贵了
- 没法并行训练(你不可能同时训练很多个物理机器人)
于是我们会搭建一个高度仿真的模拟世界,在里面训练机器人的策略(也就是控制它行为的AI模型),然后把这些策略一次性转移到现实世界的机器人身上(而且是完全没有在现实中训练过的)。
第三点非常有意思:英伟达现在还能用AI生成新的“合成数据”(也就是别的AI制造出来的数据)来训练机器人。
借助他们的Cosmos世界模型,这个AI会生成各种不同的场景(都在模拟环境里),让机器人遇到更多不同情况,从而学得更全面。
值得一提的是,这个Cosmos模型以及合成数据的理念,对训练自动驾驶汽车也非常关键。
所以英伟达宣布和通用汽车合作——后者刚刚砍掉了自己的Cruise自动出租车业务,现在将用英伟达来支持他们的自动驾驶车队。
📌 要点一:机器人有可能成为AI最大的市场。英伟达正在构建极强的护城河——先是模拟环境,现在又有AI模型和合成数据。
不过目前这个板块还没有任何实际收入,所以属于高风险高回报的投资。
英伟达笔电和工作站
虽然英伟达正大力押注“分布式计算”(后面会说),但他们也在积极进军消费级硬件市场。
他们发布了两款新硬件:
- NVIDIA DGX Workstation:一台桌面电脑,拥有惊人的789GB内存(其中288GB是HBMe,也就是目前最快的内存带宽),FP4性能达到20千万亿次运算每秒(Petaflops),内存带宽为每秒8TB。
- NVIDIA DGX Spark:一款便携设备,可以连接到笔记本电脑使用。它提供1000 TOPS算力,以及128GB统一内存,但内存带宽只有276 GB/s。
如果不说术语,这俩东西就是为AI任务量身定制的“个人超级计算机”,算是英伟达对苹果上周发布的Mac Studio M4 Max和M3 Ultra的回应。
那这些设备有什么共同点?
它们都有——超强计算力、超大内存、超快内存传输速度。这些对AI任务至关重要(说实话,这种配置大多数场景下只有AI训练才用得上,一般人真用不上)。
📌 要点二:英伟达又开辟了一个新市场——AI个人工作站。随着小型基础模型越来越强,会有越来越多AI开发者选择在本地跑模型,这块市场可能会迅速增长。
他们很可能会和苹果平分这个市场(虽然现在还不确定这个市场到底有多大——毕竟这些机器对普通人来说真的太贵了)。
高性能计算(HPC)数据中心业务
说到这里,有些人可能开始觉得失望了:英伟达正在“毫不犹豫地”把HPC市场拱手让给AMD。
我们马上就会看到,他们接下来的GPU产品正在逐步减少FP64计算单元的数量,转而更倾向于低精度的单元。
ALU,即算术逻辑单元,是芯片中用于执行运算的部分。
尽管HPC任务和AI任务在理论上很相似,但有一个关键区别:精度。
AI任务倾向于用更低的精度(每个参数占用更少内存),
而HPC任务(比如复杂的物理仿真)需要极高的精度,比如FP64(每个参数占用8个字节)。
等等,这都是什么意思?
简单说,你需要决定每个数字到底保留多少位小数。比如你可以保留到10位小数(3.1234567891),也可以只保留2位(3.12)。
这个“精度”是用位数表示的,FP64就是64位,也就是8字节。DeepSeek v3使用的FP8表示每个值只占1个字节。
当然这是个权衡。精度越高,计算结果越准确,但速度越慢。
英伟达的芯片面积受限(800–850平方毫米,这个是光刻机上用来曝光的整个光罩的面积),再增大就需要把多个芯片连在一起,想Blackwell。
他们选择削减FP64区域,转而增加FP16、FP8、INT4这种更适合AI的区域。也就是说,英伟达正在有意放弃HPC市场,把资源转投更赚钱的AI。
反观AMD,上一代GPU中FP64面积本来就比英伟达多。现在英伟达更是把HPC市场“让”给AMD。AMD必须决定:
- 是跟着英伟达一起跑AI?
- 还是专注于HPC这个市场?
我认为AMD可以把这份“大礼包”接住,凭借他们更亲民的GPU平均售价,吸引那些不愿再为英伟达“交智商税”的AI企业。
况且,HPC也不小啊——年市场大概500亿美元,每年还增长7.5%。
📌 要点三:英伟达对HPC市场说“咱俩不合适”,然后头也不回地奔向“新欢”AI。这是纯商业逻辑,但也挺现实的。
好的,我们进入整篇文章最重磅的部分——AI数据中心业务,Lily这就继续为你翻译:
AI 数据中心业务
接下来才是最精彩的部分。英伟达的策略揭示了两个关键点:
- 摩尔定律失效了
- 我们正进入“推理为王”的时代
🧪 测试自然极限
听起来可能有点戏剧性,但英伟达已经碰上了自然法则的墙。
就像前面提到的,我们已经快到达“功率密度”的极限了,也就是单位面积上能放多少算力。
因为芯片面积再大,制造就会变得不可行,所以像英伟达这样的顶尖芯片公司现在都在转向“chiplet”架构——
把多个计算核心“拼”在一起,组合成更强的整体。
但即便如此,Blackwell芯片也只能最多放两个最大尺寸的chiplet,也就是两个GPU,打包成一个Blackwell“超级芯片”(superchip)。
这听起来确实很乱……因为英伟达的命名法确实反直觉:
- 对他们来说,别人眼里的“芯片核心”(compute die)叫GPU;
- 而大家通常说的“GPU整块卡”(包含内存、逻辑、散热等)——他们称为“超级芯片”。
所以,要提升算力,英伟达未来的GPU有两个手段:
- 缩小晶体管尺寸:计算通过晶体管组成的电路执行,晶体管越小,单位面积能放的电路越多,算力越高。
- 拼更多chiplet:虽然单个chiplet大小有限,但理论上可以不断拼接(当然,这也是当前最困难的工程挑战之一)。
理解了这些,我们就能读懂英伟达的AI路线图了。
🚀 当“训练”不再是主角
英伟达现在把赌注压在**推理(inference)**上了。
用通俗点的话说,英伟达相信:
未来AI用的算力,主要不是训练模型,而是运行模型。
他们是怎么证明这一点的?除了黄仁勋在台上直接说,产品也直接说明了这一点:
他们发布了Blackwell Ultra NVL72整机柜,72块GPU堆在一台垂直机架里,能提供:
- 1.1百亿亿次浮点计算能力(FP4),用于AI推理
- 新的Attention计算指令(专门优化Transformer模型里的注意力机制)
- 20TB HBM高带宽内存 + 40TB快速内存,比上一代Blackwell多了1.5倍
- 14.4TB/s 内存带宽
这个产品之所以非常“偏推理”,原因有两个:
- 通过移除FP64区域,腾出空间给FP8/FP4等推理计算单元,让整体算力暴涨(比现在的Blackwell服务器高出50%)
- 每张GPU的HBM容量从192GB升到了288GB,这样可以容纳更大的模型,或者说——更大的KV缓存(KV Cache是推理时用来“记住”上下文的记忆单元,避免重复计算)
🌌 下一代——Vera Rubin平台
接下来的下一代芯片平台也亮相了,名字叫Vera Rubin(致敬发现暗物质的天文学家Vera Rubin)。
它提供:
- 比Blackwell Ultra多3.3倍的算力,这已经非常疯狂了
- 这部分得益于将制程从4nm提升到3nm,晶体管更小,功率密度更高(其他技术细节可看SemiAnalysis的分析)
- 每块GPU的HBM容量虽然一样,但升级为HBM4,内存带宽提高了2倍
- 从Blackwell的两块die扩展到4块die
💥 最炸裂的压轴:单机架容纳576张GPU
你没看错,英伟达还展示了一款终极产品——一个机架里塞下576张GPU!
这是Blackwell Ultra的14倍算力,而且这款GPU还没正式量产!
这款超级机架:
- 每个superchip里放4张GPU
- 配置1TB内存
- 是当前Blackwell部署产品的6倍内存容量
📌 要点四:虽然英伟达在提升GPU数量和缩小晶体管尺寸上不断突破,但“内存”才是最大瓶颈。
他们意识到,推理任务才是未来算力消耗的主力军,所以重点都压在提升内存和数据带宽上。
🤔 那为啥推理这么依赖内存?
简单讲,推理的“计算密度”比较低:
也就是说,GPU大部分能量不是花在计算上,而是花在“搬数据”上。
这样一来:
- 搬数据太慢 → GPU白等 → 算力浪费 → 能耗上升
- 所以提升内存容量 + 提升带宽 = 提高“算力效率”
因此,英伟达从两个方向下手:
- 提高内存容量(让更大模型和更大的KV缓存塞得下)
- 提高内存传输速度(减少等待时间,提高计算效率)
除了各个业务板块的重点之外,还有哪些整体的关键信息呢?
我们现在可以更清楚地看出英伟达在想什么,也能判断它下注的方向值不值得我们信。
推理、注意力机制和模型大小
你需要记住这五个核心观点:
- 他们相信模型会越来越大。
这是我个人不是特别认同的地方。确实,模型变得越来越大,但它们主要用于蒸馏出更小的模型,供实际应用使用。
英伟达是否真的能让“超大模型”变得“便宜又能用”,这还要打个问号。 - 我们已经不可否认地撞上了功率密度的天花板。
英伟达未来要在算力上继续前进,会越来越困难。 - 他们把一切都赌在“推理模型”(reasoning models)上。
这些模型比旧时代的模型更善于“深度思考”,也因此需要更多推理计算。
如果这类模型失败了,英伟达整条路线图就全崩了。
(不过我个人并不觉得这类模型会失败。) - 注意力机制(Attention)。
英伟达现在已经开始在芯片中加入专门用于Attention的计算单元(ALU)。
这意味着:他们相信目前的模型架构会长期稳定存在,不会很快被新的算法取代。 - AMD该怎么办?
AMD的硬件其实也很优秀。它现在面临一个决策:AMD在单卡性能上是有竞争力的,但在网络通信硬件上比较弱。
所以我认为他们很可能会继续守住HPC市场,同时把AI方向聚焦在小规模推理工作负载上。
(我认为这类小模型应用也会越来越多。)- 是在芯片中保留一部分HPC的空间?
- 还是干脆和英伟达一样All in AI?
总体而言,我个人基本是认同英伟达对未来的判断的。
但你呢?你相信他们的赌注能赢吗?
💬 感谢阅读!如果你有任何想让我深入解释的部分,请在评论里告诉我。
老黄的演讲太长,有些地方我确实没展开讲~