英伟达将 Groq LPU、Vera CPU 和 BlueField-4 DPU 集成到新机架系统

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-03-17 11:37

关键字: 英伟达,Rubin,LPX,人工智能,GPU

浏览: 1343

点赞: 73

收藏: 8

英伟达周一表示,在其被誉为AI计算下一次重大飞跃的6芯片 Vera Rubin 平台中,将再增加一款处理器:Groq 语言处理单元(LPU)。

在加州圣何塞举行的 GTC 2026 活动上,这家AI基础设施巨头透露,计划在今年推出一款服务器机架,其中搭载新一代语言处理单元(LPU)。该技术支持源自AI芯片初创公司 Groq,英伟达于去年12月通过一项非独家协议获得了授权。

这家总部位于加州圣克拉拉的公司还公布了另外三款新机架:一款搭载英伟达定制 Vera CPU 的服务器机架、一款采用其 BlueField-4 DPU 的存储机架参考架构,以及一款配备 Spectrum-6 以太网交换机的网络机架。

然而,英伟达表示,此前宣布的一款 Vera Rubin 产品——由 Rubin CPX GPU 驱动的 NVL 服务器机架——目前已暂时搁置。

这一扩展平台是该公司推动新一波能够相互协作以执行复杂任务的AI代理(AI agents)战略的一部分。与此同时,英伟达正面临来自纯芯片竞争对手(如AMD和高通)以及主要客户(如正在开发自研AI芯片的亚马逊云服务AWS)日益激烈的竞争。

Vera Rubin 是备受期待的 Grace Blackwell 平台的继任者,后者助力英伟达在2026财年创下2159亿美元的营收纪录。

英伟达超大规模和高性能计算副总裁 Ian Buck 在新闻发布会中表示,包括 Vera Rubin NVL72 机架中的 Rubin GPU 在内的底层芯片,“被设计为作为一个不可思议的AI超级计算机协同工作”。

Buck 补充道,这七款芯片将“驱动AI的每一个阶段,从大规模预训练到后训练、测试时扩展以及实时代理推理”,而后者代表了该公司目前视为第四大AI扩展定律的领域。

这位高管表示,这款名为 Nvidia Groq 3 LPX 的新款基于 Groq 的机架,将于下半年与 Vera Rubin NVL72 一同上市。其他基于 Vera Rubin 平台的产品也预计从那时开始陆续推出。

“Vera Rubin 平台将扩大整个‘AI工厂’的收入机会,并开启代理式AI(agentic AI)的新前沿,目前有七款新芯片已全面投产,可扩展至全球最大的AI工厂,”Buck 表示。

英伟达利用 Groq 提升高端 AI 模型性能

Buck 表示,除了Vera Rubin NVL72之外,英伟达推出Groq 3 LPX希望将高端万亿参数AI模型的推理性能提升几个数量级,从而显著增加AI模型提供商的收入。

在演讲中,这位高管声称,与上一代 Blackwell NVL72 相比,这两款服务器机架的组合可将万亿参数 GPT 模型的吞吐量提高 35 倍。

这一声明基于以下数据:两款机架组合使得英伟达的机架级平台每消耗一兆瓦电力可处理 300 个 token,同时模型可为每位用户提供每秒 500 个 token 的服务。Buck 指出,后者意味着AI模型提供商每百万个 token 可产生 45 美元的收入机会。

Buck 表示,凭借 Vera Rubin NVL72 和 Groq 3 LPX 机架在性能和效率上的重大提升,这将使AI模型提供商从万亿参数模型中获得的收入比 Blackwell NVL72 高出 10 倍。

“我们将与部署这些万亿参数模型的AI实验室和前沿模型构建者深入合作,提供下一代高端及超高端模型服务,”Buck 说。

Groq 3 LPX 机架内置 256 个 Groq 3 LPU,采用液冷设计,并通过定制的 Spectrum-X 以太网互连连接到 Vera Rubin NVL72 机架(内含 36 个 Vera CPU 和 72 个 Rubin GPU),以提升解码性能。解码是代理式AI模型的关键过程,使其能够生成复杂的多步响应。

在这两个机架之间,Groq 3 LPU 和 Rubin GPU 将“在AI模型的每一层、针对每一个 token”协同工作,Buck 说道。

他表示,英伟达之所以转向 Groq 的芯片技术,是因为虽然 GPU 拥有巨大的内存容量和“惊人的浮点性能”,适合大规模销售的AI系统提供高吞吐量,但 LPU 是“专门为极低延迟的 token 生成而优化”,可提供高达每秒数千个 token 的速率。

LPU 的低延迟得益于其使用的 SRAM 内存。Buck 指出,虽然每个芯片仅配备 500 MB 的 SRAM(相比之下 Rubin GPU 拥有 288 GB 的 HBM4 内存),但 LPU 的 SRAM 带宽高达 150 TBps,是 Rubin GPU 22 TBps HBM4 带宽的七倍。

据英伟达介绍,凭借 Groq 3 LPX 的 256 个 LPU,该机架将拥有总计 128 GB 的 SRAM 容量和 40 PBps 的总 SRAM 带宽。使用该平台的数据中心可在多个机架上扩展至超过 1,000 个 LPU。

“我们将每个 token 的部分计算任务(主要是 FFM 层)卸载到 LPU 上,以利用 LPU 提供的高带宽,而注意力机制计算和模型的其余部分仍在 GPU 上运行,”他说。

英伟达基于 Groq 的服务器机架快速成型

Buck 表示,英伟达在去年12月获得 Groq 技术的非独家许可,并聘请了该初创公司的团队成员(包括其创始人)将其整合到英伟达平台后,便开始了 Groq 3 LPX 的开发。据报道,这笔交易价值 200 亿美元,是英伟达有史以来为技术和人员支付的最高金额。

这位高管表示,为了快速围绕 Groq 3 LPU 构建机架,英伟达利用了其用于 NVL72 平台的模块化 MGX 机架架构。

“很荣幸能让他们及其团队加入英伟达,两支球队之间的合作非常出色,”他说。

当被问及 OEM 厂商是否可能提供 Groq 3 LPX 时,Buck 表示,公司目前专注于与那些提供具有低延迟特性的万亿参数、高 token 率模型的 AI 开发者进行直接合作。

“这些将是更聚焦且令人兴奋的机会,我们将在今年晚些时候分享更多信息,”他说。

英伟达称 Vera 是“代理式 AI 工作负载的最佳 CPU”

Buck 称英伟达的 Vera 是“代理式 AI 工作负载的最佳 CPU”,该公司计划在首款纯 CPU 服务器机架中提供该芯片,此外还包括 Vera Rubin NVL72。

这款液冷 CPU 机架将包含 256 个 Vera CPU,高达 400 TB 的 LPDDR5X 内存容量,300 TBps 的内存带宽以及 64 个 BlueField-4 DPU。据该公司称,该机架能够支持超过 22,500 个并发 CPU 环境。

英伟达表示,与搭载上一代 Grace CPU 的机架相比,Vera CPU 机架在各种工作负载(包括脚本编写、文本转换、代码编译、数据分析和图分析)上可提供两倍的性能提升。

Buck 表示,预计客户将在代理式 AI 工作负载中“大规模”部署 CPU 机架,并与英伟达的 NVL72 机架、存储机架和网络机架配合使用。

这位高管表示,CPU 对于此类工作负载至关重要,因为 GPU 依赖它们来“执行工具调用、SQL 查询和代码编译”。

“这种沙盒执行是在数据中心训练和部署代理的关键部分,这些 CPU 需要足够快。我们要确保它们能尽可能快地执行工具调用,以保持 GPU 和整个数据中心的充分利用,”Buck 说。

从竞争角度来看,这位高管表示,与“当今现代的 x86 CPU”相比,Vera 每个核心的内存带宽高出三倍,能源效率翻倍,单线程性能高出 50%,但他未提供更多具体细节。

作为英伟达首款使用定制 Arm 兼容核心的服务器 CPU,Vera 拥有 88 个这样的定制核心,借助英伟达新的空间多线程技术提供 176 个线程,配备 1.5 TB 的系统 LPDDR5x 内存,1.2 TBps 的内存带宽,并具备机密计算能力。它还拥有 1.8 TBps 的 NVLInk 芯片间互连,以支持与 GPU 的一致性内存。

Vera 将于下半年通过广泛的云服务提供商(包括 Lambda、Oracle Cloud 和 Nebius)以及众多 OEM 厂商(包括戴尔科技、HPE、思科、联想和 Supermicro)上市。

英伟达详解新款 BlueField-4 和 Spectrum-6 机架

除了 Groq 3 LPX 和 Vera CPU 机架外,英伟达还公布了一款由 BlueField-4 DPU 驱动的存储机架参考架构,旨在加速代理式 AI 工作负载。

这款名为 BlueField-4 STX 的模块化参考架构旨在让存储提供商构建基础设施解决方案,显著提高代理式 AI 应用程序访问数据的速度。

“代理式 AI 需要实时访问数据和上下文工作记忆,以保持对话的快速和连贯。随着上下文的增长和 AI 变得更智能,传统的存储和数据路径可能会减慢 AI 推理并降低 GPU 利用率,”Buck 说。

英伟达表示,STX 的首个机架级实施将包括今年1月公布的新款 Nvidia CMX 上下文内存存储平台。该公司称,该平台“通过高性能上下文层扩展 GPU 内存,以实现可扩展的推理和代理系统”。

英伟达声称,这将使 AI 代理提供的 token 每秒数量比传统存储高出五倍。

该公司还表示,STX 架构的能源效率比“用于高性能存储的传统 CPU 架构”高出四倍,并且可以“每秒为企业 AI 数据多摄入两页”。

基于 STX 的解决方案预计将于今年下半年由存储供应商提供,包括戴尔、HPE、IBM NetApp、Hitachi Vantara、DDN、Everpure、Nutanix、Cloudian、Weka、Vast Data 和 MinIO。

另一方面,Spectrum-6 SPX 以太网机架“旨在加速 AI 工厂内的东西向流量”,利用英伟达的 Spectrum-X 以太网或 Quantum-X800 InfiniBand 交换机,在大规模范围内提供“低延迟、高吞吐量的机架间连接”,该公司表示。

Rubin CPX 平台目前并非英伟达的重点

去年9月,英伟达发布了一款被称为“新型 GPU”的 Rubin CPX,旨在加速包括软件编码和生成式视频在内的复杂 AI 应用。

当时该公司表示,Rubin CPX 及相关的 Vera Rubin NVL144 CPX 机架级平台将于今年年底亮相。

然而,英伟达在周日的媒体会上中并未提及 Rubin CPX。

一位英伟达发言人的声明表明,公司已将基于 Rubin CPX 的产品置于次要地位,转而专注于基于 Groq 的 LPX 平台。

“我们目前的重点是将加速 token 生成的 LPX 引入我们的产品组合和平台,以优化解码过程,我们很高兴能在 2026 年下半年将其推向市场,”该代表在一封邮件中告诉 CRN。

Rubin CPX 原本旨在通过作为专用 GPU 处理上下文和预填充计算(英伟达分离式推理服务过程中的第一步),来加速“巨大上下文”AI 应用的性能。而标准的 Rubin GPU 则负责第二步:生成和解码计算。

该 GPU 平台 Vera Rubin NVL144 CPX 原本预计在其机架的 18 个计算托盘中,每个托盘包含四个 Rubin CPX GPU、四个 Rubin GPU 和两个 Vera CPU。该平台的命名是在英伟达今年1月更改 GPU 计数方式之前确定的,这也导致常规 Vera Rubin 平台的后缀从 NVL144 变更为 NVL72。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。