英伟达力推新存储平台与机密计算技术,用于Vera Rubin NVL72服务器机架

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-01-06 14:48

关键字: CES,英伟达,Rubin GPU

浏览: 4692

点赞: 271

收藏: 36

在2026年国际消费电子展(CES 2026)上,英伟达公布了面向即将推出的Vera Rubin NVL72 AI数据中心服务器机架的一系列新功能,包括全新的“推理上下文内存”(Inference Context Memory)存储平台、“零停机”维护能力、机架级机密计算(confidential computing)等。

英伟达在CES 2026的主题演讲中还发布了Rubin GPU平台。尽管公司表示Rubin已进入“全面量产”阶段,但相关产品仍需等到今年下半年才能通过合作伙伴获得。

近几个月来,面对市场对大规模AI数据中心建设可能形成泡沫的担忧,黄仁勋及其他英伟达高管反复强调:公司预计从2025年初至2026年底,仅Blackwell和Rubin系列产品就将带来5000亿美元收入,理由是生成式AI、智能体AI(agentic AI)和物理AI解决方案的持续强劲需求。

在推广Rubin平台时,英伟达列举了众多大型且具有影响力的科技公司的支持,包括AWS、微软、谷歌云、CoreWeave、思科、戴尔科技、HPE、联想等。

这家总部位于加州圣克拉拉的公司计划以两种方式首发Rubin平台:

Vera Rubin NVL72机架级平台:集成72颗Rubin GPU和36颗英伟达自研的Arm兼容Vera CPU;

HGX Rubin NVL8平台:集成8颗Rubin GPU,适用于基于x86 CPU的服务器。

上述两个平台都将由英伟达的DGX SuperPod集群提供支持。

该机架级平台最初在2025年3月的GTC 2025大会上公布,当时名为Vera Rubin NVL144,“144”意指每个机架包含144个GPU裸片(dies)。但后来公司决定不再沿用这一命名方式,转而采用与Grace Blackwell机架平台一致的NVL72命名法,以反映GPU封装数量(每个封装包含两颗GPU裸片)。

Blackwell产品的GPU封装同样由两颗裸片通过高速裸片间互连(die-to-die interconnect)组成。

英伟达高性能计算与AI基础设施解决方案高级总监Dion Harris在向记者和分析师的简报会上表示:“本质上,我们只是延续了Blackwell平台的部署和命名逻辑,并将其应用于Vera Rubin。”

Harris指出,以Vera Rubin NVL72机架为旗舰产品的Rubin平台,不仅包含Rubin GPU和Vera CPU(英伟达首款采用自研Arm兼容核心的CPU),还包括另外四款协同设计的新芯片,旨在“满足最先进模型的需求,并降低智能计算成本”。

Vera Rubin NVL72规格与特性

英伟达公布了Rubin平台大量技术规格和功能(部分此前已在活动中披露):

每颗Vera CPU配备88个自研Olympus核心,支持176线程(采用英伟达新型空间多线程技术)、1.5TB系统LPDDR5x内存、1.2TB/s内存带宽,并支持机密计算。

配备1.8TB/s的NVLInk芯片间互连,支持与GPU之间的缓存一致性内存。

Harris强调,该CPU的机密计算功能使Vera Rubin成为“首个支持机架级可信执行环境(Trusted Execution Environment)的平台,可在CPU、GPU及NVLInk域内全程保护全球最大的专有模型、训练数据和推理工作负载”。

与基于Arm现成Neoverse V2微架构的Grace CPU相比,Vera在数据处理、压缩和代码编译方面性能提升一倍。

Rubin GPU在使用英伟达NVFP4数据格式进行推理时,算力可达50 petaflops,是Blackwell的5倍;

在NVFP4格式下的训练算力达35 petaflops,为前代产品的3.5倍;

HBM4高带宽内存带宽达22 TB/s(2.8倍于Blackwell);

每GPU的NVLink带宽达3.6 TB/s(2倍于前代)。

平台还包含液冷式NVLink 6 Switch,用于横向扩展网络:采用400G SerDes技术;GPU间通信带宽达3.6 TB/s;总带宽高达28.8 TB/s;支持14.4 teraflops的FP8网络内计算(in-network computing)。

此外,Rubin平台还利用ConnectX-9 SuperNIC和BlueField-4 DPU,将纵向扩展(scale-out)网络能力提升至新高度。

英伟达表示,Vera Rubin NVL72平台整体可实现:3.6 exaflops的NVFP4推理性能(为Blackwell平台的5倍);2.5 exaflops的NVFP4训练性能(提升3.5倍);54 TB LPDDR5x内存容量(2.5倍于Blackwell);20.7 TB HBM4容量(增加50%);HBM4总带宽达1.6 PB/s(2.8倍);横向扩展(scale-up)带宽达260 TB/s,是Blackwell NVL72的两倍。

Harris称:“这比整个全球互联网的带宽还要高。

第三代NVL72机架可靠性技术

英伟达表示,Vera Rubin还搭载了第三代NVL72机架弹性技术,包括:无缆线模块化托盘设计,使组装与维护速度提升18倍;NVLink智能弹性(Intelligent Resiliency),实现“零停机”维护,即使移除或部分填充交换托盘,整机架仍可正常运行;第二代RAS引擎(可靠性、可用性与可维护性),可在不中断机架运行的情况下进行GPU诊断。

Harris总结道:“所有这些特性都提升了系统正常运行时间和有效吞吐量(goodput),进一步降低训练与推理成本。”

推出“推理上下文内存”存储平台

针对智能体AI(agentic AI)工作负载产生的海量上下文数据,英伟达推出全新存储平台,旨在显著提升此类应用的推理性能与能效。

该平台名为Nvidia Inference Context Memory Storage Platform。Harris介绍,它利用BlueField-4 DPU和Spectrum-X以太网,构建“面向AI原生的存储基础设施,专门用于存储KV缓存”——这是大语言模型生成token或响应时优化性能的关键数据结构。

与传统网络存储方案相比,该平台可实现:最高5倍的每秒生成token数;5倍的每美元性能;5倍的能效提升。

“这直接转化为更高的吞吐量、更低的延迟和更可预测的行为,”Harris说,“对于多轮对话、检索增强生成(RAG)和智能体AI多步推理等大上下文应用场景至关重要——这些负载对上下文数据在整个系统中的存储、复用和共享效率提出了极高要求。”Harris补充,英伟达正“与存储合作伙伴紧密合作,为Rubin平台引入全新层级的推理上下文内存,使客户能够将其作为完整、集成化AI基础设施的一部分进行部署。”

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。