AMD推出ROCm 7,加速追赶CUDA
作者: CBISMB
责任编辑: 邹大斌
来源: ISMB
时间: 2025-09-18 10:46
关键字: AMD,ROCm,CUDA,GPU,AI
浏览: 421
点赞: 29
收藏: 2
今年春季,AMD凭借推出MI355X加速器,在性能上缩小了与英伟达Blackwell系列的差距。如今,该公司面临的挑战是克服英伟达在CUDA软件生态上的优势,让其硬件性能更易于被开发者所用。
本周发布的AMD ROCm 7.0软件平台正是朝着这一目标迈出的重要一步。该平台承诺在推理和训练性能方面实现重大提升,不仅惠及最新的芯片,也显著提升了旧款MI300系列产品的性能表现。“CUDA护城河”可能正在逐渐变浅。
ROCm是一套软件库和开发工具的集合,包括HIP框架,为开发者提供了一种低层级编程接口,用于在GPU上运行高性能计算(HPC)和AI工作负载。从许多方面来看,ROCm的软件栈类似于CUDA运行时,但它是为AMD GPU而非英伟达GPU设计的。
自2023年推出首款真正为AI优化的图形加速器MI300X以来,AMD已不断扩展对新数据类型的支援,提升与主流运行时和框架的兼容性,并通过ROCm运行时引入了针对特定硬件的优化。
ROCm 7可以说是AMD迄今为止最重要的更新。相比ROCm 6,AMD表示客户在MI300X上可实现约3.5倍的推理性能提升。同时,公司称其已将模型训练中的有效浮点运算性能提升了3倍。
AMD声称,这些软件增强功能结合其最新最强的GPU——MI355X,在使用SGLang运行DeepSeek R1模型时,推理工作负载性能比英伟达B200高出1.3倍。
尽管MI350X和MI355X在浮点性能上与B200大致相当(密集FP4性能分别为9.2和10 petaFLOPS,英伟达为9 petaFLOPS),但AMD芯片配备了多出108 GB的HBM3e高带宽内存。
不过,MI355X真正的竞争对手其实是英伟达的B300,后者拥有288 GB的HBM3e内存,密集FP4性能达到14 petaFLOPS,纸面参数上在推理任务中可能更具优势。
值得一提的是,MI350系列是AMD首款支持OCP(开放计算项目)微缩放(microscaling)数据类型的GPU。这些更小的数据格式对提升推理和训练性能具有重要意义,可将吞吐量提高,并将内存需求减少2至4倍。ROCm 7.0.0进一步扩展了对这些低精度数据类型的支持,AMD表示其Quark量化框架现已进入生产就绪状态。
这相比此前的MI300发布近一年后才支持FP8支持功能滞后的情况是一大进步。
除了数据类型支持,ROCm 7.0.0还引入了AMD的AI张量引擎(AI Tensor Engine),简称AITER,该引擎包含专为最大化生成式AI性能而调优的特殊算子。
在推理方面,AMD称AITER可将MLA(多头线性注意力)解码操作性能提升17倍,MHA(多头注意力)预填充操作提升14倍。对于DeepSeek R1等模型,AMD表示AITER可将吞吐量提升2倍以上。
更重要的是,AITER和MXFP4数据类型已集成到vLLM和SGLang等主流推理服务引擎中。AMD表示,启用这些功能只需安装相应依赖并设置适当的环境变量即可,操作非常简便。
其他改进还包括支持最新的Ubuntu 24.04.3 LTS发行版,以及Rocky Linux 9和KVM直通功能,便于用户为虚拟机添加GPU加速能力。
ROCm 7还增加了对PyTorch 2.7和2.9、TensorFlow 2.19.1以及JAX 0.6的原生支持。
最后,对于在生产环境中部署大量Instinct加速器的用户,AMD推出了两款新仪表板,旨在简化大规模GPU集群的管理。AMD资源管理器(Resource Manager)可提供集群性能和利用率的详细遥测数据,支持访问控制,并允许设置项目配额,防止某个团队独占全部计算资源。
与此同时,AMD还推出了AI Workbench(AI工作台),旨在简化训练或微调主流基础模型的流程。
ROCm 7.0现已可通过AMD支持网站下载,也可在Docker Hub上获取预配置的容器镜像。