Oracle 和 AMD 合作,助力客户在大规模 AI 和 Agentic 工作负载方面实现性能突破

作者:

CBISMB

责任编辑:

贾西贝

来源:

ISMB

时间:

2025-06-24 05:56

关键字:

Oracle AMD AI 合作

6 12 日,Oracle AMD 宣布将在 Oracle Cloud Infrastructure (OCI) 上推出 AMD Instinct ™ MI355X GPU,为客户提供更多选择。与上一代相比,大规模 AI 训练和推理工作负载的性价比将提高超过两倍。Oracle 将推出由新的 AMD Instinct 处理器以及多达 131,072 MI355X GPU 提供支持的 Zettascale AI 集群,助力客户大规模构建、训练和推理 AI

甲骨文公司Oracle Cloud Infrastructure执行副总裁 Mahesh Thiagarajan 表示:为了支持在云端运行高要求 AI 工作负载的客户,我们致力于提供广泛的 AI 基础设施产品。AMD Instinct GPU OCI 的性能、高级网络、灵活性、安全性和可扩展性相结合,可帮助我们的客户满足他们对 AI 工作负载和新 agentic 应用的推理和训练需求。

为了支持需要更大、更复杂的数据集的新 AI 应用,客户必须采用专为大规模 AI 训练而设计的 AI 计算解决方案。搭载 AMD Instinct MI355X GPU Zettascale OCI Supercluster 可支持多达 131,072 MI355X GPU,提供高吞吐量、超低延迟的 RDMA 集群网络架构,从而满足客户的需求。相较于上一代,AMD Instinct MI355X 提供近三倍的算力,高带宽内存也增加了 50%

AMD 数据中心解决方案业务集团执行副总裁兼总经理 Forrest Norrod 表示:“AMD Oracle 有着相似的历史,我们都为客户提供了开放式解决方案,从而实现高性能、高效率和更高的系统设计灵活性。在 OCI 上推出新一代 AMD Instinct GPU Pollara NIC 将有助于支持推理、微调和训练等新用例,能够随着 AI 采用率不断增长,为客户提供越来越多选择。

AMD Instinct MI355X 即将在 OCI 上推出

AMD Instinct MI355X 驱动的配置具有超高价值、云技术的灵活性和开源的兼容性,非常适合当今运行大语言模型和 AI 工作负载的客户。借助基于 OCI AMD Instinct MI355X,客户将能够从以下方面受益:

·         性能显著提升:通过将吞吐量提高至 2.8 倍,帮助客户提高 AI 部署的性能。为了大规模实现 AI 创新,客户可以更快获得结果、降低延迟并掌握运行大型 AI 工作负载的能力。

  • 更大、更快的内存:客户可以完全在内存中执行大模型,对于需要高内存带宽的模型,可提高推理和训练速度。新配置提供 288 GB 的高带宽内存 3 (HBM3) 和高达 8 TB/秒的内存带宽。

·         全新的 FP4 支持:支持新的 4 位浮点数 (FP4) 标准,让客户能够以经济高效的方式部署现代大语言模型和生成式 AI 模型。这有助于实现超高效和高速推理。

·         密集型液冷设计:客户可以实现每机架 125 千瓦的性能密度,满足严苛的 AI 工作负载需求。每个机架配备 64 GPU,支持 1400 瓦的热设计功耗,客户可以通过更高的吞吐量和更低的延迟来缩短训练时间。

  • 专为生产规模的训练和推理而构建:支持客户部署新的 agentic 应用,以更短的首次令牌生成时间 (TTFT) 和每秒高令牌吞吐量。客户将在工作负载训练和推理方面实现更高的性价比。

·         强大的头节点:通过 AMD Turin 高频 CPU 和多达 3 TB 的系统内存,实现高效的作业编排和数据处理,帮助客户优化 GPU 性能。

·         开源堆栈:通过 AMD ROCm 支持客户利用灵活的架构,轻松迁移现有代码,无需被供应商锁定。AMD ROCm 是一个开放的软件栈,其中包含了开发基于 AMD GPU AI HPC 解决方案时常用的编程模型、工具、编译器、库以及运行时。

·         使用 AMD Pollara™ 进行网络创新:为客户提供高级 RoCE 功能,实现创新的网络结构设计。Oracle 将率先在后端网络上部署 AMD Pollara AI NIC,提供高级 RoCE 功能,例如 Ultra Ethernet Consortium (UEC) 的可编程拥塞控制和开放行业标准支持,以此实现高性能和低延迟网络。