Meta 推出自研 AI 芯片,专攻推理工作负载

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-03-12 11:43

关键字: Meta,AI芯片,推理

浏览: 0

点赞: 0

收藏: 0

Meta对外披露,公司已设计出四款定制芯片,用于为其内部人工智能工作负载提供动力。

该公司上一次更新其处理器开发进展是在 2024 年。当年 4 月,Meta 展示了一款定制 AI 加速器,其功耗为 90 瓦。而 Meta新推出的四款加速器中,最先进的一款热设计功耗(TDP)高达 1700 瓦。

Meta 在 2024 年 4 月发布的定制芯片 MTIA 200,专为运行排序和推荐模型而设计。这些神经网络用于决定在用户的信息流中显示哪些帖子和广告。

今日发布的首款新芯片 MTIA 300 专注于相同的应用场景。在处理 MX8 格式数据时,它能提供 1.2 petaflops(千万亿次浮点运算)的性能,并配备 216 GB 的 HBM(高带宽内存)。

“MTIA 300 由一个计算芯粒、两个网络芯粒以及多个 HBM 堆栈组成,”Meta 工程师在博客文章中写道,“每个计算芯粒包含一个处理单元(PE)网格,其中包含一些冗余的 PE 以提高良率。”

MTIA 300 是此次发布的四款新芯片中唯一一款已投入生产部署的芯片。其余三款处理器支持更广泛的应用场景。除了排序和推荐工作负载外,它们还能运行生成式 AI 软件,如大型语言模型(LLM)。

该系列中最先进的芯片 MTIA 500,在处理 MX8 数据时可提供 10 petaflops 的性能。它还支持一种更高效的数据格式,称为 MX4。后者技术减少了 AI 模型在回答提示时需要分析的字节数,从而加快了处理速度。

MTIA 500 使用四个逻辑芯粒进行计算。这些模块被多个 HBM 内存堆栈环绕,总共可存储高达 516 GB 的数据,是 MTIA 300 的两倍。该处理器的组件还包括一个所谓的 SoC(片上系统)芯粒,负责在主机服务器之间传输信息。

预计 MTIA 500 将于 2027 年与另一款类似但稍逊一筹的芯片 MTIA 450 一同投入生产。这两款处理器均针对生成式 AI 推理工作负载进行了优化。它们包含专门设计的电路,用于加速推理工作流程中特定且硬件密集型的环节,例如 FlashAttention。这是一种流行的注意力机制实现方式,大型语言模型利用它来分析输入数据。

“在系统层面,MTIA 400、450 和 500 均采用相同的机箱、机架和网络基础设施,”Meta 工程师写道,“因此,每一代新芯片都可以直接替换到相同的物理空间内,从而加速从硅片设计到生产部署的过渡。我们模块化、可复用的设计也最大限度地减少了开发和部署多代芯片所需的资源。”

Meta 使用定制编译器来优化适配其 MTIA 芯片的 AI 模型。另一个名为“Hoot Collective Communications Library”的定制软件模块,负责管理处理器之间的数据流。它利用位于存储单元附近的晶体管执行某些计算,从而减少了数据传输时间,进而提升了性能。

此次芯片发布之际,距离 Meta 同意从英伟达和AMD购买价值数十亿美元的处理器还不到一个月。与此同时,消息人士透露,这家 Facebook 母公司还计划采用谷歌的 TPU 加速器。据报道,这些芯片将用于运行大型语言模型。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。