创业界新高!联想AMD AI服务器单机部署满血版DeepSeek大模型,极限总吞吐高达6708 token/s!

作者:

CBISMB

责任编辑:

邹大斌

来源:

ISMB

时间:

2025-03-17 11:13

关键字:

联想 DeepSeek 大模型 服务器 AI

今天,联想宣布旗下首款AMD AI大模型训练服务器联想问天WA7785a G3在单机部署671B(满血版) DeepSeek大模型时,可实现极限吞吐量6708token/s,将单台服务器运行大模型的性能推向了新高,充分展现了联想在AI基础设施领域技术的深厚积淀与研发的快速响应能力。在AI算力竞争日趋白热化的今天,联想再次以硬核技术实力树立了行业新标杆。

软硬协同打造业界性能新标杆

依托联想万全异构智算平台,联想通过访存优化、显存优化、PCIe 5.0全互联架构创新以及精选SGLang框架中性能最优算子等诸多创新方式,对大模型从预训练、后训练到推理的全流程进行持续优化,在单台部署DeepSeek 671B大模型的联想问天WA7785a G3上实测最高吞吐量达6708 token/s。

在模拟问题对话场景(上下文序列长度128/1K)时,最高可支持并发数158,TPOT 93毫秒, TTFT 2.01秒;而在模拟代码生成(上下文序列长度512/4K )时,并发数可达140,TPOT 100毫秒, TTFT 5.53秒。

这一成绩意味着单台联想问天WA7785a G3可以支撑1500人规模企业的正常使用,是继联想问天WA7780 G3服务器单机部署满血版DeepSeek 大模型总吞吐量突破2500 token/s之后,单机部署该大模型推理性能的又一次突破。

此次突破是联想中国基础设施业务群、联想研究院ICI实验室AMD联合设计、协同调优、共同实现的。此结果也并非最终结果, 联想与AMD 还在持续尝试深度调优新方法,实现更高调优突破。

硬核配置构筑强大DeepSeek算力底座

联想问天 WA7785a G3服务器是联想与AMD双方深度合作的智慧结晶,正是双方通力合作带来的技术创新、软硬协同能力与架构突破为DeepSeek-R1满血版大模型插上性能腾飞的翅膀。

l 强大算力引擎:联想问天WA7785a G3搭载了2颗AMD处理器和8颗AMD新一代Instinct OAM GPU,它们为大模型训练、推理等场景提供了强大的算力引擎。

l 超大显存优势:联想问天 WA7785a G3拥有超大的显存容量,单颗GPU的HBM3e显存容量高达192GB,总计达1.5TB。超大显存使得单机支持全量模型推理情况下,仍保留充足的KV缓存空间。而其显存带宽达到了惊人的5.3TB/s,GPU聚合带宽达896GB/s,节点间网络带宽3.2TB/s,更高的带宽可为推理解码实现极致加速,充分满足了大模型并行计算时对跨节点通信的高带宽需求,使其成为用户首选大模型推理服务器。

l 特有创新架构:联想问天WA7785a G3的独特架构设计也为最大程度地释放算力潜能、突破带宽限制发挥了关键作用,其三重独立风道设计分别针对CPU节点、GPU节点和交换机节点进行精准散热控制,提高了散热效率,为服务器的稳定性和可靠性提供了有力保障。

未来,联想将持续深化与产业伙伴的技术协作,通过架构创新、算法优化与硬件技术创新,不断突破性能边界,为各行业提供更高密度、更低能耗、更易部署的AI算力基础设施,推动AI算力向更高效、更普惠、更可持续的方向演进,助力中国智算产业的持续发展。

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-2
京公网安备:11010502051901号
ICP证:京B2-20230255