DeepSeek联合清华北大发布针对智能体的推理系统DualPath

作者: CBISMB

责任编辑: 宋慧

来源: CBISMB

时间: 2026-02-28 14:23

关键字: DeepSeek,IO瓶颈,DualPath

浏览: 835

点赞: 40

收藏: 7

DeepSeek 联合清华大学与北京大学在 2026 年 2 月发布了一篇重磅技术论文,标题为 《DualPath: A Dual-Path Loading Framework for Agent Reasoning》(中文译名:《DualPath:一种针对智能体工作负载的大模型推理系统》)。


总结来说,这篇新论文介绍了一个名为「DualPath」的创新推理系统,专门针对智能体工作负载下的大语言模型(LLM)推理性能进行优化。具体来讲,通过引入「双路径 KV-Cache 加载」机制,解决了在预填充 - 解码(PD)分离架构下,KV-Cache 读取负载不平衡的问题。

该推理系统带来了显著效果:在离线推理场景中实现了 1.87 倍的吞吐量提升,在线服务场景下实现了 1.96 倍的服务吞吐量提升。


核心亮点与创新

这篇论文聚焦于当前 AI 大模型在 智能体(Agentic AI) 场景下的推理效率问题,提出了被称为 “DualPath” 的新型推理框架。

解决 I/O 瓶颈:在多轮对话或复杂任务中,模型需要频繁读取大量的 KV-Cache(键值缓存),导致 GPU 大部分时间在等待读取,算力无法发挥。DualPath 通过引入“双路径”机制,重新设计 KV-Cache 的加载逻辑,有效缓解了这一瓶颈。

性能提升显著:

离线推理:吞吐量提升了 1.87 倍。

在线服务:每秒智能体运行数提升了 1.96 倍。

技术实现:利用了集群中闲置的网络带宽(如 RDMA 网络),将 KV-Cache 加载任务从计算节点(计算节点)转移到存储节点(存储节点),实现了存储带宽的全局池化与动态负载均衡。

论坛作者与发布机构

第一作者:吴永彤(北京大学博士生)。

合作机构:DeepSeek 团队、清华大学、北京大学。

研究方向:大模型基础设施优化、智能体推理效率。


研究意义

该论文被视为中国大模型从“拼参数、堆算力”转向“拼效率”的代表作之一,标志着 DeepSeek 在工程化优化和软硬件协同设计方面取得了关键突破。

简而言之:这篇论文不仅在学术上提出了新的系统架构 DualPath,也在实际应用中显著降低了AI 智能体的运营成本,为大模型的商业化落地提供了重要的底层技术支撑。


©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。