华为推出AI推理技术UCM，降低HBM依赖，9月开源

作者： CBISMB

责任编辑：宋慧

来源： ISMB

时间： 2025-08-14 11:42

关键字：华为,UCM,推理,开源

点赞： 18

收藏： 17

华为于2025年8月12日在"2025金融AI推理应用落地与发展论坛"上正式发布了名为 UCM（推理记忆数据管理器）的AI推理创新技术。

UCM是以KV Cache（键值缓存）为中心的推理加速套件，通过分级管理AI推理过程中产生的KV Cache记忆数据，优化缓存效率。

核心机制分别为：1）分级存储：根据数据"记忆热度"，将KV Cache动态分配至HBM（高带宽内存）、DRAM和SSD等存储介质中，实现按需流动。2）算法融合：结合多种稀疏注意力算法（如动态KV逐层卸载、位置编码扩展），实现存算协同，突破模型资源限制。

长序列场景下，每秒处理Token数（TPS）提升2-22倍，首Token响应延迟降低高达90%（避免重复计算）。多轮对话和知识搜索场景中，通过直接调用历史缓存数据，显著减少初始响应时间。通过优化存储层级和算法，降低每Token的推理成本。在超长上下文窗口（如百万级Token）场景中，显存和并发压力显著缓解。

美国自2025年1月起禁售HBM2E及以上芯片给中国，UCM通过"以存代算"（用DRAM/SSD分担HBM负载）缓解HBM短缺问题，提升国产AI推理生态自主性。解决推理中"推不动"（上下文窗口不足）、"推得慢"（首Token时延高）、"推得贵"（单位Token成本高）三大瓶颈和挑战。

目前，UCM已应用落地于中国银联，试点在"客户之声""营销策划""办公助手"三大场景中，大模型推理速度提升125倍（如10秒精准识别客户问题）。适用长文本处理、多轮对话、Agentic AI（智能体）等需超长上下文支持的场景。

UCM计划于2025年9月在华为"魔擎社区"首发开源，后续贡献至Hugging Face、vLLM等主流推理引擎社区。技术将共享给采用"Share Everything"架构的存储厂商及生态伙伴（如讯飞已加入共建）。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

华为推出AI推理技术UCM，降低HBM依赖，9月开源

相关推荐

智库专家

解决方案