华为推出AI推理技术UCM,降低HBM依赖,9月开源
作者: CBISMB
责任编辑: 宋慧
来源: ISMB
时间: 2025-08-14 11:42
关键字: 华为,UCM,推理,开源
浏览: 305
点赞: 18
收藏: 17
华为于2025年8月12日在"2025金融AI推理应用落地与发展论坛"上正式发布了名为 UCM(推理记忆数据管理器) 的AI推理创新技术。
UCM是以KV Cache(键值缓存)为中心的推理加速套件,通过分级管理AI推理过程中产生的KV Cache记忆数据,优化缓存效率。
核心机制分别为:1)分级存储:根据数据"记忆热度",将KV Cache动态分配至HBM(高带宽内存)、DRAM和SSD等存储介质中,实现按需流动。2)算法融合:结合多种稀疏注意力算法(如动态KV逐层卸载、位置编码扩展),实现存算协同,突破模型资源限制。
长序列场景下,每秒处理Token数(TPS)提升2-22倍,首Token响应延迟降低高达90%(避免重复计算)。多轮对话和知识搜索场景中,通过直接调用历史缓存数据,显著减少初始响应时间。通过优化存储层级和算法,降低每Token的推理成本。在超长上下文窗口(如百万级Token)场景中,显存和并发压力显著缓解。
美国自2025年1月起禁售HBM2E及以上芯片给中国,UCM通过"以存代算"(用DRAM/SSD分担HBM负载)缓解HBM短缺问题,提升国产AI推理生态自主性。解决推理中"推不动"(上下文窗口不足)、"推得慢"(首Token时延高)、"推得贵"(单位Token成本高)三大瓶颈和挑战。
目前,UCM已应用落地于中国银联,试点在"客户之声""营销策划""办公助手"三大场景中,大模型推理速度提升125倍(如10秒精准识别客户问题)。适用长文本处理、多轮对话、Agentic AI(智能体)等需超长上下文支持的场景。
UCM计划于2025年9月在华为"魔擎社区"首发开源,后续贡献至Hugging Face、vLLM等主流推理引擎社区。技术将共享给采用"Share Everything"架构的存储厂商及生态伙伴(如讯飞已加入共建)。