2024年度创新AI平台奖:联想万全异构智算平台
CBISMB
责任编辑:张琳
ISMB
时间:2025-01-03 17:26
联想 万全异构 智算
联想万全异构智算平台是一个能高度自动化完成AI全流程开发的平台,可输出高可用算力并不断突破计算效率瓶颈的利器。
用户可自动完成AI计算并发布模型或发布推理服务。此外,平台也为专业的AI开发用户留有手动深入调整计算过程的空间,包括工具和模型的选择,算力配置的调整,对任务的定制化监控等。
AI 2.0 时代算力是智算和超算发展的重要引擎,算力平台建设存在诸多技术挑战。联想万全异构智算平台通过一系列技术创新应对关键挑战,并在众多领域推广应用,取得了显著的经济和社会效益。
技术创新联想万全异构智算平台通过 5 大核心技术创新,解决智算平台异构算力融合及软硬件协同问题。智算广泛应用于多种场景,如何选择合适的软硬件组合,是一个巨大的挑战。
联想在业界首创算力魔方智能匹配技术,灵活精准地选择最优软硬件组合,匹配用户的智算场景需求。智算+超算成为行业的趋势,联想智算超算融合技术首创非侵入式资源调度,消除智算和超算间的算力孤岛、提升 GPU 算力资源利用率,打造业内极致高效统一的智算超算融合平台。而针对模型训练过程中故障频发、定位难、恢复时间长的问题,通过业界领先的断点续训技术,将故障重起时间缩短到 10 分钟以内,秒级完成 checkpoint 读写;结合精准软硬件故障预测并自动解决/预防故障,大幅降低了训练中断概率。针对 GPU 算力利用率低,时间、能源浪费严重的问题,通过 GPU 内核态虚拟化技术,精细化控制 GPU 算力和显存资源分配,极致提升 GPU 虚拟化性能,位于业界的领先水平。随着集群规模增大,集群通信时间占比增加成为性能瓶颈;通过优化网络通信算法、卸载集合函数、采用高带宽互联架构等,降低通信时间占比,使得 GPU 集群的整体效率达到业界领先。RoCE因其性价比在智算中心逐渐普及;但其存在配置难,链路不均和拥塞问题;通过 AI 模型对其进行参数配置优化,流量调度,故障硬件模块预测并预处理,提供业界效率最佳和最稳定的 RoCE 网络。
该平台在各领域有广泛的应用前景,目前已经在科研教育、金融、云计算等领域落地应用,例如:科研教育领域:承担国内某 TOP 高校《国家重大科技基础设施建设项目(发改委项目)》中的算力平台部分;基于首创的 AI 和 HPC 融合技术,极致提升 GPU 算力利用率,率先在业界实现超智融合的算力中心。
联想万全异构智算平台面向通用计算、科学计算与 AI 算力等多个领域,用户不仅可以自动完成 AI 计算并发布模型或推理服务,还能手动深入调整计算过程,包括选择工具和模型、调整算力配置以及对任务进行定制化监控。平台集成了五大创新技术:算力匹配魔方、GPU 内核态虚拟化、联想集合通信算法库、AI 高效断点续训技术以及 AI 与 HPC 集群超级调度器,显著提升计算效率,为用户提供了一个高质量、高标准的异构智算解决方案。