DeepSeek推出新训练架构mHC
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-01-06 14:10
关键字: DeepSeek,大模型,训练
浏览: 4605
点赞: 244
收藏: 22
中国人工智能公司深度求索(Deepseek)近日公布了一种名为“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称 mHC)的新型训练方法,该方法有望更高效、更低成本地训练大语言模型。
这一方法是在字节跳于2024年提出的“超连接”(Hyper-Connections)技术基础上进一步发展而来的。而“超连接”技术本身则源自微软亚洲研究院的经典 ResNet 架构。
深度求索表示,得益于基础设施层面的特定优化,mHC 能在不增加计算成本的前提下,实现更稳定、更具可扩展性的模型训练。研究人员已在参数规模高达270亿的模型上对该技术进行了测试,并取得了积极成果。
业内人士称,这项新方法可能是深度求索即将发布下一代重磅大模型的前兆。该公司曾在2025年农历新年之际推出了备受瞩目的 R1 模型。
©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。