DeepSeek最新DeepSeek‑V3.2‑Exp,成本砍半,提升长文本训推效率

作者: CBISMB

责任编辑: 宋慧

来源: ISMB

时间: 2025-10-09 11:54

关键字: DeepSeek,AI,大模型,训练推理

浏览: 4047

点赞: 219

收藏: 36

9月底,DeepSeek 正式发布实验性模型 DeepSeek‑V3.2‑Exp,参数规模约 685 B,作为从 V3.1‑Terminus 向下一代架构过渡的中间步骤。并且已在 HuggingFace 开源,提供完整模型权重与论文,便于第三方验证与二次开发。


DeepSeek‑V3.2‑Exp引入 DeepSeek Sparse Attention(DSA)——一种细粒度稀疏注意力机制,能够把注意力计算复杂度从传统的 O(L²) 降至 O(L·k),显著提升长文本(上百千 token)训练与推理效率。该机制在保持模型输出质量的前提下,实现了长上下文成本的大幅下降,在公开基准测试中与 V3.1‑Terminus 表现持平。


受新模型服务成本降低的影响,DeepSeek 同步下调 API 价格,整体成本下降 50% 以上,部分计费项(如缓存未命中)甚至降幅超过 70%。  新的计费标准已在官方文档中公布,开发者可在多平台直接使用。


图片


据了解,发布后,已有多家第三方平台已集成该模型,包括 OpenRouter、Together.ai、Fireworks.ai、Hyperbolic 等,分别提供不同的上下文长度、SLA 与特性。


另外有消息称DeepSeek V4 计划在 10 月 正式发布,预计将支持 1 M Tokens 上下文窗口、GRPO 算法优化以及更强的数学与编码能力,具体细节仍待官方确认。


DeepSeek‑V3.2‑Exp 通过稀疏注意力实现了长文本处理的效率突破,并以大幅降价打开了更广阔的开发者市场。模型已开源,生态伙伴快速接入,后续的 V4 版本也在酝酿中,行业关注度持续升温。



©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。