月之暗面发布开源 Kimi K2.5 模型,参数规模达 1 万亿
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-01-28 11:19
关键字: AI,MoonShot,Kimi,大模型
浏览: 1378
点赞: 71
收藏: 7
月之暗面(Moonshot AI)近日发布了开源大模型 Kimi K2.5,并称其在多个基准测试中性能超越 GPT-5.2。
此次发布距离该公司传出以 48 亿美元估值进行新一轮融资的消息仅数日。据报道,月之暗面已于去年 12 月完成了一轮 5 亿美元的独立融资。
Kimi K2.5 基于该公司于去年 11 月初发布的大型语言模型 Kimi K2-Base 开发。后者的一大核心特性是采用了名为 Muon 的算法以加速训练过程。Muon 通过加速大语言模型(LLM)中的隐藏层(即负责处理提示并执行大部分计算的核心模块)来提升整体性能。
据月之暗面介绍,其工程师在 Kimi K2-Base 的基础上,使用了相当于 15 万亿 token 的数据进行进一步训练。该训练数据不仅包含文本,还涵盖多模态文件。因此,Kimi K2.5 在处理图表等多模态内容方面表现优于前代模型。
月之暗面表示,该模型采用 混合专家(Mixture-of-Experts, MoE)架构,总参数量达 1 万亿。这些参数被组织成多个神经网络,每个网络针对不同任务集进行了专门优化。当 Kimi K2.5 接收到用户输入时,并不会激活全部参数,而仅调用最适合生成答案的那个特定神经网络,从而大幅降低硬件资源消耗。
构成 Kimi K2.5 的每个专家神经网络约包含 320 亿参数,并由一个拥有 4 亿参数 的“视觉编码器”提供支持。据称,该编码器负责将用户上传的多模态数据转换为嵌入向量——即一种抽象的数学表示形式,便于 Kimi K2.5 的人工神经元理解和处理。
大语言模型通常使用一种名为“注意力机制”的技术,从可用数据中筛选出与当前任务最相关的信息。月之暗面表示,Kimi K2.5 对注意力机制所依赖的计算过程进行了并行化处理。这种做法能显著提升性能,因为并行计算比串行依次计算要快得多。
Kimi K2.5 提供两种运行模式:标准模式和“思考模式”(Thinking mode),后者可生成更高质量的输出。此外,该模型还具备一项名为 K2.5 Agent Swarm 的能力,可将复杂任务拆解为多个更简单的子步骤,并将每个子步骤分配给独立的 AI 智能体(agent)处理。其内置的编排引擎最多可为单个提示创建并管理 100 个智能体。
K2.5 Agent Swarm 的设计理念与模型的并行化注意力机制类似:各智能体可并发执行子任务,而非依次等待,从而有效缩短响应时间。
月之暗面将 Kimi K2.5 与 GPT-5.2、Claude 4.5 Opus 等其他推理模型在二十多项基准测试中进行了对比。该公司称,其模型在业内最具挑战性的 LLM 评测之一 HLE-Full 上取得了最高分。该评测包含 2,500 道涵盖数学、物理等多个领域的题目。
在大多数其他基准测试中,Kimi K2.5 的得分也与竞品模型相差仅几个百分点,并在多个项目中胜过 GPT-5.2。
目前,月之暗面已将 Kimi K2.5 的代码开源发布在 Hugging Face 平台上。