百度开源文心多模态思考模型,性能优于GPT5、Gemini
作者: CBISMB
责任编辑: 宋慧
来源: CBISMB
时间: 2025-11-12 10:03
关键字: 百度,AI,文心大模型,开源
浏览: 447
点赞: 24
收藏: 5
百度文心正式发布并开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。该模型基于ERNIE-4.5-VL-28B-A3B架构,仅激活3B参数,在视觉语言理解、跨模态推理等任务中表现优异,百度团队表示尽管该模型仅使用了此类系统通常所需计算资源的一小部分,但在几个与视觉相关的基准测试中,其性能却优于谷歌和OpenAI等竞争对手。
本次开源的模型名为ERNIE-4.5-VL-28B-A3B-Thinking,代表着科技公司之间日益激烈的竞争中的最新一轮交锋,这些公司都在努力构建能够理解和推理图像、视频和文档以及传统文本的人工智能系统——这些能力对于从自动化文档处理到工业质量控制等各种企业应用来说越来越重要。
百度此次发布的独特之处在于其高效性:该模型在运行过程中仅激活30亿个参数,却通过复杂的路由架构维护着总共280亿个参数。根据模型附带的文档,这种设计使其在文档理解、图表分析和视觉推理等任务上,性能能够媲美甚至超越规模更大的同类系统,同时显著降低计算能力和内存消耗。
“基于强大的 ERNIE-4.5-VL-28B-A3B 架构,全新升级的 ERNIE-4.5-VL-28B-A3B-Thinking 在多模态推理能力方面取得了显著的飞跃,”百度在Hugging Face(该系统发布的 AI 模型库)上的模型技术文档中写道。
团队表示,该模型经历了“广泛的中期训练阶段”,其中纳入了“庞大且高度多样化的优质视觉语言推理数据语料库”,从而极大地提高了其在语义上对齐视觉和文本信息的能力。

该模型如何通过动态图像分析来模拟人类的视觉问题解决能力
该模型最显著的特点或许是百度称之为“图像思考”的功能——这项功能使人工智能能够动态地放大和缩小图像,以检查细微的细节,模仿人类解决视觉问题的方式。
根据模型介绍卡上的描述,“该模型像人一样思考,能够自由放大缩小图像,捕捉每一个细节,挖掘所有信息。”百度声称,当与图像搜索等工具结合使用时,这一特性“显著提升了模型处理精细细节和长尾视觉知识的能力”。
这种方法与传统的视觉语言模型截然不同,后者通常以固定分辨率处理图像。通过允许动态图像检查,该系统理论上可以处理既需要广泛上下文信息又需要精细细节的场景,例如分析复杂的技术图纸或检测制造质量控制中的细微缺陷。
该模型还支持百度所描述的增强型“视觉定位”功能,具有“更精确的定位和灵活的指令执行,能够轻松在复杂的工业场景中触发定位功能”,这表明其在机器人、仓库自动化以及其他人工智能系统必须在视觉场景中识别和定位特定对象的环境中具有潜在的应用价值。
性能声明引发质疑,独立测试结果尚未出炉
百度声称其模型在各种文档和图表理解基准测试中优于谷歌的Gemini 2.5 Pro和 OpenAI 的GPT-5-High,这一说法在社交媒体上引起了广泛关注,但这些说法的独立验证仍有待进行。
该公司以宽松的Apache 2.0 许可证发布了该模型,允许不受限制的商业用途——这一战略决策与一些竞争对手更为严格的许可方式形成鲜明对比,并可能加速企业采用。
一位 X 用户在回复百度公告时写道:“ Apache 2.0 很聪明”,突显了开放许可在企业市场的竞争优势。
根据百度官方文档,该模型展现了超越传统文本处理的六项核心能力。在视觉推理方面,该系统能够执行百度所描述的“复杂视觉任务中的多步骤推理、图表分析和因果推理能力”,这得益于百度所称的“大规模强化学习”。
百度声称,在STEM问题解决方面,“凭借其强大的视觉能力,该模型在诸如通过照片解决问题等STEM任务上实现了性能的飞跃”。这种视觉定位能力使模型能够以百度所称的工业级精度识别和定位图像中的物体。通过工具集成,该系统可以调用包括图像搜索在内的外部功能,以获取训练数据之外的信息。
百度声称,该模型在视频理解方面拥有“出色的时间感知和事件定位能力,能够准确识别视频中不同时间段的内容变化”。此外,其图像思维功能实现了动态缩放,使其在竞争中脱颖而出。
在驱动高效多模态处理的混合专家架构内部
ERNIE-4.5-VL-28B-A3B-Thinking底层采用了混合专家(MoE)架构——这种设计模式在构建高效的大规模人工智能系统中越来越受欢迎。该模型并非为每个任务激活全部 280 亿个参数,而是使用路由机制,选择性地激活与每个特定输入最相关的 30 亿个参数。
这种方法为企业部署提供了显著的实际优势。根据百度的文档,该模型只需一块 80GB 的 GPU 即可运行——这种硬件在许多企业数据中心都很容易找到——因此比可能需要多块高端加速器的同类系统更具可及性。
技术文档显示,百度采用了多种先进的训练技术来实现该模型的性能。该公司“在可验证的任务上使用前沿的多模态强化学习技术,融合了GSPO和IcePop策略来稳定MoE训练,并结合动态难度采样以实现卓越的学习效率。”
百度还指出,为了响应“社区的强烈需求”,该公司“显著增强了该机型的接地性能,提高了其指令遵循能力”。
新模型契合百度雄心勃勃的多模态人工智能生态系统
新版本是百度更广泛的ERNIE 4.5 模型家族的一部分,该公司于 2025 年 6 月发布了该模型家族。该家族包含 10 个不同的变体,其中包括混合专家模型,从具有 4240 亿个总参数的旗舰级ERNIE-4.5-VL-424B-A47B到具有 3 亿个参数的紧凑型密集模型。
根据百度发布的ERNIE 4.5 系列技术报告,这些模型采用了“一种新颖的异构模态结构,支持跨模态的参数共享,同时允许为每个模态设置专用参数”。
这种架构选择旨在解决多模态人工智能开发中长期存在的一个挑战:如何在不影响其他模态性能的前提下,同时利用视觉和文本数据训练系统。百度声称,这种设计“具有增强多模态理解能力的优势,而且不会损害甚至提升文本相关任务的性能。”
该公司报告称,在使用其内部开发的PaddlePaddle深度学习框架对其最大的 ERNIE 4.5 语言模型进行预训练时,实现了47% 的模型 FLOPs 利用率 (MFU) ——这是衡量训练效率的指标。
全面的开发者工具旨在简化企业部署和集成
对于希望部署该模型的组织,百度通过ERNIEKit发布了一套全面的开发工具,该公司将其描述为“工业级训练和压缩开发工具包”。
该模型与包括Hugging Face Transformers、vLLM(一款高性能推理引擎)以及百度自家FastDeploy 工具包在内的主流开源框架完全兼容。这种多平台支持对于企业应用至关重要,它使企业无需对现有平台进行大规模更改即可将该模型集成到现有的 AI 基础设施中。
百度发布的示例代码展示了一种相对简单的实现方式。根据 Hugging Face 的文档,使用 Transformers 库,开发者只需大约 30 行 Python 代码即可加载并运行模型。
对于需要更高吞吐量的生产部署,百度提供了 vLLM 集成,并专门支持该模型的“推理解析器”和“工具调用解析器”功能——这些功能实现了动态图像检查和外部工具集成,使该模型区别于早期系统。
该公司还提供FastDeploy,这是一个专有的推理工具包,百度声称它提供“可用于生产环境、易于使用的多硬件部署解决方案”,并支持各种量化方案,可以减少内存需求并提高推理速度。
为什么此次发布对企业人工智能市场在关键转折点至关重要
此次发布正值企业人工智能市场的关键时刻。随着企业从实验性的聊天机器人部署转向能够处理文档、分析视觉数据和自动化复杂工作流程的生产系统,对功能强大且经济高效的视觉语言模型的需求也日益增长。
该模型的功能似乎特别适合多个企业应用场景。文档处理——从发票、合同和表格中提取信息——代表着一个巨大的市场,精准的图表理解能力能够直接转化为自动化带来的成本节约。制造质量控制——人工智能系统必须检测视觉缺陷——也能从该模型的基础分析能力中获益。处理用户图像的客户服务应用可以利用其多步骤视觉推理功能。
该模型的高效性能可能对那些缺乏大型科技公司计算预算的中型企业和初创公司尤其具有吸引力。由于只需一块 80GB 的 GPU(根据具体型号不同,硬件成本约为 1 万至 3 万美元),该系统比那些需要数十万美元成本的多 GPU 配置的模型更具经济可行性,因此对更广泛的组织而言都更具吸引力。
一位 X 用户在百度发布公告后写道:“面对这些新模型,哪里才是真正构建和扩展的最佳地点?计算资源至关重要。”这凸显了试图部署先进 AI 系统的组织所面临的持续性基础设施挑战。
Apache 2.0 许可进一步降低了采用门槛。与采用限制性更强的许可协议(可能限制商业用途或要求收益分成)发布的版本不同,企业可以在生产应用中部署ERNIE-4.5-VL-28B-A3B-Thinking,而无需支付持续的许可费用或受到使用限制。
中国科技巨头将矛头指向谷歌和OpenAI,竞争日趋激烈
百度的发布加剧了视觉语言模型领域的竞争,谷歌、OpenAI、Anthropic以及阿里巴巴和字节跳动等中国公司近几个月都发布了功能强大的系统。
如果该公司宣称的性能能够通过独立测试验证,那将是一项重大成就。谷歌的Gemini 2.5 Pro和OpenAI的GPT-5-High都是规模庞大的模型,背后有两家全球市值最高的科技公司雄厚的资源支持。如果一款更紧凑、开源的模型能够在特定任务上达到甚至超越它们的性能,那就表明该领域的发展速度比一些分析师预期的要快得多。
一位社交媒体评论者写道:“ERNIE 的性能竟然超过了 Gemini 2.5 Pro,这令人印象深刻。”他对所宣称的结果表示惊讶。
然而,一些观察人士建议对基准测试结果进行比较时应谨慎。“看到多模态模型的发展令人着迷,尤其是像‘图像思考’这样的功能,”一位X用户写道。“话虽如此,我很好奇ERNIE-4.5相对于Gemini-2.5-Pro和GPT-5-High等竞争对手的优势,是否主要体现在文档和图表理解等特定用例上,而不是通用视觉任务上。”
行业分析师指出,基准测试的性能往往无法反映企业在各种实际场景下的表现。例如,擅长文档理解的模型可能难以胜任创意视觉任务或实时视频分析。因此,在正式部署到生产环境之前,评估这些系统的机构通常会对具有代表性的工作负载进行广泛的内部测试。
企业必须考虑的技术限制和基础设施要求
尽管该模型功能强大,但仍面临着大型视觉语言系统普遍存在的一些技术挑战。其最低80GB的GPU内存要求虽然比一些竞争对手更容易实现,但仍然是一笔不小的基础设施投资。对于没有现有GPU基础设施的机构而言,他们需要采购专用硬件或依赖云计算服务,这将带来持续的运营成本。
该模型的上下文窗口(即它可以同时处理的文本和视觉信息量)在百度文档中被列为 12.8 万个词元。虽然这个容量相当可观,但对于某些涉及篇幅很长的技术手册或大量视频内容的文档处理场景来说,可能仍然会存在局限性。
关于该模型在对抗性输入、分布外数据和极端情况下的表现,仍然存在疑问。百度的文档并未提供关于安全测试、偏差缓解或故障模式的详细信息——这些因素对于企业部署而言日益重要,因为错误可能会造成财务或安全隐患。
技术决策者除了基准数据之外还需要评估哪些因素?
对于评估该模型的技术决策者而言,除了原始性能指标之外,还有几个实施因素需要考虑。
该模型的MoE 架构虽然在推理过程中效率很高,但却增加了部署和优化的复杂性。各组织必须确保其基础设施能够将输入正确路由到相应的专家子网络——并非所有部署平台都普遍支持此功能。
“图像思考”功能虽然创新,但需要与图像处理工具集成才能充分发挥其潜力。百度的文档指出,该功能“与图像缩放和图像搜索等工具配合使用效果最佳”,这意味着企业可能需要构建额外的基础设施才能充分利用此功能。
虽然该模型在宣传材料中重点强调了其视频理解能力,但实际上却存在一些限制。处理视频所需的计算资源远高于处理静态图像,而且文档中并未明确规定视频的最大长度或最佳帧速率。
考虑部署该模型的组织还应评估百度对该模型的持续投入。开源人工智能模型需要持续维护、安全更新,并且随着数据分布随时间推移而变化,可能需要重新训练。虽然Apache 2.0 许可证确保了模型的可用性,但未来的改进和支持取决于百度的战略重点。
开发者社区以热情回应,但也提出了一些实际要求
人工智能研发界的早期反应谨慎乐观。开发者们已要求提供该模型的其他格式版本,包括GGUF(一种常用于本地部署的量化格式)和MNN(一种移动神经网络框架),这表明他们对在资源受限的设备上运行该系统很感兴趣。
一位开发者写道:“请发布 MNN 和 GGUF,这样我就可以在我的手机上运行它们了。”这凸显了对移动部署选项的需求。
其他开发者称赞了百度的技术选择,同时也请求提供更多资源。“模型太棒了!你们是不是用了PaddleOCR的成果?”一位用户问道,他指的是百度的开源光学字符识别工具包。
这款型号的冗长名称——ERNIE-4.5-VL-28B-A3B-Thinking——引发了一些轻松的调侃。“ERNIE-4.5-VL-28B-A3B-Thinking 可能是史上最长的型号名称了,”一位观察者开玩笑说。“不过,嘿,如果你只用了 30 个激活参数就能超越 Gemini-2.5-Pro,那你就有资格拥有一个如此引人注目的名字!”
百度计划在11月13日举行的百度世界2025大会上展示ERNIE系列产品,届时该公司预计将提供有关该机型开发、性能验证和未来路线图的更多细节。
此次发布标志着百度迈出了战略性的一步,旨在确立其在全球人工智能基础设施市场的重要地位。尽管中国人工智能公司历来主要专注于国内市场,但此次以宽松许可协议开源发布,表明了百度与西方人工智能巨头在国际舞台上展开竞争的雄心。
对于企业而言,此次发布为快速增长的人工智能模型库增添了又一个强大的选择。企业不再需要在构建专有系统或从少数供应商处购买闭源模型之间做出非此即彼的选择。像ERNIE-4.5-VL-28B-A3B-Thinking这样功能强大的开源替代方案的涌现,正在重塑人工智能部署的经济格局,并加速各行业的采用。
该模型在实际部署中能否兑现其性能承诺还有待观察。但对于那些寻求功能强大且经济高效的视觉理解和推理工具的组织而言,有一点是肯定的。正如一位开发者精辟地总结道:“开源加上商业用途,简直完美。百度可不是在开玩笑。”