OpenAI发布GPT-5.2,与谷歌Gemini 3争夺AI模型霸主地位
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2025-12-15 10:28
关键字: OpenAI,GPT, AI,大模型
浏览: 2225
点赞: 132
收藏: 10
OpenAI已正式推出GPT-5.2,宣称其在完成现实世界商业任务方面的能力相较11月发布的GPT-5.1有显著提升,达到了“专家级”水准。公司表示,这款新模型提供即时、思考和专业三种性能层级,在多项基准测试中均取得重大进步。
根据OpenAI自研的GDPval基准测试——该测试衡量模型在44项不同商业任务中达到人类专家同等标准的能力——GPT-5.2在70.9%的测试中表现达到或超过人类用户,而GPT-5.1在即时版、思考版和专业版中的这一比例仅为38.8%。
为说明这些进步,OpenAI举例称:GPT-5.2 Thinking能完整地对一份人力规划电子表格进行格式化;而GPT-5.1虽然也能正确生成相同的表格内容,但输出结果较为基础,缺乏格式设置。
OpenAI表示:“我们设计GPT-5.2是为了为用户释放更大的经济价值;它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面都更加出色。”
此外,GPT-5.2在其他关键基准测试中也展现出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用问题解决能力)以及SWE-Bench Pro/SWE-Bench Verified(真实世界软件开发任务)。
公司指出:“对于日常专业用途而言,这意味着该模型能更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并端到端地交付修复方案,且所需人工干预更少。”
GPT-5.2目前已开始向ChatGPT用户分阶段推出,首先面向付费订阅用户,订阅价格维持不变。通过API调用时,GPT-5.2的定价为每百万输入token 1.75美元,每百万输出token 14美元,并对缓存输入提供90%的折扣。尽管价格高于GPT-5.1,但OpenAI声称,由于GPT-5.2在token使用上效率更高,“要达到相同质量水平的实际成本反而更低”。
红色警报
对OpenAI而言,如此迅速地在上一版本之后推出新模型,标志着其GPT-5系列开发节奏明显加快。今年12月初,CEO Sam Altman曾向全体员工发出“红色警报”紧急备忘录,警告若不能快速推进GPT-5研发,公司将面临被谷歌日益强大的Gemini 3模型超越的风险。
此后局势似乎趋于稳定。阿尔特曼本周在接受CNBC采访时表示,Gemini的进步没有最初担忧的那么显著,并预计“红色警报”状态将在1月结束。然而值得注意的是,此次网络公告中并未直接将GPT-5.2与Gemini 3进行性能对比。据称,在一场单独的媒体简报会上,仅提供了有限的比较数据。
西门子首席AI分析师Maria Sukhareva对OpenAI所使用的基准测试方法提出了质疑:“GPT-5.2声称在GDPVal上胜出,但这是OpenAI自己为自家模型设计的基准。从技术上讲,OpenAI完全可以针对这44项任务微调模型,却在其他所有任务上彻底失败。”她指出,“本质上,GPT-5.2公布的这些数字毫无意义——因为我们根本看不到他们用什么数据训练了模型。GPT-5.2依然存在此前所有模型的同样问题。”她对GPT-5.2基准测试的深入分析可在其Substack专栏中查阅。
电商服务平台Sell The Trend的CEO Rachid ‘Rush’ Wehbi在真实场景中测试了GPT-5.2。他表示:“GPT-5.2在保持长时间逻辑连贯性方面表现好得多,即使面对复杂的多层上下文也不会‘崩溃’。对企业而言,这一点远比在某个可能无关紧要的基准上取得微小进步重要得多。”
他补充道:“基准测试固然可以证明某种进步,但无法告诉你模型在现实世界中是否真正可靠。GPT-5.2是一次前进,但企业级AI仍处于发展过程中。”
AI素养教育公司Human Voice Media创始人Bob Hutchins认为:“迄今为止,企业在使用AI时最大的挫败感往往来自最后那20%——比如格式调整、约束条件、任务交接等细节。GPT-5.2在这方面确实有所进步。”他建议企业用户:“忽略发布时的喧嚣,开展严谨的试用。GPT-5.2是一个有意义的进展——它虽未完全弥合承诺与实践之间的差距,但确实缩小了这一差距。”
例如,智能体AI公司Vectara的“幻觉评估模型”的测试显示,尽管GPT-5.2在减少幻觉方面有所改善,但仍落后于部分竞争对手。
Vectara开发者关系负责人Ofer Mendelevitch评论道:“OpenAI在降低幻觉率方面仍有很长的路要走。GPT-5.2-low-thinking是目前GPT家族中表现最好的,在我们的排行榜上位列第33位,幻觉率为8.4%。但值得注意的是,ChatGPT 5.2明显落后于DeepSeek V3.2——后者排名第23位,幻觉率仅为6.3%。作为对比,我们在测试中发现Gemini 3的‘有依据幻觉率’为13.6%,而Grok 4.1则高达17.8%。”