GPT-5.2正式迎战Gemini,OpenAI称其“最强专业知识工作大模型”

发布时间:2025年12月12日 来源:硅基观察Pro 作者:硅基观察Pro 浏览量:22

凌晨两点,OpenAI在十周年纪念日发布了GPT-5.2。没有直播、演讲,只有一份技术文档和缓缓推送的模型更新。这个刻意低调的时间点,发生在Gemini 3 Pro首次在关键指标上领先、奥特曼宣布"红色警戒"之后。

GPT-5.2的核心定位指向“专业知识工作”,主打快速、深度、智能可靠。三个版本——Instant处理日常写作翻译,Thinking主攻编程、长文档分析和规划,Pro则追求高难度任务中的可靠性。分层对准了律师、分析师、项目经理这类职业的需求。

真正的信息量藏在两个陌生测试里。

第一个是ARC-AGI-2,它测的是"流体智力"——不靠知识储备,纯粹在新情境下推理解谜的能力。

GPT-5.1只拿到17.6分,5.2跃升至52.9分,翻了整三倍。这个分数的含金量在于,它暗示模型底层的推理逻辑发生了结构性变化,而非单纯堆参数。

第二个是GDPval,OpenAI自己搭建的"经济价值"评估体系。它覆盖了美国GDP最高的9个行业,由平均从业14年的资深专家设计了1320道真实工作任务。这些不是选择题,而是耗时7小时到两周不等的实战项目:审阅漏洞合同、优化生产流程、制作有说服力的营销PPT。评审方式是让同领域专家盲评,更愿意把哪份成果交给客户。

结果,GPT-5.2 Thinking打平或击败人类专家的概率是70.9%,Pro版本达到74.1%。而四个月前的GPT-5,这个数字是38.8%。从38到74,不是渐进优化,而是跨越了"能用"与"敢用"的临界点。

技术细节上,模型达到了256K上下文"四根针"测试的满分,幻觉率比5.1降低30%,知识库更新至2025年8月。

编程方面,SWE-bench Verified创下80%的新高,能端到端修复生产代码。OpenAI内部甚至测试过让5.2 Pro解决2019年学习理论顶会COLT的一个开放问题——它直接给出了完整的可行证明,经外部专家验证正确。

不过在商业层面,成本问题悬而未决。API价格较5.1上涨,最尴尬的莫过于承诺已久的"成人模式"再度延期,明确推迟到2026年Q1。

免责声明:本文来自硅基观察Pro客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    22 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: