GPT-5.2正式迎战Gemini，OpenAI称其“最强专业知识工作大模型”—

GPT-5.2正式迎战Gemini，OpenAI称其“最强专业知识工作大模型”

发布时间:2025年12月12日来源：硅基观察Pro 作者：硅基观察Pro 浏览量：5,083

凌晨两点，OpenAI在十周年纪念日发布了GPT-5.2。没有直播、演讲，只有一份技术文档和缓缓推送的模型更新。这个刻意低调的时间点，发生在Gemini 3 Pro首次在关键指标上领先、奥特曼宣布"红色警戒"之后。

GPT-5.2的核心定位指向“专业知识工作”，主打快速、深度、智能可靠。三个版本——Instant处理日常写作翻译，Thinking主攻编程、长文档分析和规划，Pro则追求高难度任务中的可靠性。分层对准了律师、分析师、项目经理这类职业的需求。

真正的信息量藏在两个陌生测试里。

第一个是ARC-AGI-2，它测的是"流体智力"——不靠知识储备，纯粹在新情境下推理解谜的能力。

GPT-5.1只拿到17.6分，5.2跃升至52.9分，翻了整三倍。这个分数的含金量在于，它暗示模型底层的推理逻辑发生了结构性变化，而非单纯堆参数。

第二个是GDPval，OpenAI自己搭建的"经济价值"评估体系。它覆盖了美国GDP最高的9个行业，由平均从业14年的资深专家设计了1320道真实工作任务。这些不是选择题，而是耗时7小时到两周不等的实战项目：审阅漏洞合同、优化生产流程、制作有说服力的营销PPT。评审方式是让同领域专家盲评，更愿意把哪份成果交给客户。

结果，GPT-5.2 Thinking打平或击败人类专家的概率是70.9%，Pro版本达到74.1%。而四个月前的GPT-5，这个数字是38.8%。从38到74，不是渐进优化，而是跨越了"能用"与"敢用"的临界点。

技术细节上，模型达到了256K上下文"四根针"测试的满分，幻觉率比5.1降低30%，知识库更新至2025年8月。

编程方面，SWE-bench Verified创下80%的新高，能端到端修复生产代码。OpenAI内部甚至测试过让5.2 Pro解决2019年学习理论顶会COLT的一个开放问题——它直接给出了完整的可行证明，经外部专家验证正确。

不过在商业层面，成本问题悬而未决。API价格较5.1上涨，最尴尬的莫过于承诺已久的"成人模式"再度延期，明确推迟到2026年Q1。