GPT?5.2 在制作電子表格、設計演示文稿、編寫代碼、識別圖像、理解長文本上下文、使用工具以及處理復雜的多步驟項目方面表現更佳。
在基準測試 GDPval 中,GPT?5.2 在涵蓋 44 個職業的明確知識型工作任務上超越了行業專家。
多名用戶觀察到,GPT?5.2 展現出強大的長時推理和工具調用性能,且在智能體數據科學和文檔分析任務中表現出色。
除此之外,GPT?5.2 在智能體編碼方面達到了行業領先水平,并在交互式編程、代碼審查和缺陷定位等領域帶來了可量化的提升。
GPT?5.2 Instant、Thinking 和 Pro 將從今天開始陸續上線,API 現已向所有開發者開放。
模型性能
具備經濟效益
GPT?5.2 Thinking 非常適合真實場景與專業工作的模型。在 GDPval? 評測(覆蓋 44 個職業、用于衡量明確知識型工作任務的評估)中,GPT?5.2 Thinking 有 70.9% 的對比項目表現優于頂尖行業專業人士或與其持平。這些任務包括制作演示文稿、電子表格以及其他專業產出。
GPT?5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監督的情況下,GPT?5.2 能有效輔助專業工作。
一位 GDPval 評委評價道:“布局設計頗為驚艷,對兩個交付物的建議也非常到位,只是其中一個仍有一些小錯誤需要修正。”
此外,在針對初級投資銀行分析師的內部電子表格建模任務的基準測試中(例如,為財富 500 強公司制作格式規范、引用完整的三表模型,或為私有化交易構建杠桿收購模型),GPT?5.2 Thinking 的平均任務得分較 GPT?5.1 提升了 9.3%,由 59.1% 增至 68.4%。
并排對比顯示,GPT?5.2 Thinking 生成的電子表格和幻燈片在復雜度與格式呈現上都有明顯提升。
編碼
GPT?5.2 Thinking 在 SWE-bench Pro 測試取得了 55.6% 的新成績。SWE-bench Pro 涵蓋四種語言,旨在更具抗污染性、更具挑戰性、更具多樣性,也更貼近真實工業場景。
在 SWEvbench Verified 測試中,GPT?5.2 Thinking 取得了我們全新的最高成績:80%。
這意味著該模型能夠更可靠地調試生產環境代碼、實現功能需求、重構大型代碼庫,并以更少的人工干預完成端到端的修復交付。
GPT?5.2 Thinking 在前端軟件工程方面也優于 GPT?5.1 Thinking。早期測試者發現,它在前端開發以及復雜或非傳統的 UI 工作上表現更強(尤其是涉及 3D 元素的場景)。
Windsurf 首席執行官 Jeff Wang 表示,“GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍,并且在同價位中是業界領先的編碼模型。”
減少幻覺
GPT?5.2 Thinking 的幻覺率低于 GPT?5.1 Thinking。在一組來自 ChatGPT、已去標識化的查詢中,含有錯誤的回答出現頻率相對減少了 38%。
長上下文
在深度文檔分析中,GPT?5.2 Thinking 的準確性顯著高于 GPT?5.1 Thinking,在 4-needle MRCR 評測變體(最長可達 256k Token)中實現接近 100% 的準確率。
工具調用
GPT?5.2 Thinking 在 Tau2 bench Telecom 測試中取得了 98.7% 的成績,展示了它在長程、多輪任務中可靠使用工具的能力。
在對延遲敏感的場景中,GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有顯著提升,性能大幅領先 GPT?5.1 和 GPT?4.1。
這意味著端到端的工作流程將更加穩健,例如處理客戶支持案例、從多個系統提取數據、執行分析以及生成最終結果,各步驟之間出現中斷的情況也會更少。
科學與數學
在 Google 問答基準測試 GPQA Diamond 中,GPT?5.2 Pro 取得了 93.2% 的成績,GPT?5.2 Thinking 緊隨其后,達到 92.4%。
在專家級數學評測 FrontierMath (Tier 1–3) 中,GPT?5.2 Thinking 解決了 40.3% 的問題。
AGI
在 ARC-AGI-1 (Verified) 這一用于衡量通用推理能力的基準測試中,GPT?5.2 成為首個突破 90% 閾值的模型,相較去年 o3?preview 的 87% 有明顯提升,同時將達到該性能的成本降低了約 390 倍。
在更高難度、更加側重流體推理能力的 ARC-AGI-2 (Verified) 中,GPT?5.2 Thinking 以 52.9% 的成績刷新了鏈式思維模型的最新紀錄;GPT?5.2 Pro 表現更進一步,達到 54.2%,進一步拓展了模型在處理全新抽象問題時的推理能力。
定價
GPT?5.2 的價格為每百萬輸入 Token 1.75 美元、每百萬輸出 Token 14 美元。
總體而言,GPT?5.2 在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升,使其在端到端執行復雜的真實任務時表現出色。
參考資料:
https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/