国产亚洲精品久久久久久久软件,欧美性大战xxxxx久久久,国产+日韩欧美,久爱这里精品视频在线观看

GPT-5.2 隆重發布！

2025-12-12 18:11

來源： OFweek人工智能網

剛剛，OpenAI 推出 GPT?5.2，為專業知識型工作而打造。

企業用戶表示?，AI 每天能為他們節省 40–60 分鐘；而重度用戶甚至表示，每周能節省超過 10 小時。

GPT?5.2 在制作電子表格、設計演示文稿、編寫代碼、識別圖像、理解長文本上下文、使用工具以及處理復雜的多步驟項目方面表現更佳。

在基準測試 GDPval 中，GPT?5.2 在涵蓋 44 個職業的明確知識型工作任務上超越了行業專家。

多名用戶觀察到，GPT?5.2 展現出強大的長時推理和工具調用性能，且在智能體數據科學和文檔分析任務中表現出色。

除此之外，GPT?5.2 在智能體編碼方面達到了行業領先水平，并在交互式編程、代碼審查和缺陷定位等領域帶來了可量化的提升。

GPT?5.2 Instant、Thinking 和 Pro 將從今天開始陸續上線，API 現已向所有開發者開放。

模型性能

具備經濟效益

GPT?5.2 Thinking 非常適合真實場景與專業工作的模型。在 GDPval? 評測（覆蓋 44 個職業、用于衡量明確知識型工作任務的評估）中，GPT?5.2 Thinking 有 70.9% 的對比項目表現優于頂尖行業專業人士或與其持平。這些任務包括制作演示文稿、電子表格以及其他專業產出。

GPT?5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上，成本卻不到其 1%。這表明，在有人類監督的情況下，GPT?5.2 能有效輔助專業工作。

一位 GDPval 評委評價道：“布局設計頗為驚艷，對兩個交付物的建議也非常到位，只是其中一個仍有一些小錯誤需要修正。”

此外，在針對初級投資銀行分析師的內部電子表格建模任務的基準測試中（例如，為財富 500 強公司制作格式規范、引用完整的三表模型，或為私有化交易構建杠桿收購模型），GPT?5.2 Thinking 的平均任務得分較 GPT?5.1 提升了 9.3%，由 59.1% 增至 68.4%。

并排對比顯示，GPT?5.2 Thinking 生成的電子表格和幻燈片在復雜度與格式呈現上都有明顯提升。

編碼

GPT?5.2 Thinking 在 SWE-bench Pro 測試取得了 55.6% 的新成績。SWE-bench Pro 涵蓋四種語言，旨在更具抗污染性、更具挑戰性、更具多樣性，也更貼近真實工業場景。

在 SWEvbench Verified 測試中，GPT?5.2 Thinking 取得了我們全新的最高成績：80%。

這意味著該模型能夠更可靠地調試生產環境代碼、實現功能需求、重構大型代碼庫，并以更少的人工干預完成端到端的修復交付。

GPT?5.2 Thinking 在前端軟件工程方面也優于 GPT?5.1 Thinking。早期測試者發現，它在前端開發以及復雜或非傳統的 UI 工作上表現更強（尤其是涉及 3D 元素的場景）。

Windsurf 首席執行官 Jeff Wang 表示，“GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍，并且在同價位中是業界領先的編碼模型。”

減少幻覺

GPT?5.2 Thinking 的幻覺率低于 GPT?5.1 Thinking。在一組來自 ChatGPT、已去標識化的查詢中，含有錯誤的回答出現頻率相對減少了 38%。

長上下文

在深度文檔分析中，GPT?5.2 Thinking 的準確性顯著高于 GPT?5.1 Thinking，在 4-needle MRCR 評測變體（最長可達 256k Token）中實現接近 100% 的準確率。

工具調用

GPT?5.2 Thinking 在 Tau2 bench Telecom 測試中取得了 98.7% 的成績，展示了它在長程、多輪任務中可靠使用工具的能力。

在對延遲敏感的場景中，GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有顯著提升，性能大幅領先 GPT?5.1 和 GPT?4.1。

這意味著端到端的工作流程將更加穩健，例如處理客戶支持案例、從多個系統提取數據、執行分析以及生成最終結果，各步驟之間出現中斷的情況也會更少。

科學與數學

在 Google 問答基準測試 GPQA Diamond 中，GPT?5.2 Pro 取得了 93.2% 的成績，GPT?5.2 Thinking 緊隨其后，達到 92.4%。

在專家級數學評測 FrontierMath (Tier 1–3) 中，GPT?5.2 Thinking 解決了 40.3% 的問題。

AGI

在 ARC-AGI-1 (Verified) 這一用于衡量通用推理能力的基準測試中，GPT?5.2 成為首個突破 90% 閾值的模型，相較去年 o3?preview 的 87% 有明顯提升，同時將達到該性能的成本降低了約 390 倍。

在更高難度、更加側重流體推理能力的 ARC-AGI-2 (Verified) 中，GPT?5.2 Thinking 以 52.9% 的成績刷新了鏈式思維模型的最新紀錄；GPT?5.2 Pro 表現更進一步，達到 54.2%，進一步拓展了模型在處理全新抽象問題時的推理能力。

定價

GPT?5.2 的價格為每百萬輸入 Token 1.75 美元、每百萬輸出 Token 14 美元。

總體而言，GPT?5.2 在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升，使其在端到端執行復雜的真實任務時表現出色。

參考資料：

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞