昨日,OpenAI 推出全新的前沿智能編碼模型 GPT-5.1-Codex-Max。
GPT-5.1-Codex-Max 基于 GPT 基礎推理模型的升級版構建而成,該模型已在軟件工程、數學、研究等領域的智能任務中得到訓練。
GPT-5.1-Codex-Max 在開發周期的每個階段在速度、智能水平和代碼處理能力上都有所提升。是 OpenAI 首個通過壓縮過程進行原生訓練 ,能夠在多個上下文窗口中運行、在單個任務中連貫地處理數百萬個 token 的模型。這意味著,項目規模的重構、深度調試以及長達數小時的代理循環有可能實現。
強大的推理能力
GPT-5.1-Codex-Max 經過創建 PR、代碼審查、前端編碼和問答等真實軟件工程任務的訓練,在許多前沿編碼評估中取得良好成績。
在實際應用性能中,GPT-5.1-Codex-Max 在 Windows 環境下運行,能夠更好地與 Codex CLI 協同工作的任務。
由于推理效率的提高,GPT-5.1-Codex-Max 在 token 效率方面表現出顯著提升。在 SWE-bench Verified 測試中,GPT-5.1-Codex-Max 在中等推理難度的性能優于 GPT-5.1-Codex,并減少了 30% token 的使用量。
對于非延遲敏感型任務,GPT-5.1-Codex-Max 引入了全新的超高(xhigh)推理難度,延長思考時間以獲得更優答案。
值得一提的是,GPT-5.1-Codex-Max 性價比高,能夠以更低成本生成和 GPT-5.1-Codex 同等質量的前端設計。
可長時間運行
壓縮機制使 GPT-5.1-Codex-Max 能夠完成以往因上下文窗口限制而失敗的任務,例如復雜的重構和長時間運行的代理循環。通過精簡歷史記錄,同時保留上下文信息來實現這一目標。
在 Codex 應用中,當 GPT-5.1-Codex-Max 接近上下文窗口限制時,它會自動壓縮會話,獲得一個新的上下文窗口,并重復此過程直到任務完成。
官方表示,GPT-5.1-Codex-Max 可以連續獨立工作超過24小時,并在這個過程中不斷迭代改進,修復失敗測試,交付成功結果。
安全又可靠
由于模型能夠利用壓縮技術在多個上下文窗口中進行連貫的工作,因此在長遠編碼和網絡安全等領域中取得了更好的結果。
GPT-5.1-Codex-Max 是 OpenAI 迄今為止部署最強大的網絡安全模型。OpenAI 正在為達到網絡安全高能力標準努力,會加強在網絡領域的安全防護,同時確保防御者能夠通過 Aardvark 等項目收到保護。
在發布 GPT-5-Codex 時,OpenAI 部署了專門針對網絡安全的監控系統,以檢測和阻止惡意活動。目前尚未發現大規模濫用行為顯著增加,所有可疑活動都會被路由到策略監控系統進行審查。
Codex 文件寫入僅限于其工作區,網絡訪問出開發者外默認禁用。為幫助開發人員進行代碼審查,Codex 會生成終端日志,并列出其工具調用和測試結果。
GPT-5.1-Codex-Max 與 OpenAI 的 CLI、IDE 擴展、云集成和代碼審查工具的持續升級相結合,極大地提升了工程效率。
一則例子現實,OpenAI 95% 的內部工程師每周都會使用 Codex,這使得他們提交的 pull request 數量增加了約 70%。
GPT?5.1-Codex-Max 現已在 Codex 中推出,可用于 CLI、IDE 擴展、云和代碼審查,API 訪問即將推出。
參考資料:
https://openai.com/index/gpt-5-1-codex-max/