在 a16z 節目的最新采訪中,OpenAI 首席科學家 Jakub Pachocki 與首席研究官 Mark Chen 共同分享了公司在人工智能前沿研究中的關鍵進展與未來規劃。
采訪時長不足一小時,但信息密度極高,涵蓋了從模型能力演進、評估體系挑戰,到研究文化與資源分配等多個核心議題。
亮點如下:
氛圍編碼的下一步或許是氛圍研究;
OpenAI 的終極目標是實現自動化研究員;
下一個里程碑將涉及實際的發現和在經濟相關事物上取得實際進展;
成功的秘訣在于保護基礎研究;
GPT-5 推動推理能力邁向主流
Mark Chen 首先指出,GPT-5 的核心目標是將系統化的推理能力引入主流應用場景。此前 OpenAI 已形成兩類模型路徑:GPT 系列側重即時響應,而 o 系列聚焦深度推理。未來公司希望用戶無需在模式間做選擇,而是默認享受更強的推理與 Agentic(自主行為)支持。
隨著模型能力快速提升,現有評估體系已趨于飽和。Jakub Pachocki 坦言,傳統基準測試難以準確衡量當前模型在專業領域的深度表現。他強調,下一階段的突破將更關注模型是否能在科學或經濟相關任務中實現“實際發現與進展”,而不僅是刷高指標分數。
長期目標:構建“自動化研究員”
在被問及“在GPT-5發布之前,哪種能力最讓你感到驚訝?”這個問題時,Mark Chen 提到模型已展現出推動前沿科學研究的能力,甚至可自動化完成以往需研究人員數月工作的復雜問題。他曾和一些物理學家、數學家朋友們共同體驗模型,大家發現模型能夠解答一些新的、非常復雜的問題。
Jakub 則以 o3 模型為例,指出其已在數學推理方面達到“相當可信”的水平。
OpenAI 的宏大愿景是打造能自動發現新想法的“自動化研究員”系統。現階段重點之一是延長模型進行持續推理與規劃的時間跨度——目前約為 1~5 小時。
Jakub 表示,公司將逐步推進,先實現內部研究流程的自動化,再拓展至外部科學領域。
接下來,OpenAI 會專注于延長模型長期規劃能力和保持記憶方面的時間跨度。
強化學習尚未達到瓶頸
盡管每次新模型發布后,外界常預測強化學習(RL)將觸及能力天花板,但事實上,RL 至今仍是推動 OpenAI 模型能力躍升的核心動力之一。針對“RL為何持續有效、哪些表現令人驚訝”等問題,首席科學家 Jakub Pachocki 給出了系統性解讀。
Jakub 將 RL 的成功歸納為以下原因:
方法本身的通用性:RL 建立在深度學習的通用基礎之上,本身是一種極為靈活和強大的學習范式。一旦系統運轉起來,團隊便能基于此探索大量新想法。
與現實環境的錨定:OpenAI 長期致力于將模型與真實世界中的“環境”進行對接,使學習過程具有明確的任務基礎和反饋來源。
與語言模型的深度融合:自然語言建模的突破是關鍵轉折。語言模型對語義的深度理解,為 RL 提供了更貼近人類認知的交互與推理界面。
Jakub 認為,過去幾年是 OpenAI 研究中“最令人興奮的時期”,因為眾多新方向均顯示出可行性與潛力。
獎勵模型將快速演進,當前階段遠非終局
在獎勵模型方面,他預測其發展會明顯加速,未來構建過程將像“幾年前優化微調數據集”一樣逐漸標準化。但他同時強調,RL 的整體演進遠未結束,目前技術仍在向更接近人類學習方式的方向發展,當前體系尚不完善。
Jakub 特別指出,理解 RL 必須具備動態視角——切忌將當前技術狀態視為終點。研究人員必須保持思維靈活,積極適應快速迭代的工具與方法論,這正是把握 RL 未來走向的關鍵。
從“氛圍編碼”到“氛圍研究”
針對本月發布的編程優化模型 GPT-5-codex,OpenAI 團隊分享了其背后的設計思路與行業觀察。首席研究官 Mark Chen 指出,團隊投入大量精力優化了模型的響應預設,以精準匹配程序員對問題解決時長的心理預期。他坦言,上一代模型的核心問題在于資源分配失衡:在最簡單問題上耗時過多,而用于攻克最難問題的時間卻嚴重不足。為客觀測試模型極限,參與編程競賽被視為一個理想的評估場域。
首席科學家 Jakub Pachocki 認同編程競賽的價值,認為其提供了一個封閉且嚴格的測試環境,能有效衡量模型在有限時間與約束下提出新解決方案的能力。他指出,OpenAI的首要任務正是推動技術跨越這一階段,使AI成為真正自然的編程伙伴。
Mark Chen 觀察到,AI 已從根本上改變了年輕一代對編程的認知:高中生們認為“憑感覺編碼”(Vibe Coding)已成為默認方式,而從頭手動編寫代碼反而顯得不同尋常。他預見,繼“氛圍編碼”之后,下一代范式或許是“氛圍研究”(Vibe Researching),即憑直覺引導的研究探索。
計算資源仍是關鍵投入
在團隊建設方面,二人強調更看重候選人解決問題的毅力與技術扎實度,而非社交媒體上的知名度。Jakub 指出,OpenAI 致力于保護基礎研究不受短期產品競爭干擾,為研究員提供思考長期問題的空間。
當被問及若有 10% 額外資源將投向何處,Mark Chen 毫不猶豫地選擇“計算資源”。Jakub 進一步指出,目前整個行業仍處于“強烈受計算限制”的階段,即便數據與人才重要,算力仍是實現突破的關鍵基礎。他預測,機器人技術將在不久的將來成為重點投入方向。
視頻地址:https://x.com/i/status/1971304302569546237