終極“打工人”誕生:OpenAI發布ChatGPT Agent,重新定義生產力邊界

當Agent能夠完成復雜任務,我們需要學習如何與這個星球上最聰明的“打工人”共事。
作者 | 小葳
AI Agent的時代,比所有人預想的,來得更早、更猛烈。
北京時間7月18日凌晨,科技圈再次被OpenAI投下的一枚重磅炸彈引爆。沒有冗長的預熱,沒有華麗的舞臺,Sam Altman和他的團隊通過一場25分鐘的發布會直播,推出ChatGPT Agent。
這不再是我們熟悉的那個“聊天機器人”,它是一個擁有了自己的虛擬電腦、能夠自主思考、規劃并執行復雜任務的“行動者”。
當看到ChatGPT Agent熟練地打開瀏覽器、分析網頁、調用API、生成PPT、制作表格時,Sam Altman在直播中坦言:“對我來說,在觀看它工作時,這是最讓我感受到AGI的時刻之一。”
看完發布會,令人印象深刻的有三個方面:
第一, 面對多目標的復雜任務,ChatGPT Agent雖然耗時長一些,但完成度很高;
第二, ChatGPT Agent可以隨時被打斷,人類用戶可以隨時補充信息和指導,或增加新任務,人機協作的體驗更加凸顯;
第三,Agent通過自己專屬的虛擬計算機完成所有任務,并將執行任務過程可視化實時展現,用戶可以回放視頻查看Agent每一步動作。
從“能聊”到“能干”:
統一智能體,OpenAI的必然一步
ChatGPT Agent的誕生并非憑空而來,它是OpenAI在智能體(Agent)道路上不斷積累的必然結果。今年早些時候,OpenAI陸續推出了兩個重磅工具:Deep Research和 Operator。
然而,這兩個工具如同兩個“偏科生”。Deep Research擅長長文閱讀,卻無法與需要登錄、交互的網頁打交道;Operator擅長處理交互式與可視化的網頁,卻在深度分析和長文閱讀方面力不從心。而許多真實世界的復雜任務,恰恰需要二者能力的結合。
正如Sam Altman在發布會上所說:“人們想要一個統一的智能體,它能自主運行,使用它自己的電腦,幫助人們完成真正復雜的任務。它能夠無縫地切換,從思考到采取行動。它能使用各種工具,比如調用終端、在網頁上點擊操作,甚至能生成電子表格、幻燈片等文件,以及具備更多功能。”
ChatGPT Agent正是兩者“強強聯合”的實現,它融合了Deep Research的分析能力和Operator的執行能力,相當于賦予了Agent“大腦”和“雙手”。

真正完成復雜任務:
自主選擇工具,可視化執行過程
發布會上演示的第一個demo是一個多目標的復雜任務,用戶9月份要出席朋友婚禮,需要準備服裝、禮物、預訂酒店等一攬子事情,用戶把這些需求一股腦拋給Agent:
- 一套與所有場合的著裝要求相匹配的服裝(男士)。
- 提出五個服裝選項。選擇一些輕奢檔次的服裝,并應與場地和天氣相配
- 找到那些兩端都有幾天緩沖期的酒店。
- 使用Booking進行預訂,并務必檢查可用性和當前價格。
- 同樣別忘了為新人挑選一件禮物,價格最好在500美元以內。
Agent確認關鍵需求后就開始工作。整個任務完成花費了20分鐘左右,在發布會最后,提供了完善的方案。5件服裝備選直接提供了價格對比和購買鏈接。
當用戶提出新增要求,安排一個包括美國職業棒球聯盟(MLB)所有運動球場參觀的旅行計劃時,Agent直接給出精確到天的Excel行程表格。
Agent所有動作都是通過專屬虛擬電腦完成,這臺電腦上安裝了很多不同的工具,Agent能自行選擇如何使用。
同時,Agent將它執行任務的全過程展示為一個可視化的電腦屏幕,并在不斷變化的對話框中顯示文本形式的思維鏈過程,也就是Agent在想什么,它決定下一步做什么。

揭秘Agent的工作臺:
一臺虛擬電腦和它的工具集
要理解ChatGPT Agent的強大,首先要看它的“工作臺”——一臺專屬的虛擬電腦。在這個工作臺上,集成了一些強大的工具:
文本瀏覽器 (Text Browser):和Deep Research工具類似,它能快速抓取和解析大量網頁的文本內容,進行高效的搜索和信息提煉,這讓它能夠非常高效快速閱讀大量網頁并進行搜索,是Agent高效處理信息的“利器”。
可視化瀏覽器 (Visual Browser):和operator工具類似,這是Agent的“眼睛”和“手”。讓Agent能像人一樣“看”到網頁的圖形界面,進行點擊、
滾動、拖拽、填寫表單等操作,輕松應對為人類設計的復雜交互界面。

終端 (Terminal)和API,通過與終端的連接,Agent可以運行代碼、進行復雜的數據分析、處理文件,甚至直接生成可編輯的PowerPoint演示文稿和Excel電子表格。發布會演示中,Agent自行編寫代碼編譯幻燈片,并調用圖像API美化頁面的場景,令人印象深刻。

通過API,Agent能夠調用外部服務。包括公共API,以及用于訪問你私有數據源的API,比如谷歌云端硬盤,谷歌日歷,github,sharepoint等等。
擁有工具是一回事,懂得何時使用何種工具,則是更高維度的智能。OpenAI通過強化學習(Reinforcement Learning)的訓練方式,學會在面對復雜任務時,自主規劃并智能地選擇最優工具組合。
比如,當被要求預訂餐廳時,Agent可能會先用文本瀏覽器進行海量篩選,然后切換到可視化瀏覽器查看菜品圖片,最后確認空位并完成預訂。
從“指令-響應”到“委托-協作”:
人機協作的全新體驗
如果說完成復雜任務是ChatGPT Agent的“硬實力”,那么其高度協作的交互模式則是它的“軟實力”,也是它與其他AI工具顯著區別。
過去,我們與AI的交互是僵硬的。一旦任務下達,我們能做的只有等待。而ChatGPT Agent被設計成一個真正的“協作伙伴”。
用戶和智能體隨時都能夠主動與對方溝通,是ChatGPT Agent重要的交互理念。在ChatGPT Agent執行任務的任何時刻,用戶都可以隨時“插話”:
“Agent模型的一個關鍵能力是能夠被隨時打斷,就像是在進行多輪對話。用戶可以插話,引導它。”ChatGPT Agent研發人員表示。
用戶可以中途補充新的要求(哦對了,再幫我找一雙9.5碼的黑皮鞋),可以糾正它的方向,甚至可以完全改變任務(我忘了提這件事,或者你的進度如何?做得怎么樣了?)。Agent會理解新的指令,并在不丟失已有進度的前提下,繼續工作。
同時,Agent也會主動溝通。在信息不足時,它會提出澄清性問題讓用戶確認;在執行關鍵操作(如發送郵件、下單支付)前,Agent會主動尋求用戶的最終確認。這種雙向溝通機制,確保了任務始終在用戶的掌控之中。
更重要的是,用戶擁有最終的“接管權”。如果對Agent的操作不滿意,可以隨時暫停,直接進入它的虛擬環境,自己動手修改。這極大增強了用戶的安全感和控制感,使得人與AI之間建立起一種前所未有的信任關系。
碾壓級跑分:
當Agent的能力被量化
為了證明ChatGPT Agent并非華而不實的“花架子”,OpenAI公布了一系列基準測試成績。這些數據,將其強大的能力清晰地量化了出來。
在被譽為“人類最后考試”的HLE (Humanity’s Last Exam)基準上,該測試旨在衡量AI在各學科專家級問題上的表現,ChatGPT Agent取得了41.6%的分數,幾乎是此前o3和o4-mini模型的兩倍。
前沿數學基準FrontierMath上,Agent在工具的輔助下,達到了27.4%的準確率,顯著優于o3和o4-mini。

在衡量網頁瀏覽和信息定位能力的BrowseComp和WebArena測試中,Agent同樣表現優異。

在與辦公場景息息相關的SpreadsheetBench(電子表格編輯能力測試)中,Agent的得分高達45.5%

這些數字背后,反映出一個清晰的信號:ChatGPT Agent在通用推理、專業知識、工具使用和任務執行等多個維度上,已經達到了一個全新的高度。它不再是一個只能在特定領域展現才華的工具,而是一個具備廣泛能力的“通才”。
“前沿與實驗性”:
奧特曼的謹慎與Agent的風險預警
在展示強大能力的同時,Sam Altman也反復強調了這款產品的“前沿和實驗性”,并坦誠地揭示了其潛在的風險。這體現了OpenAI在推動技術邊界時的審慎態度。
研發團隊稱,目前最大的擔憂之一,是被稱為“提示詞注入”(Prompt Injection)的新型攻擊。
當Agent訪問惡意網站時,網站上的隱藏指令可能會“誘騙”它執行不當操作,比如泄露用戶的敏感信息。
對此,OpenAI構建了多層防御體系,包括訓練模型忽略可疑指令、部署實時監控系統來終止惡意行為等。但OpenAI也承認,他們無法阻止所有攻擊。
隨著AI能力的指數級增長,如何為其劃定安全的倫理和技術邊界,已成為整個行業面臨的共同挑戰。
因此,OpenAI給用戶的建議是:充分意識到使用智能體所面臨的風險,不隨意向智能體透露個人敏感信息。
結語
ChatGPT Agent今天所展示的,還只是一個開始。
Agent不可避免會犯錯,有時完成任務可能比人類手動操作更耗時。但它指明的方向,是清晰且不可逆轉的。
我們正在從一個需要自己親手操作每一個軟件、點擊每一個按鈕的時代,邁向一個只需提出目標,便有智能體為你調度一切資源的時代。
而我們,需要學習如何與這個星球上最聰明的“打工人”共事。
原文標題 : 終極“打工人”誕生:OpenAI發布ChatGPT Agent,重新定義生產力邊界
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













