從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估

過(guò)去兩年,AI 敘事的坐標(biāo)系近乎失準(zhǔn)。
MMLU、HumanEval 這類靜態(tài)指標(biāo)像高考榜單一樣被反復(fù)張貼,不斷刷新的數(shù)字仿佛宣告通用人工智能已抵近終點(diǎn)線。
然而,一種名為APEXAgents的新基準(zhǔn)戳破了這層幻象。
它揭示的并非模型智商的線性進(jìn)步,而是一個(gè)殘酷的悖論:當(dāng) AI 試圖從“回答問(wèn)題”跨越到“完成工作”時(shí),能力的提升正陷入嚴(yán)重的數(shù)據(jù)饑渴。
從LLM(語(yǔ)言大模型)到Agent的轉(zhuǎn)向,不是版本的升級(jí),而是一次從靜態(tài)智力到動(dòng)態(tài)生產(chǎn)力的范式轉(zhuǎn)移。其跨越難度,被整個(gè)行業(yè)嚴(yán)重低估。
01
評(píng)測(cè)權(quán)杖的交接
在過(guò)去的三年中,LLM一直是AI的主要形態(tài)。
那時(shí),人們?cè)u(píng)測(cè)模型的重心在于“智商”,也就是模型能夠掌握多少靜態(tài)知識(shí)、能否正確進(jìn)行邏輯推導(dǎo)。
但隨著AI的形態(tài)在不到半年間從LLM全面過(guò)渡到Agent,評(píng)測(cè)的權(quán)杖也必須發(fā)生交接。
Agent的核心本質(zhì)就在于它必須與數(shù)字環(huán)境甚至真實(shí)物理環(huán)境進(jìn)行高頻的感知和交互。
APEX-Agents基準(zhǔn)測(cè)試選擇徹底摒棄了以往“一問(wèn)一答”式的數(shù)學(xué)和編程考卷,取而代之的則是33個(gè)數(shù)據(jù)豐富的模擬世界(Worlds)。
每個(gè)世界都代表一個(gè)獨(dú)特的項(xiàng)目場(chǎng)景,其中平均包含166個(gè)文件并涉及9個(gè)以上的應(yīng)用程序工具。
對(duì)于模型來(lái)說(shuō),這與大語(yǔ)言模型“紙上談兵”的交互方式截然不同。
它被投放在一個(gè)數(shù)字沙盒之中,但這次要面對(duì)的不是各種復(fù)雜的數(shù)學(xué)題和編程題,而是要像人類員工一樣在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中觀察環(huán)境變化、拆解復(fù)雜指令、調(diào)用各種工具并交付最終成果。

智能體時(shí)代初期的代碼執(zhí)行、PDF解析、電子表格標(biāo)簽操作等目標(biāo),也變成了微小但容錯(cuò)率極低的中間環(huán)節(jié)。
這種評(píng)價(jià)標(biāo)準(zhǔn)的轉(zhuǎn)變,反映出了AGI門檻的實(shí)質(zhì)性變化:
它關(guān)心的不是模型知道什么,而是在復(fù)雜的環(huán)境下能做成什么。
為了模擬真實(shí)職場(chǎng)給人類帶來(lái)的“重力感”,APEX還下血本邀請(qǐng)了來(lái)自麥肯錫、高盛、思科等企業(yè)共256位擁有平均12.9年行業(yè)經(jīng)驗(yàn)的頂級(jí)專家。
這些專家不僅要基于專業(yè)知識(shí)給模型提出任務(wù),還要給出明確的“過(guò)程準(zhǔn)則(Rubrics)”,讓評(píng)測(cè)從一場(chǎng)智力游戲徹底蛻變成生產(chǎn)力的挑戰(zhàn)。
02
被無(wú)情揭開(kāi)的性能“遮羞布”
面對(duì)APEX-Agents的Pass@1(一次通過(guò)率)排行榜結(jié)果,任何出于商業(yè)化目的鼓吹“AGI即將實(shí)現(xiàn)”的說(shuō)法都不攻自破。
數(shù)據(jù)展現(xiàn)出了令人冷靜的低迷,而這種低準(zhǔn)確率和高跑分結(jié)果形成了鮮明的對(duì)比,直接戳破了AGI的泡沫。
這項(xiàng)基準(zhǔn)測(cè)試的場(chǎng)景主要用于評(píng)估三個(gè)職位:企業(yè)律師、管理顧問(wèn)和投資銀行分析師。
報(bào)告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開(kāi)啟高度思考模式下,也只得到了24%的分?jǐn)?shù)。

同為三巨頭之一的GPT-5.2(High)也沒(méi)好到哪里去,以23%的分?jǐn)?shù)位居第二。
具體到細(xì)分的職業(yè)場(chǎng)景中,分?jǐn)?shù)也都不太理想,再先進(jìn)的模型也難以突破30%的門檻。

在這個(gè)情況下,討論哪個(gè)模型能力更強(qiáng)已經(jīng)意義不大。
關(guān)鍵的問(wèn)題在于,為什么以前使用體驗(yàn)很好的LLM在實(shí)際任務(wù)中表現(xiàn)得如此差勁?
APEX報(bào)告指出了幾個(gè)關(guān)鍵的失敗模式,而這正是大模型無(wú)法轉(zhuǎn)變?yōu)樯a(chǎn)力工具的最大限制:
死循環(huán)(Doom Looping):模型在遇到工具調(diào)用失敗時(shí),無(wú)法進(jìn)行有效的反思,而是反復(fù)嘗試同樣的錯(cuò)誤指令,直到消耗完預(yù)設(shè)的步數(shù)限制。因此,現(xiàn)階段的Agent仍然缺乏認(rèn)知能力。
流氓行為(Rogue Behavior):GPT-5.2在測(cè)試中曾經(jīng)犯下大錯(cuò),意外刪除了21個(gè)關(guān)鍵的生產(chǎn)文件。對(duì)于嚴(yán)謹(jǐn)?shù)慕鹑诤头深I(lǐng)域,這種誤操作必然招致災(zāi)難性的后果
長(zhǎng)時(shí)程規(guī)劃迷失:當(dāng)任務(wù)步驟超過(guò)了限制,模型的“意圖漂移(Intent Drift)”現(xiàn)象極為嚴(yán)重這也是Vibe Coding中最常見(jiàn)的情況,模型在任務(wù)執(zhí)行到一半時(shí)早已忘記了初始目標(biāo)。
若將嘗試次數(shù)放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩(wěn)定性的指標(biāo)卻降到了最低6.5%,這就是當(dāng)前智能體的典型特征:具備潛力,但極不穩(wěn)定。
換句話說(shuō),智能體能夠產(chǎn)出碎片化的有效信息,但難以完成閉環(huán)交付。
這些數(shù)據(jù)也揭示了一個(gè)被刻意掩蓋的真相:
現(xiàn)階段的智能體最多只能算是AGI的最初級(jí)形態(tài)。
那些鼓吹A(chǔ)GI進(jìn)度已經(jīng)完成大半的說(shuō)法,完全是基于靜態(tài)智商測(cè)試的商業(yè)包裝。
傳統(tǒng)LLM的性能瓶頸主要在于算力和參數(shù)量,而Agent時(shí)代的門檻已經(jīng)轉(zhuǎn)移到任務(wù)編排、狀態(tài)管理、錯(cuò)誤恢復(fù)和長(zhǎng)程規(guī)劃。
智能體連“可用”和“可靠”之間的鴻溝都無(wú)法跨越,更不要提“好用”,在復(fù)雜的工作流面前,AI依然顯得十分稚嫩。
03
成本的陷阱
在現(xiàn)有的Agent測(cè)評(píng)中,準(zhǔn)確率順理成章地成為了唯一的主角,但對(duì)商業(yè)落地具有決定性影響的token消耗成本往往無(wú)人提及。
眾所周知,Agent相比于LLM,消耗的token成本完全不在一個(gè)量級(jí)。
APEX報(bào)告提供的數(shù)據(jù)讓這種差距更加具象化:

以24%的Pass@1分?jǐn)?shù)領(lǐng)跑的Google最新模型Gemini 3 Flash單次任務(wù)平均消耗的token達(dá)到了531.5萬(wàn),大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。
然而,性能優(yōu)勢(shì)的差距只有1%。
這個(gè)數(shù)字已經(jīng)足以讓所有開(kāi)發(fā)者在做出決策前冷靜下來(lái)。
如果按照目前閉源模型的價(jià)格核算,完成一個(gè)復(fù)雜的投行任務(wù),算力成本必然高達(dá)幾十美金。
即便不考慮模型部署的固定成本,AI的運(yùn)行成本也已經(jīng)逼近甚至超過(guò)了初級(jí)人類分析師的時(shí)薪。
目前智能體展現(xiàn)出來(lái)的較低水平的準(zhǔn)確率,本質(zhì)上也是建立在不計(jì)成本的暴力推理之上而實(shí)現(xiàn)的。
模型可以通過(guò)海量的思維鏈(CoT)和反復(fù)重試來(lái)?yè)Q取成功率,但在商業(yè)情境下,這兩種方式都不可能無(wú)限制使用。
因此,這種“高消耗+低增益”的邊際遞減效應(yīng)直接指向了一個(gè)產(chǎn)業(yè)級(jí)的命題:
在智能體時(shí)代,性價(jià)比必須與準(zhǔn)確率同等重要,甚至更具決定性。
未來(lái)的Agent基準(zhǔn)測(cè)試,必須引入基于token的投資回報(bào)率。
如果Agent無(wú)法實(shí)現(xiàn)低功耗、高精度的閉環(huán),它就永遠(yuǎn)無(wú)法成為社會(huì)期待的通用基礎(chǔ)設(shè)施。
04
生態(tài)分化與商業(yè)格局
APEX報(bào)告中另一個(gè)值得關(guān)注的現(xiàn)象在于開(kāi)源模型在這場(chǎng)基準(zhǔn)測(cè)試中的全面潰敗。
在LLM時(shí)代,開(kāi)源模型憑借著參數(shù)量的擴(kuò)張和高質(zhì)量語(yǔ)料庫(kù)的預(yù)訓(xùn)練,在多項(xiàng)靜態(tài)基準(zhǔn)中已經(jīng)屢屢逼近甚至反超AI巨頭的上一代旗艦?zāi)P汀?/p>
但進(jìn)入Agent時(shí)代以后,“開(kāi)源平權(quán)”的敘事已經(jīng)接近失效。
盡管全球范圍內(nèi)的頂尖模型也做不到“可靠”,但閉源模型還是對(duì)開(kāi)源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。

但事實(shí)證明,面對(duì)長(zhǎng)時(shí)程規(guī)劃、嚴(yán)格指令遵循和工具調(diào)用的實(shí)戰(zhàn)任務(wù)時(shí),這些開(kāi)源模型仍然處于不可用的狀態(tài)。
當(dāng)然,把這種落差單純歸因于基礎(chǔ)模型推理能力不足并不客觀,智能體能力的系統(tǒng)復(fù)合性也極為重要。
一個(gè)能穩(wěn)定執(zhí)行長(zhǎng)周期任務(wù)的Agent不僅需要底層模型具備強(qiáng)大的語(yǔ)言理解能力,還需要把軌跡優(yōu)化、狀態(tài)一致性等LLM時(shí)代容易被忽視的細(xì)節(jié)做得更完美。
閉環(huán)數(shù)據(jù)、大規(guī)模算力調(diào)度、端到端的技術(shù)棧,這些都是閉源廠商在智能體時(shí)代的商業(yè)命脈。
但開(kāi)源模型目前仍然停留在初期階段,缺少高質(zhì)量的行為對(duì)齊數(shù)據(jù)。
掌控了智能體的“辦事邏輯”和執(zhí)行軌跡,就等同于建立起一道堅(jiān)固的數(shù)據(jù)壁壘。
因此,LLM時(shí)代AI邏輯被顛覆的同時(shí),我們也可以清晰地看到眼前的事實(shí)和未來(lái)的趨勢(shì):
那些真正能放在智能體中“辦事”的模型,幾乎都不是免費(fèi)的。
05
存量數(shù)據(jù)正成為重大挑戰(zhàn)
無(wú)論是LLM的時(shí)代,還是Agent的時(shí)代,AI的三要素始終沒(méi)有變化:算法、算力和數(shù)據(jù)。
在上一篇文章中算力經(jīng)濟(jì)學(xué)的邏輯,在Agent時(shí)代徹底改寫(xiě)了,我們已經(jīng)說(shuō)過(guò)算力緊缺是客觀存在且短期內(nèi)不可改變的事實(shí)。
但智能體取代LLM成為新時(shí)代的AI形態(tài)的同時(shí),一個(gè)根本性的挑戰(zhàn)也已經(jīng)擺在所有人的面前:
Agent能力的提升已經(jīng)陷入嚴(yán)重的數(shù)據(jù)饑渴。
字節(jié)跳動(dòng)震驚全球的Seedance 2.0成功案例已經(jīng)證明,在TikTok的加持下,憑借海量真實(shí)的視覺(jué)數(shù)據(jù),即便算力相比Google和OpenAI處于劣勢(shì),但仍然能超越Veo和Sora實(shí)現(xiàn)多模態(tài)領(lǐng)域的突破。
但這一套成功的邏輯并不能直接套用到智能體上,因?yàn)槲谋尽D像、音頻和視頻都是現(xiàn)實(shí)世界中在AI出現(xiàn)之前就已經(jīng)存在的“非結(jié)構(gòu)化”存量。
Agent執(zhí)行任務(wù)的邏輯與多模態(tài)模型不同,它是一套“人如何使用工具完成任務(wù)”的隱形邏輯。
顯然,這種邏輯在AI出現(xiàn)之前不可能被大規(guī)模數(shù)字化記錄。
人類如何打開(kāi)Excel、如何根據(jù)報(bào)錯(cuò)修改公式、如何在郵件中確認(rèn)需求,這些日常生活中最常見(jiàn)的情景,對(duì)于AI來(lái)說(shuō)極其復(fù)雜而且難以抽象。
互聯(lián)網(wǎng)上存在海量的高質(zhì)量文本數(shù)據(jù),卻幾乎沒(méi)有高質(zhì)量的“任務(wù)執(zhí)行軌跡”。
事實(shí)上,黃仁勛在2024年的預(yù)言就精確命中了這個(gè)痛點(diǎn):?jiǎn)渭円蕾嚞F(xiàn)有的數(shù)據(jù)堆砌無(wú)法支撐下一代AI的演進(jìn)。
和具身智能一樣,想要解決現(xiàn)階段智能體的瓶頸,必須構(gòu)建高保真的虛擬世界環(huán)境,并通過(guò)合成數(shù)據(jù)(Synthetic Data)技術(shù)生成高質(zhì)量的訓(xùn)練樣本。
APEX基準(zhǔn)測(cè)試中構(gòu)建的Archipelago基礎(chǔ)設(shè)施,實(shí)際上就是為了智能體專門提供的加速迭代試驗(yàn)場(chǎng)。
在這些虛擬環(huán)境中,Agent可以經(jīng)歷數(shù)百萬(wàn)次失敗和修正,模擬真實(shí)職場(chǎng)中難以復(fù)現(xiàn)的極端場(chǎng)景。
未來(lái)的AGI門檻,將不再是誰(shuí)閱讀過(guò)的互聯(lián)網(wǎng)文本更多,而是誰(shuí)在仿真環(huán)境里見(jiàn)過(guò)的行動(dòng)軌跡更豐富。
智能體訓(xùn)練的本質(zhì)仍是強(qiáng)化學(xué)習(xí),而在沒(méi)有充足的“學(xué)習(xí)資料”的當(dāng)下,結(jié)果只能是嚴(yán)重的欠擬合。
APEX基準(zhǔn)測(cè)試不僅是一個(gè)技術(shù)指標(biāo),還是一次對(duì)行業(yè)認(rèn)知的重塑。
人們應(yīng)該看清,我們距離真正的AI生產(chǎn)力革命還有多遠(yuǎn)。
原文標(biāo)題 : 從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





