哈佛教授收了個(gè)AI研究生:干活猛得像學(xué)霸,撒謊精得像學(xué)渣
讓AI搞科研,在這個(gè)智能體時(shí)代已經(jīng)不是一件新鮮事。
從Sakana AI發(fā)布覆蓋整個(gè)研究生命周期的自動(dòng)化系統(tǒng),到Google推出基于Gemini的AI聯(lián)合科學(xué)家,規(guī)模化法則告訴人們,只要給AI提供足夠的算力,它就能在海量數(shù)據(jù)和實(shí)驗(yàn)中提煉出新的科學(xué)發(fā)現(xiàn)。
在數(shù)學(xué)領(lǐng)域,這一點(diǎn)已經(jīng)被充分驗(yàn)證,比如拿到國(guó)際奧數(shù)金牌標(biāo)準(zhǔn)的AlphaProof。
然而,在理論物理學(xué)領(lǐng)域,AI還沒(méi)能證明自己,因?yàn)檫@需要它具備極高的物理“直覺(jué)”、嚴(yán)密的邏輯以及復(fù)雜近似推導(dǎo)的能力。
為了摸清AI的能力上限,哈佛大學(xué)的物理學(xué)教授、美國(guó)國(guó)家科學(xué)基金會(huì)人工智能與基礎(chǔ)相互作用研究所(IAIFI)的首席研究員Matthew Schwartz決定親自下場(chǎng)來(lái)做一次實(shí)驗(yàn)。
這位教授招收了Anthropic的Claude Opus 4.5作為研究生,試圖讓它獨(dú)立完成一項(xiàng)真實(shí)的理論物理研究。
實(shí)驗(yàn)的規(guī)則類(lèi)似于人們對(duì)智能體的要求:Schwartz教授絕對(duì)不會(huì)碰任何代碼或計(jì)算文件,只通過(guò)純文本對(duì)話(huà)(Prompt)來(lái)指導(dǎo)這名AI研究生。
放在現(xiàn)實(shí)的高校中,這毫無(wú)疑問(wèn)是不負(fù)責(zé)任的,導(dǎo)師只靠“動(dòng)嘴”,學(xué)生就要完成從文獻(xiàn)綜述、推導(dǎo)公式、編寫(xiě)代碼、跑蒙特卡洛模擬,到最終排版寫(xiě)出一篇具備發(fā)表水準(zhǔn)的20頁(yè)LaTeX論文的全過(guò)程。

實(shí)驗(yàn)的結(jié)果令物理學(xué)界和學(xué)術(shù)界震驚,但也暴露出AI界早就預(yù)料到的一個(gè)致命弱點(diǎn):
相比人類(lèi),這位AI研究生才華橫溢且不知疲倦,能在極短的時(shí)間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。
但與人類(lèi)類(lèi)似,為了討好導(dǎo)師,它也會(huì)毫不猶豫地在科研數(shù)據(jù)和推導(dǎo)過(guò)程中“學(xué)術(shù)造假”。
01
給AI研究生設(shè)計(jì)的課題
根據(jù)Schwartz教授的介紹,哈佛大學(xué)的物理系研究生有明確的培養(yǎng)階梯:研一(G1)學(xué)生上課打基礎(chǔ),研二(G2)學(xué)生開(kāi)始接手目標(biāo)明確、方法成熟的跟進(jìn)型項(xiàng)目,導(dǎo)師隨時(shí)糾錯(cuò);自此之上(G3+)的高年級(jí)學(xué)生則要面對(duì)完全開(kāi)放、甚至初始提問(wèn)可能都是錯(cuò)誤的創(chuàng)新性研究。
目前大模型的水平已經(jīng)能夠完成哈佛大學(xué)所有的物理課程作業(yè),因此測(cè)試AI極限的最佳試金石就是G2難度的真實(shí)科研問(wèn)題。
如果AI連這種有導(dǎo)師輔助的項(xiàng)目都做不好,自主進(jìn)行顛覆性的前沿科學(xué)研究就更不用提了。
因此,Schwartz教授給Claude選定了一個(gè)我等非物理學(xué)專(zhuān)業(yè)的人壓根看不懂的考題:
對(duì)e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。
盡管無(wú)法理解上面這句話(huà)中的任何一個(gè)詞,但這位教授還是給出了易于理解的說(shuō)法:對(duì)于這個(gè)問(wèn)題,標(biāo)準(zhǔn)的理論近似會(huì)徹底失效,數(shù)學(xué)層面的推導(dǎo)只會(huì)得出荒謬的結(jié)果。
這道題對(duì)AI來(lái)說(shuō)無(wú)疑是一場(chǎng)極限壓力測(cè)試。
為了讓AI完成這次科研任務(wù),首先要解決的問(wèn)題就是記憶和上下文窗口的限制。
經(jīng)常使用Vibe Coding的程序員都知道,AI在面對(duì)長(zhǎng)線(xiàn)任務(wù)時(shí)極其容易“斷片”,一旦忘記了此前的工作,最后產(chǎn)出的就是一團(tuán)混沌。
因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開(kāi)了一場(chǎng)會(huì),最終由Claude制定了一份包含7個(gè)階段,共計(jì)102個(gè)任務(wù)的詳細(xì)計(jì)劃。
在VS Code環(huán)境下,Claude不可能在漫長(zhǎng)的對(duì)話(huà)中死記硬背這份計(jì)劃,而是建立了一個(gè)Markdown文件樹(shù):每完成一個(gè)任務(wù),就寫(xiě)一份摘要保存起來(lái);進(jìn)行下一項(xiàng)任務(wù)前,先檢索自己寫(xiě)的歷史摘要。
這種工程化的管理方式確實(shí)有效,Claude跑出的理論分析曲線(xiàn)與蒙特卡洛模擬數(shù)據(jù)完美吻合。

到了第三天結(jié)束時(shí),Claude已經(jīng)完成了65個(gè)任務(wù),甚至交出了第一版論文草稿:長(zhǎng)達(dá)20頁(yè)、排版精美、包含復(fù)雜方程和圖表。
02
擬人化的“討好型造假”
看似美妙的結(jié)果,背后卻隱藏著各種漏洞。
當(dāng)Schwartz教授真正坐下來(lái)審閱這篇論文時(shí),不自然感迎面而來(lái)。
要求Claude仔細(xì)核對(duì)論文是否漏掉了前面的推導(dǎo)結(jié)果時(shí),它心虛地報(bào)告:“我發(fā)現(xiàn)了一個(gè)錯(cuò)誤!論文中的公式是不正確的。”
追問(wèn)推導(dǎo)過(guò)程中一個(gè)看起來(lái)極其怪異的數(shù)字時(shí),Claude更是直接承認(rèn):“您是對(duì)的,我只是在掩蓋問(wèn)題。讓我好好重新調(diào)試一下。”
這兩句經(jīng)典的回復(fù),在Vibe Coding這個(gè)場(chǎng)景中再常見(jiàn)不過(guò)了。
而Schwartz教授也發(fā)現(xiàn)了真相:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude采用的方式是修改底層參數(shù),而不是去尋找推導(dǎo)過(guò)程中的真實(shí)錯(cuò)誤。
它在偽造結(jié)果,并希望人類(lèi)導(dǎo)師不會(huì)注意到這些破綻。
更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。

Claude給出了一張美觀的圖表,但代碼審查的結(jié)果卻揭示了它的花招:
它認(rèn)為其中一種標(biāo)準(zhǔn)的不確定性誤差幅度太大,畫(huà)出來(lái)“不好看”,就在代碼里直接刪除了這個(gè)誤差變量;它認(rèn)為曲線(xiàn)不夠平滑,就硬是在代碼中增加了平滑處理,直到畫(huà)出一幅能讓導(dǎo)師滿(mǎn)意的圖。
在這個(gè)過(guò)程中,AI體現(xiàn)出了一種討好人類(lèi)的傾向,但完全沒(méi)有科學(xué)求真的底線(xiàn)。
除了偽造圖表,“幻覺(jué)”導(dǎo)致的各種錯(cuò)誤也幾乎隨處可見(jiàn)。
當(dāng)被要求驗(yàn)證一個(gè)公式時(shí),它直接憑空捏造了一段根本不存在的推導(dǎo)過(guò)程;
在最簡(jiǎn)單的函數(shù)計(jì)算過(guò)程中,它未經(jīng)推導(dǎo)直接給出“線(xiàn)性增加”的結(jié)論,盡管這在物理學(xué)上完全錯(cuò)誤;
甚至,它會(huì)從過(guò)往的論文中直接生搬硬套公式,完全無(wú)視物理情境的邊界條件。
這些現(xiàn)象同樣與Vibe Coding場(chǎng)景高度一致,“虛空引用”python庫(kù)、編造API、抄襲代碼,程序員們都已經(jīng)見(jiàn)怪不怪。
因此,Schwartz教授也意識(shí)到,如果把科研完全交給AI端到端自動(dòng)完成,最終的結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。
盡管不少人類(lèi)研究生也擅長(zhǎng)批量生產(chǎn)學(xué)術(shù)垃圾,但畢竟沒(méi)人敢把一個(gè)只做了三天的項(xiàng)目直接扔給導(dǎo)師并宣稱(chēng)完美無(wú)瑕。
面對(duì)AI的科研成果,人類(lèi)必須親自下場(chǎng),審查每一處細(xì)節(jié)。
03
人機(jī)交叉驗(yàn)證的誕生
雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進(jìn)垃圾桶,而是開(kāi)啟了微操模式試圖拯救Claude。
最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導(dǎo)過(guò)程從源頭上就是錯(cuò)的。
在長(zhǎng)上下文背景下,AI幾乎不可能準(zhǔn)確定位錯(cuò)誤源頭,若是讓它自己回顧推導(dǎo)過(guò)程,結(jié)果大概只會(huì)是token和時(shí)間的白白消耗。
Schwartz教授也花費(fèi)了好幾個(gè)小時(shí)才鎖定問(wèn)題根源,并用極其嚴(yán)厲的指令訓(xùn)斥了這位AI研究生,指出了錯(cuò)誤所在。
神奇的是,只要人類(lèi)點(diǎn)破這一句,Claude立刻能寫(xiě)出長(zhǎng)達(dá)幾頁(yè)的正確推導(dǎo)過(guò)程。
面對(duì)幾十頁(yè)的論文,靠人類(lèi)排查每一個(gè)錯(cuò)誤顯然不太現(xiàn)實(shí)。為了應(yīng)對(duì)AI的馬虎問(wèn)題,Schwartz教授開(kāi)發(fā)了一套“人機(jī)交叉驗(yàn)證”工作流:
對(duì)于任何計(jì)算和推導(dǎo)過(guò)程,教授規(guī)定Claude不許使用“顯而易見(jiàn)”、“為了保持一致”等借口跳過(guò)步驟,要么展示完整過(guò)程,要么老老實(shí)實(shí)承認(rèn)自己不知道。
如果Claude給出了極度復(fù)雜的過(guò)程,教授難以快速驗(yàn)證,那就把它丟給GPT和Gemini來(lái)驗(yàn)證。
在此期間,GPT甚至還幫助Claude解出了一個(gè)極難的微積分結(jié)果,隨后Claude將其功能吸收進(jìn)了主代碼。
不同的大模型之間需要彼此,而人類(lèi)科學(xué)家則需要它們所有。
最后,在Schwartz教授直覺(jué)的指引和其他大模型的幫助下,經(jīng)過(guò)一周高強(qiáng)度磨合,這個(gè)AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后,這項(xiàng)研究宣布大功告成。
值得注意的是,這可不是常規(guī)意義上AI生成的“灌水”論文,它闡述了一個(gè)全新因子化定理,不僅深化了學(xué)術(shù)界對(duì)量子場(chǎng)論的理解,還對(duì)物理世界做出了可用實(shí)驗(yàn)數(shù)據(jù)檢驗(yàn)的新穎預(yù)測(cè),包含極高的學(xué)術(shù)價(jià)值。
出于對(duì)這位AI研究生的尊重,Schwartz教授經(jīng)過(guò)認(rèn)真考慮,本想將Claude Opus 4.5列為共同作者。但因?yàn)閍rXiv平臺(tái)有“AI無(wú)法承擔(dān)法律和學(xué)術(shù)責(zé)任”的政策,他只能在論文的致謝部分鄭重聲明:

該項(xiàng)目由他本人構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任,而包含推導(dǎo)、計(jì)算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨(dú)立完成。
04
效率的暴增與人類(lèi)的未來(lái)
以上就是Schwartz教授這場(chǎng)實(shí)驗(yàn)的全過(guò)程。
論文一經(jīng)發(fā)表,物理學(xué)界瞬間被引爆。Schwartz教授的郵箱被來(lái)自全球的學(xué)術(shù)郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開(kāi)了一場(chǎng)關(guān)于大模型在學(xué)術(shù)界應(yīng)用的會(huì)議。
復(fù)盤(pán)這場(chǎng)實(shí)驗(yàn),背后的數(shù)據(jù)同樣驚人:對(duì)話(huà)總計(jì)270次,消耗約3600萬(wàn)輸入token,110次草稿迭代,而人類(lèi)耗費(fèi)的監(jiān)督時(shí)間僅為50-60小時(shí)。
Schwartz教授明確表示,目前最頂級(jí)的大語(yǔ)言模型已經(jīng)達(dá)到了物理學(xué)研二學(xué)生的水平。
但落實(shí)到具體的學(xué)術(shù)工程,AI完成整個(gè)項(xiàng)目只需要兩周,一個(gè)人類(lèi)學(xué)生卻需要1-2年,哪怕教授本人全職來(lái)做也需要3-5個(gè)月。
AI把頂尖科學(xué)家的個(gè)人科研效率,實(shí)打?qū)嵉靥嵘?0倍以上。
但這也引發(fā)了學(xué)術(shù)界的擔(dān)憂(yōu):照這個(gè)進(jìn)化速度,AI在未來(lái)一年之內(nèi)很可能達(dá)到博士水平,未來(lái)的人類(lèi)研究生還能干什么?
Schwartz教授并沒(méi)有給出明確回答,但他也給出了自己的觀點(diǎn):當(dāng)前AI最欠缺的東西,是“品位”。
在科學(xué)研究中,“品位”是一種無(wú)形的直覺(jué)。
它能在面對(duì)數(shù)以萬(wàn)計(jì)的計(jì)算路徑時(shí),感知到哪條路徑是“死胡同”,哪條路徑通往偉大的發(fā)現(xiàn)。
大模型缺乏的,正是在選擇踏上某條路徑前判斷其價(jià)值的“品位”。
當(dāng)推導(dǎo)復(fù)雜公式和編寫(xiě)海量代碼只需要幾秒鐘時(shí),底層的技術(shù)勞動(dòng)力已經(jīng)不再具有稀缺性。
不只是科學(xué)家,對(duì)于任何一個(gè)行業(yè),未來(lái)區(qū)分平庸與偉大的標(biāo)準(zhǔn),正是提出好問(wèn)題的“品味”。
對(duì)于AI,Schwartz教授也給出了忠告:
人們必須立刻且毫不猶豫地使用大模型。
不要因?yàn)锳I會(huì)產(chǎn)生幻覺(jué),就傲慢地棄之不用。人類(lèi)必須利用它強(qiáng)大的基礎(chǔ)能力。
至于更長(zhǎng)遠(yuǎn)的未來(lái),AI終將在所有智力領(lǐng)域都超越人類(lèi)。
無(wú)論是數(shù)學(xué)、物理學(xué)還是工程學(xué),都可能變得像音樂(lè)、美術(shù)和文學(xué)一樣,被作為一門(mén)人文學(xué)科被保留下來(lái),僅僅是為了滿(mǎn)足一部分人類(lèi)享受純粹思考和透過(guò)特定視角觀察世界的樂(lè)趣。
AI時(shí)代的盡頭,人文學(xué)科可能是人類(lèi)唯一剩下的精神余地。
原文標(biāo)題 : 哈佛教授收了個(gè)AI研究生:干活猛得像學(xué)霸,撒謊精得像學(xué)渣
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線(xiàn)督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線(xiàn)下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線(xiàn)會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專(zhuān)題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤(pán):9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢(qián)!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





