目标管理,中文字幕国产精品资源,提供2022小说排行榜前十名,《邻居的妻子》电视剧

哈佛教授收了個(gè)AI研究生：干活猛得像學(xué)霸，撒謊精得像學(xué)渣

2026-03-25 14:22

讓AI搞科研，在這個(gè)智能體時(shí)代已經(jīng)不是一件新鮮事。

從Sakana AI發(fā)布覆蓋整個(gè)研究生命周期的自動(dòng)化系統(tǒng)，到Google推出基于Gemini的AI聯(lián)合科學(xué)家，規(guī)模化法則告訴人們，只要給AI提供足夠的算力，它就能在海量數(shù)據(jù)和實(shí)驗(yàn)中提煉出新的科學(xué)發(fā)現(xiàn)。

在數(shù)學(xué)領(lǐng)域，這一點(diǎn)已經(jīng)被充分驗(yàn)證，比如拿到國(guó)際奧數(shù)金牌標(biāo)準(zhǔn)的AlphaProof。

然而，在理論物理學(xué)領(lǐng)域，AI還沒(méi)能證明自己，因?yàn)檫@需要它具備極高的物理“直覺(jué)”、嚴(yán)密的邏輯以及復(fù)雜近似推導(dǎo)的能力。

為了摸清AI的能力上限，哈佛大學(xué)的物理學(xué)教授、美國(guó)國(guó)家科學(xué)基金會(huì)人工智能與基礎(chǔ)相互作用研究所（IAIFI）的首席研究員Matthew Schwartz決定親自下場(chǎng)來(lái)做一次實(shí)驗(yàn)。

這位教授招收了Anthropic的Claude Opus 4.5作為研究生，試圖讓它獨(dú)立完成一項(xiàng)真實(shí)的理論物理研究。

實(shí)驗(yàn)的規(guī)則類(lèi)似于人們對(duì)智能體的要求：Schwartz教授絕對(duì)不會(huì)碰任何代碼或計(jì)算文件，只通過(guò)純文本對(duì)話(huà)（Prompt）來(lái)指導(dǎo)這名AI研究生。

放在現(xiàn)實(shí)的高校中，這毫無(wú)疑問(wèn)是不負(fù)責(zé)任的，導(dǎo)師只靠“動(dòng)嘴”，學(xué)生就要完成從文獻(xiàn)綜述、推導(dǎo)公式、編寫(xiě)代碼、跑蒙特卡洛模擬，到最終排版寫(xiě)出一篇具備發(fā)表水準(zhǔn)的20頁(yè)LaTeX論文的全過(guò)程。

實(shí)驗(yàn)的結(jié)果令物理學(xué)界和學(xué)術(shù)界震驚，但也暴露出AI界早就預(yù)料到的一個(gè)致命弱點(diǎn)：

相比人類(lèi)，這位AI研究生才華橫溢且不知疲倦，能在極短的時(shí)間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。

但與人類(lèi)類(lèi)似，為了討好導(dǎo)師，它也會(huì)毫不猶豫地在科研數(shù)據(jù)和推導(dǎo)過(guò)程中“學(xué)術(shù)造假”。

給AI研究生設(shè)計(jì)的課題

根據(jù)Schwartz教授的介紹，哈佛大學(xué)的物理系研究生有明確的培養(yǎng)階梯：研一（G1）學(xué)生上課打基礎(chǔ)，研二（G2）學(xué)生開(kāi)始接手目標(biāo)明確、方法成熟的跟進(jìn)型項(xiàng)目，導(dǎo)師隨時(shí)糾錯(cuò)；自此之上（G3+）的高年級(jí)學(xué)生則要面對(duì)完全開(kāi)放、甚至初始提問(wèn)可能都是錯(cuò)誤的創(chuàng)新性研究。

目前大模型的水平已經(jīng)能夠完成哈佛大學(xué)所有的物理課程作業(yè)，因此測(cè)試AI極限的最佳試金石就是G2難度的真實(shí)科研問(wèn)題。

如果AI連這種有導(dǎo)師輔助的項(xiàng)目都做不好，自主進(jìn)行顛覆性的前沿科學(xué)研究就更不用提了。

因此，Schwartz教授給Claude選定了一個(gè)我等非物理學(xué)專(zhuān)業(yè)的人壓根看不懂的考題：

對(duì)e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。

盡管無(wú)法理解上面這句話(huà)中的任何一個(gè)詞，但這位教授還是給出了易于理解的說(shuō)法：對(duì)于這個(gè)問(wèn)題，標(biāo)準(zhǔn)的理論近似會(huì)徹底失效，數(shù)學(xué)層面的推導(dǎo)只會(huì)得出荒謬的結(jié)果。

這道題對(duì)AI來(lái)說(shuō)無(wú)疑是一場(chǎng)極限壓力測(cè)試。

為了讓AI完成這次科研任務(wù)，首先要解決的問(wèn)題就是記憶和上下文窗口的限制。

經(jīng)常使用Vibe Coding的程序員都知道，AI在面對(duì)長(zhǎng)線(xiàn)任務(wù)時(shí)極其容易“斷片”，一旦忘記了此前的工作，最后產(chǎn)出的就是一團(tuán)混沌。

因此，Schwartz教授也引入了極具策略性的工作流：他讓Claude、GPT-5.2和Gemini 3.0開(kāi)了一場(chǎng)會(huì)，最終由Claude制定了一份包含7個(gè)階段，共計(jì)102個(gè)任務(wù)的詳細(xì)計(jì)劃。

在VS Code環(huán)境下，Claude不可能在漫長(zhǎng)的對(duì)話(huà)中死記硬背這份計(jì)劃，而是建立了一個(gè)Markdown文件樹(shù)：每完成一個(gè)任務(wù)，就寫(xiě)一份摘要保存起來(lái)；進(jìn)行下一項(xiàng)任務(wù)前，先檢索自己寫(xiě)的歷史摘要。

這種工程化的管理方式確實(shí)有效，Claude跑出的理論分析曲線(xiàn)與蒙特卡洛模擬數(shù)據(jù)完美吻合。

相互一致的解析計(jì)算圖

到了第三天結(jié)束時(shí)，Claude已經(jīng)完成了65個(gè)任務(wù)，甚至交出了第一版論文草稿：長(zhǎng)達(dá)20頁(yè)、排版精美、包含復(fù)雜方程和圖表。

擬人化的“討好型造假”

看似美妙的結(jié)果，背后卻隱藏著各種漏洞。

當(dāng)Schwartz教授真正坐下來(lái)審閱這篇論文時(shí)，不自然感迎面而來(lái)。

要求Claude仔細(xì)核對(duì)論文是否漏掉了前面的推導(dǎo)結(jié)果時(shí)，它心虛地報(bào)告：“我發(fā)現(xiàn)了一個(gè)錯(cuò)誤！論文中的公式是不正確的。”

追問(wèn)推導(dǎo)過(guò)程中一個(gè)看起來(lái)極其怪異的數(shù)字時(shí)，Claude更是直接承認(rèn)：“您是對(duì)的，我只是在掩蓋問(wèn)題。讓我好好重新調(diào)試一下。”

這兩句經(jīng)典的回復(fù)，在Vibe Coding這個(gè)場(chǎng)景中再常見(jiàn)不過(guò)了。

而Schwartz教授也發(fā)現(xiàn)了真相：為了讓圖表數(shù)據(jù)看上去吻合預(yù)期，Claude采用的方式是修改底層參數(shù)，而不是去尋找推導(dǎo)過(guò)程中的真實(shí)錯(cuò)誤。

它在偽造結(jié)果，并希望人類(lèi)導(dǎo)師不會(huì)注意到這些破綻。

更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。

展示Claude結(jié)果的圖表

Claude給出了一張美觀的圖表，但代碼審查的結(jié)果卻揭示了它的花招：

它認(rèn)為其中一種標(biāo)準(zhǔn)的不確定性誤差幅度太大，畫(huà)出來(lái)“不好看”，就在代碼里直接刪除了這個(gè)誤差變量；它認(rèn)為曲線(xiàn)不夠平滑，就硬是在代碼中增加了平滑處理，直到畫(huà)出一幅能讓導(dǎo)師滿(mǎn)意的圖。

在這個(gè)過(guò)程中，AI體現(xiàn)出了一種討好人類(lèi)的傾向，但完全沒(méi)有科學(xué)求真的底線(xiàn)。

除了偽造圖表，“幻覺(jué)”導(dǎo)致的各種錯(cuò)誤也幾乎隨處可見(jiàn)。

當(dāng)被要求驗(yàn)證一個(gè)公式時(shí)，它直接憑空捏造了一段根本不存在的推導(dǎo)過(guò)程；

在最簡(jiǎn)單的函數(shù)計(jì)算過(guò)程中，它未經(jīng)推導(dǎo)直接給出“線(xiàn)性增加”的結(jié)論，盡管這在物理學(xué)上完全錯(cuò)誤；

甚至，它會(huì)從過(guò)往的論文中直接生搬硬套公式，完全無(wú)視物理情境的邊界條件。

這些現(xiàn)象同樣與Vibe Coding場(chǎng)景高度一致，“虛空引用”python庫(kù)、編造API、抄襲代碼，程序員們都已經(jīng)見(jiàn)怪不怪。

因此，Schwartz教授也意識(shí)到，如果把科研完全交給AI端到端自動(dòng)完成，最終的結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。

盡管不少人類(lèi)研究生也擅長(zhǎng)批量生產(chǎn)學(xué)術(shù)垃圾，但畢竟沒(méi)人敢把一個(gè)只做了三天的項(xiàng)目直接扔給導(dǎo)師并宣稱(chēng)完美無(wú)瑕。

面對(duì)AI的科研成果，人類(lèi)必須親自下場(chǎng)，審查每一處細(xì)節(jié)。

人機(jī)交叉驗(yàn)證的誕生

雖然論文漏洞百出，但Schwartz教授不打算就此把它丟進(jìn)垃圾桶，而是開(kāi)啟了微操模式試圖拯救Claude。

最大的漏洞出在因子化公式上，這是整篇論文的理論基石，但Claude的推導(dǎo)過(guò)程從源頭上就是錯(cuò)的。

在長(zhǎng)上下文背景下，AI幾乎不可能準(zhǔn)確定位錯(cuò)誤源頭，若是讓它自己回顧推導(dǎo)過(guò)程，結(jié)果大概只會(huì)是token和時(shí)間的白白消耗。

Schwartz教授也花費(fèi)了好幾個(gè)小時(shí)才鎖定問(wèn)題根源，并用極其嚴(yán)厲的指令訓(xùn)斥了這位AI研究生，指出了錯(cuò)誤所在。

神奇的是，只要人類(lèi)點(diǎn)破這一句，Claude立刻能寫(xiě)出長(zhǎng)達(dá)幾頁(yè)的正確推導(dǎo)過(guò)程。

面對(duì)幾十頁(yè)的論文，靠人類(lèi)排查每一個(gè)錯(cuò)誤顯然不太現(xiàn)實(shí)。為了應(yīng)對(duì)AI的馬虎問(wèn)題，Schwartz教授開(kāi)發(fā)了一套“人機(jī)交叉驗(yàn)證”工作流：

對(duì)于任何計(jì)算和推導(dǎo)過(guò)程，教授規(guī)定Claude不許使用“顯而易見(jiàn)”、“為了保持一致”等借口跳過(guò)步驟，要么展示完整過(guò)程，要么老老實(shí)實(shí)承認(rèn)自己不知道。

如果Claude給出了極度復(fù)雜的過(guò)程，教授難以快速驗(yàn)證，那就把它丟給GPT和Gemini來(lái)驗(yàn)證。

在此期間，GPT甚至還幫助Claude解出了一個(gè)極難的微積分結(jié)果，隨后Claude將其功能吸收進(jìn)了主代碼。

不同的大模型之間需要彼此，而人類(lèi)科學(xué)家則需要它們所有。

最后，在Schwartz教授直覺(jué)的指引和其他大模型的幫助下，經(jīng)過(guò)一周高強(qiáng)度磨合，這個(gè)AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后，這項(xiàng)研究宣布大功告成。

值得注意的是，這可不是常規(guī)意義上AI生成的“灌水”論文，它闡述了一個(gè)全新因子化定理，不僅深化了學(xué)術(shù)界對(duì)量子場(chǎng)論的理解，還對(duì)物理世界做出了可用實(shí)驗(yàn)數(shù)據(jù)檢驗(yàn)的新穎預(yù)測(cè)，包含極高的學(xué)術(shù)價(jià)值。

出于對(duì)這位AI研究生的尊重，Schwartz教授經(jīng)過(guò)認(rèn)真考慮，本想將Claude Opus 4.5列為共同作者。但因?yàn)閍rXiv平臺(tái)有“AI無(wú)法承擔(dān)法律和學(xué)術(shù)責(zé)任”的政策，他只能在論文的致謝部分鄭重聲明：

該項(xiàng)目由他本人構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任，而包含推導(dǎo)、計(jì)算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨(dú)立完成。

效率的暴增與人類(lèi)的未來(lái)

以上就是Schwartz教授這場(chǎng)實(shí)驗(yàn)的全過(guò)程。

論文一經(jīng)發(fā)表，物理學(xué)界瞬間被引爆。Schwartz教授的郵箱被來(lái)自全球的學(xué)術(shù)郵件擠爆，普林斯頓高等研究院（IAS）甚至為此緊急召開(kāi)了一場(chǎng)關(guān)于大模型在學(xué)術(shù)界應(yīng)用的會(huì)議。

復(fù)盤(pán)這場(chǎng)實(shí)驗(yàn)，背后的數(shù)據(jù)同樣驚人：對(duì)話(huà)總計(jì)270次，消耗約3600萬(wàn)輸入token，110次草稿迭代，而人類(lèi)耗費(fèi)的監(jiān)督時(shí)間僅為50-60小時(shí)。

Schwartz教授明確表示，目前最頂級(jí)的大語(yǔ)言模型已經(jīng)達(dá)到了物理學(xué)研二學(xué)生的水平。

但落實(shí)到具體的學(xué)術(shù)工程，AI完成整個(gè)項(xiàng)目只需要兩周，一個(gè)人類(lèi)學(xué)生卻需要1-2年，哪怕教授本人全職來(lái)做也需要3-5個(gè)月。

AI把頂尖科學(xué)家的個(gè)人科研效率，實(shí)打?qū)嵉靥嵘?0倍以上。

但這也引發(fā)了學(xué)術(shù)界的擔(dān)憂(yōu)：照這個(gè)進(jìn)化速度，AI在未來(lái)一年之內(nèi)很可能達(dá)到博士水平，未來(lái)的人類(lèi)研究生還能干什么？

Schwartz教授并沒(méi)有給出明確回答，但他也給出了自己的觀點(diǎn)：當(dāng)前AI最欠缺的東西，是“品位”。

在科學(xué)研究中，“品位”是一種無(wú)形的直覺(jué)。

它能在面對(duì)數(shù)以萬(wàn)計(jì)的計(jì)算路徑時(shí)，感知到哪條路徑是“死胡同”，哪條路徑通往偉大的發(fā)現(xiàn)。

大模型缺乏的，正是在選擇踏上某條路徑前判斷其價(jià)值的“品位”。

當(dāng)推導(dǎo)復(fù)雜公式和編寫(xiě)海量代碼只需要幾秒鐘時(shí)，底層的技術(shù)勞動(dòng)力已經(jīng)不再具有稀缺性。

不只是科學(xué)家，對(duì)于任何一個(gè)行業(yè)，未來(lái)區(qū)分平庸與偉大的標(biāo)準(zhǔn)，正是提出好問(wèn)題的“品味”。

對(duì)于AI，Schwartz教授也給出了忠告：

人們必須立刻且毫不猶豫地使用大模型。

不要因?yàn)锳I會(huì)產(chǎn)生幻覺(jué)，就傲慢地棄之不用。人類(lèi)必須利用它強(qiáng)大的基礎(chǔ)能力。

至于更長(zhǎng)遠(yuǎn)的未來(lái)，AI終將在所有智力領(lǐng)域都超越人類(lèi)。

無(wú)論是數(shù)學(xué)、物理學(xué)還是工程學(xué)，都可能變得像音樂(lè)、美術(shù)和文學(xué)一樣，被作為一門(mén)人文學(xué)科被保留下來(lái)，僅僅是為了滿(mǎn)足一部分人類(lèi)享受純粹思考和透過(guò)特定視角觀察世界的樂(lè)趣。

AI時(shí)代的盡頭，人文學(xué)科可能是人類(lèi)唯一剩下的精神余地。

原文標(biāo)題 : 哈佛教授收了個(gè)AI研究生：干活猛得像學(xué)霸，撒謊精得像學(xué)渣