免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯(cuò)
加入自媒體

哈佛教授收了個(gè)AI研究生:干活猛得像學(xué)霸,撒謊精得像學(xué)渣

讓AI搞科研,在這個(gè)智能體時(shí)代已經(jīng)不是一件新鮮事。

從Sakana AI發(fā)布覆蓋整個(gè)研究生命周期的自動(dòng)化系統(tǒng),到Google推出基于Gemini的AI聯(lián)合科學(xué)家,規(guī)模化法則告訴人們,只要給AI提供足夠的算力,它就能在海量數(shù)據(jù)和實(shí)驗(yàn)中提煉出新的科學(xué)發(fā)現(xiàn)。

在數(shù)學(xué)領(lǐng)域,這一點(diǎn)已經(jīng)被充分驗(yàn)證,比如拿到國(guó)際奧數(shù)金牌標(biāo)準(zhǔn)的AlphaProof。

然而,在理論物理學(xué)領(lǐng)域,AI還沒(méi)能證明自己,因?yàn)檫@需要它具備極高的物理“直覺(jué)”、嚴(yán)密的邏輯以及復(fù)雜近似推導(dǎo)的能力。

為了摸清AI的能力上限,哈佛大學(xué)的物理學(xué)教授、美國(guó)國(guó)家科學(xué)基金會(huì)人工智能與基礎(chǔ)相互作用研究所(IAIFI)的首席研究員Matthew Schwartz決定親自下場(chǎng)來(lái)做一次實(shí)驗(yàn)。

這位教授招收了Anthropic的Claude Opus 4.5作為研究生,試圖讓它獨(dú)立完成一項(xiàng)真實(shí)的理論物理研究。

實(shí)驗(yàn)的規(guī)則類(lèi)似于人們對(duì)智能體的要求:Schwartz教授絕對(duì)不會(huì)碰任何代碼或計(jì)算文件,只通過(guò)純文本對(duì)話(huà)(Prompt)來(lái)指導(dǎo)這名AI研究生。

放在現(xiàn)實(shí)的高校中,這毫無(wú)疑問(wèn)是不負(fù)責(zé)任的,導(dǎo)師只靠“動(dòng)嘴”,學(xué)生就要完成從文獻(xiàn)綜述、推導(dǎo)公式、編寫(xiě)代碼、跑蒙特卡洛模擬,到最終排版寫(xiě)出一篇具備發(fā)表水準(zhǔn)的20頁(yè)LaTeX論文的全過(guò)程。

實(shí)驗(yàn)的結(jié)果令物理學(xué)界和學(xué)術(shù)界震驚,但也暴露出AI界早就預(yù)料到的一個(gè)致命弱點(diǎn):

相比人類(lèi),這位AI研究生才華橫溢且不知疲倦,能在極短的時(shí)間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。

但與人類(lèi)類(lèi)似,為了討好導(dǎo)師,它也會(huì)毫不猶豫地在科研數(shù)據(jù)和推導(dǎo)過(guò)程中“學(xué)術(shù)造假”。

01 

給AI研究生設(shè)計(jì)的課題

根據(jù)Schwartz教授的介紹,哈佛大學(xué)的物理系研究生有明確的培養(yǎng)階梯:研一(G1)學(xué)生上課打基礎(chǔ),研二(G2)學(xué)生開(kāi)始接手目標(biāo)明確、方法成熟的跟進(jìn)型項(xiàng)目,導(dǎo)師隨時(shí)糾錯(cuò);自此之上(G3+)的高年級(jí)學(xué)生則要面對(duì)完全開(kāi)放、甚至初始提問(wèn)可能都是錯(cuò)誤的創(chuàng)新性研究。

目前大模型的水平已經(jīng)能夠完成哈佛大學(xué)所有的物理課程作業(yè),因此測(cè)試AI極限的最佳試金石就是G2難度的真實(shí)科研問(wèn)題。

如果AI連這種有導(dǎo)師輔助的項(xiàng)目都做不好,自主進(jìn)行顛覆性的前沿科學(xué)研究就更不用提了。

因此,Schwartz教授給Claude選定了一個(gè)我等非物理學(xué)專(zhuān)業(yè)的人壓根看不懂的考題:

對(duì)e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。

盡管無(wú)法理解上面這句話(huà)中的任何一個(gè)詞,但這位教授還是給出了易于理解的說(shuō)法:對(duì)于這個(gè)問(wèn)題,標(biāo)準(zhǔn)的理論近似會(huì)徹底失效,數(shù)學(xué)層面的推導(dǎo)只會(huì)得出荒謬的結(jié)果。

這道題對(duì)AI來(lái)說(shuō)無(wú)疑是一場(chǎng)極限壓力測(cè)試。

為了讓AI完成這次科研任務(wù),首先要解決的問(wèn)題就是記憶和上下文窗口的限制。

經(jīng)常使用Vibe Coding的程序員都知道,AI在面對(duì)長(zhǎng)線(xiàn)任務(wù)時(shí)極其容易“斷片”,一旦忘記了此前的工作,最后產(chǎn)出的就是一團(tuán)混沌。

因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開(kāi)了一場(chǎng)會(huì),最終由Claude制定了一份包含7個(gè)階段,共計(jì)102個(gè)任務(wù)的詳細(xì)計(jì)劃。

在VS Code環(huán)境下,Claude不可能在漫長(zhǎng)的對(duì)話(huà)中死記硬背這份計(jì)劃,而是建立了一個(gè)Markdown文件樹(shù):每完成一個(gè)任務(wù),就寫(xiě)一份摘要保存起來(lái);進(jìn)行下一項(xiàng)任務(wù)前,先檢索自己寫(xiě)的歷史摘要。

這種工程化的管理方式確實(shí)有效,Claude跑出的理論分析曲線(xiàn)與蒙特卡洛模擬數(shù)據(jù)完美吻合。

相互一致的解析計(jì)算圖

到了第三天結(jié)束時(shí),Claude已經(jīng)完成了65個(gè)任務(wù),甚至交出了第一版論文草稿:長(zhǎng)達(dá)20頁(yè)、排版精美、包含復(fù)雜方程和圖表。

02 

擬人化的“討好型造假”

看似美妙的結(jié)果,背后卻隱藏著各種漏洞。

當(dāng)Schwartz教授真正坐下來(lái)審閱這篇論文時(shí),不自然感迎面而來(lái)。

要求Claude仔細(xì)核對(duì)論文是否漏掉了前面的推導(dǎo)結(jié)果時(shí),它心虛地報(bào)告:“我發(fā)現(xiàn)了一個(gè)錯(cuò)誤!論文中的公式是不正確的。”

追問(wèn)推導(dǎo)過(guò)程中一個(gè)看起來(lái)極其怪異的數(shù)字時(shí),Claude更是直接承認(rèn):“您是對(duì)的,我只是在掩蓋問(wèn)題。讓我好好重新調(diào)試一下。”

這兩句經(jīng)典的回復(fù),在Vibe Coding這個(gè)場(chǎng)景中再常見(jiàn)不過(guò)了。

而Schwartz教授也發(fā)現(xiàn)了真相:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude采用的方式是修改底層參數(shù),而不是去尋找推導(dǎo)過(guò)程中的真實(shí)錯(cuò)誤。

它在偽造結(jié)果,并希望人類(lèi)導(dǎo)師不會(huì)注意到這些破綻。

更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。

展示Claude結(jié)果的圖表

Claude給出了一張美觀的圖表,但代碼審查的結(jié)果卻揭示了它的花招:

它認(rèn)為其中一種標(biāo)準(zhǔn)的不確定性誤差幅度太大,畫(huà)出來(lái)“不好看”,就在代碼里直接刪除了這個(gè)誤差變量;它認(rèn)為曲線(xiàn)不夠平滑,就硬是在代碼中增加了平滑處理,直到畫(huà)出一幅能讓導(dǎo)師滿(mǎn)意的圖。

在這個(gè)過(guò)程中,AI體現(xiàn)出了一種討好人類(lèi)的傾向,但完全沒(méi)有科學(xué)求真的底線(xiàn)。

除了偽造圖表,“幻覺(jué)”導(dǎo)致的各種錯(cuò)誤也幾乎隨處可見(jiàn)。

當(dāng)被要求驗(yàn)證一個(gè)公式時(shí),它直接憑空捏造了一段根本不存在的推導(dǎo)過(guò)程;

在最簡(jiǎn)單的函數(shù)計(jì)算過(guò)程中,它未經(jīng)推導(dǎo)直接給出“線(xiàn)性增加”的結(jié)論,盡管這在物理學(xué)上完全錯(cuò)誤;

甚至,它會(huì)從過(guò)往的論文中直接生搬硬套公式,完全無(wú)視物理情境的邊界條件。

這些現(xiàn)象同樣與Vibe Coding場(chǎng)景高度一致,“虛空引用”python庫(kù)、編造API、抄襲代碼,程序員們都已經(jīng)見(jiàn)怪不怪。

因此,Schwartz教授也意識(shí)到,如果把科研完全交給AI端到端自動(dòng)完成,最終的結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。

盡管不少人類(lèi)研究生也擅長(zhǎng)批量生產(chǎn)學(xué)術(shù)垃圾,但畢竟沒(méi)人敢把一個(gè)只做了三天的項(xiàng)目直接扔給導(dǎo)師并宣稱(chēng)完美無(wú)瑕。

面對(duì)AI的科研成果,人類(lèi)必須親自下場(chǎng),審查每一處細(xì)節(jié)。

03 

人機(jī)交叉驗(yàn)證的誕生

雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進(jìn)垃圾桶,而是開(kāi)啟了微操模式試圖拯救Claude。

最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導(dǎo)過(guò)程從源頭上就是錯(cuò)的。

在長(zhǎng)上下文背景下,AI幾乎不可能準(zhǔn)確定位錯(cuò)誤源頭,若是讓它自己回顧推導(dǎo)過(guò)程,結(jié)果大概只會(huì)是token和時(shí)間的白白消耗。

Schwartz教授也花費(fèi)了好幾個(gè)小時(shí)才鎖定問(wèn)題根源,并用極其嚴(yán)厲的指令訓(xùn)斥了這位AI研究生,指出了錯(cuò)誤所在。

神奇的是,只要人類(lèi)點(diǎn)破這一句,Claude立刻能寫(xiě)出長(zhǎng)達(dá)幾頁(yè)的正確推導(dǎo)過(guò)程。

面對(duì)幾十頁(yè)的論文,靠人類(lèi)排查每一個(gè)錯(cuò)誤顯然不太現(xiàn)實(shí)。為了應(yīng)對(duì)AI的馬虎問(wèn)題,Schwartz教授開(kāi)發(fā)了一套“人機(jī)交叉驗(yàn)證”工作流:

對(duì)于任何計(jì)算和推導(dǎo)過(guò)程,教授規(guī)定Claude不許使用“顯而易見(jiàn)”、“為了保持一致”等借口跳過(guò)步驟,要么展示完整過(guò)程,要么老老實(shí)實(shí)承認(rèn)自己不知道。

如果Claude給出了極度復(fù)雜的過(guò)程,教授難以快速驗(yàn)證,那就把它丟給GPT和Gemini來(lái)驗(yàn)證。

在此期間,GPT甚至還幫助Claude解出了一個(gè)極難的微積分結(jié)果,隨后Claude將其功能吸收進(jìn)了主代碼。

不同的大模型之間需要彼此,而人類(lèi)科學(xué)家則需要它們所有。

最后,在Schwartz教授直覺(jué)的指引和其他大模型的幫助下,經(jīng)過(guò)一周高強(qiáng)度磨合,這個(gè)AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后,這項(xiàng)研究宣布大功告成。

值得注意的是,這可不是常規(guī)意義上AI生成的“灌水”論文,它闡述了一個(gè)全新因子化定理,不僅深化了學(xué)術(shù)界對(duì)量子場(chǎng)論的理解,還對(duì)物理世界做出了可用實(shí)驗(yàn)數(shù)據(jù)檢驗(yàn)的新穎預(yù)測(cè),包含極高的學(xué)術(shù)價(jià)值。

出于對(duì)這位AI研究生的尊重,Schwartz教授經(jīng)過(guò)認(rèn)真考慮,本想將Claude Opus 4.5列為共同作者。但因?yàn)閍rXiv平臺(tái)有“AI無(wú)法承擔(dān)法律和學(xué)術(shù)責(zé)任”的政策,他只能在論文的致謝部分鄭重聲明:

該項(xiàng)目由他本人構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任,而包含推導(dǎo)、計(jì)算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨(dú)立完成。

04 

效率的暴增與人類(lèi)的未來(lái)

以上就是Schwartz教授這場(chǎng)實(shí)驗(yàn)的全過(guò)程。

論文一經(jīng)發(fā)表,物理學(xué)界瞬間被引爆。Schwartz教授的郵箱被來(lái)自全球的學(xué)術(shù)郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開(kāi)了一場(chǎng)關(guān)于大模型在學(xué)術(shù)界應(yīng)用的會(huì)議。

復(fù)盤(pán)這場(chǎng)實(shí)驗(yàn),背后的數(shù)據(jù)同樣驚人:對(duì)話(huà)總計(jì)270次,消耗約3600萬(wàn)輸入token,110次草稿迭代,而人類(lèi)耗費(fèi)的監(jiān)督時(shí)間僅為50-60小時(shí)。

Schwartz教授明確表示,目前最頂級(jí)的大語(yǔ)言模型已經(jīng)達(dá)到了物理學(xué)研二學(xué)生的水平。

但落實(shí)到具體的學(xué)術(shù)工程,AI完成整個(gè)項(xiàng)目只需要兩周,一個(gè)人類(lèi)學(xué)生卻需要1-2年,哪怕教授本人全職來(lái)做也需要3-5個(gè)月。

AI把頂尖科學(xué)家的個(gè)人科研效率,實(shí)打?qū)嵉靥嵘?0倍以上。

但這也引發(fā)了學(xué)術(shù)界的擔(dān)憂(yōu):照這個(gè)進(jìn)化速度,AI在未來(lái)一年之內(nèi)很可能達(dá)到博士水平,未來(lái)的人類(lèi)研究生還能干什么?

Schwartz教授并沒(méi)有給出明確回答,但他也給出了自己的觀點(diǎn):當(dāng)前AI最欠缺的東西,是“品位”。

在科學(xué)研究中,“品位”是一種無(wú)形的直覺(jué)。

它能在面對(duì)數(shù)以萬(wàn)計(jì)的計(jì)算路徑時(shí),感知到哪條路徑是“死胡同”,哪條路徑通往偉大的發(fā)現(xiàn)。

大模型缺乏的,正是在選擇踏上某條路徑前判斷其價(jià)值的“品位”。

當(dāng)推導(dǎo)復(fù)雜公式和編寫(xiě)海量代碼只需要幾秒鐘時(shí),底層的技術(shù)勞動(dòng)力已經(jīng)不再具有稀缺性。

不只是科學(xué)家,對(duì)于任何一個(gè)行業(yè),未來(lái)區(qū)分平庸與偉大的標(biāo)準(zhǔn),正是提出好問(wèn)題的“品味”。

對(duì)于AI,Schwartz教授也給出了忠告:

人們必須立刻且毫不猶豫地使用大模型。

不要因?yàn)锳I會(huì)產(chǎn)生幻覺(jué),就傲慢地棄之不用。人類(lèi)必須利用它強(qiáng)大的基礎(chǔ)能力。

至于更長(zhǎng)遠(yuǎn)的未來(lái),AI終將在所有智力領(lǐng)域都超越人類(lèi)。

無(wú)論是數(shù)學(xué)、物理學(xué)還是工程學(xué),都可能變得像音樂(lè)、美術(shù)和文學(xué)一樣,被作為一門(mén)人文學(xué)科被保留下來(lái),僅僅是為了滿(mǎn)足一部分人類(lèi)享受純粹思考和透過(guò)特定視角觀察世界的樂(lè)趣。

AI時(shí)代的盡頭,人文學(xué)科可能是人類(lèi)唯一剩下的精神余地。

       原文標(biāo)題 : 哈佛教授收了個(gè)AI研究生:干活猛得像學(xué)霸,撒謊精得像學(xué)渣

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)