世界模型元年啟示錄:動機、亂戰(zhàn)與暗礁
出品 | 智械島
作者 | 霍如筠(北京)
4月16日,阿里巴巴發(fā)布了開放式世界模型Happy Oyster,騰訊開源了3D世界模型HY-World 2.0。
同一天,兩家中國互聯(lián)網(wǎng)巨頭宣示了自己在世界模型賽道上的存在感。
此前不到一個月,李飛飛的World Labs剛完成10億美元融資,Yann LeCun的AMI Labs更是以10.3億美元的種子輪震驚硅谷。
資本、巨頭、創(chuàng)業(yè)者蜂擁而入,一個響亮的口號迅速傳遍行業(yè):世界模型是大語言模型之后最重要的賽道。
但如果你真的去問這些玩家“世界模型到底是什么”,很可能會得到一堆彼此矛盾的回答。
有人說是“可交互的3D世界”,有人說是“理解物理規(guī)律的因果模型”,有人說是“機器人訓(xùn)練的數(shù)字仿真器”,還有人干脆說“就是更高級的視頻生成”。
這不是學(xué)術(shù)討論的分歧,而是整個賽道正在經(jīng)歷的認(rèn)知混亂。
這篇文章試圖理清這場混亂。我們會從三個層層遞進的問題入手:為什么所有大廠突然都在押注世界模型?他們的產(chǎn)品到底在做什么,哪些是實、哪些是虛?以及,那些被光環(huán)掩蓋的困境和模糊地帶,究竟有多深?
一、為什么突然All in世界模型?
要理解世界模型為何突然爆火,得先回到大語言模型的一個尷尬事實。
過去兩年,ChatGPT們展示了驚人的語言能力,也暴露了一個致命短板:它們不懂物理世界。
你問一個LLM“把杯子從桌子邊緣推下去會怎樣”,它能回答“杯子會掉到地上”,卻并不能真正理解重力、加速度、碰撞,它只是從訓(xùn)練數(shù)據(jù)中記住了類似的句子。
2026年初的一項研究指出,幻覺不是數(shù)據(jù)問題,不是訓(xùn)練問題,而是LLM架構(gòu)的內(nèi)在缺陷。
這個缺陷在純文本任務(wù)中或許可以忍受,但當(dāng)AI要進入真實世界:操控機器人、駕駛汽車、在工廠里作業(yè),它就變成了一個無法繞過的坎,你不能讓一個自動駕駛模型“大概正確”地判斷前方障礙物,也不能讓一個工業(yè)機器人“差不多”地預(yù)測零件運動軌跡。
于是,一個更根本的需求浮出水面:我們需要一個能理解物理世界因果律的AI。
它不只要能說,還要能做;不只要看見,還要能預(yù)判。這就是世界模型被推到聚光燈下的根本原因。
大語言模型改變了人和信息的關(guān)系,而世界模型要改變的,是人和現(xiàn)實的關(guān)系。
過去兩年AI的商業(yè)化主要停留在信息處理,寫文案、做翻譯、生成代碼,但下一波增長引擎顯然在物理世界:具身智能、自動駕駛、智能制造。
這些場景的共同要求是:AI必須理解空間、預(yù)測動態(tài)、規(guī)劃動作。
所以,大廠押注世界模型,本質(zhì)上是在爭奪“后LLM時代”的技術(shù)制高點。誰先讓AI真正理解物理世界,誰就能在下一輪產(chǎn)業(yè)周期中占據(jù)主導(dǎo)。
國內(nèi)外玩家的打法截然不同。
美國那邊,DeepMind、World Labs、AMI Labs更像是在做基礎(chǔ)科學(xué)。
他們關(guān)心的是如何讓AI擁有像人類一樣的物理直覺和因果推理能力,商業(yè)化是遠期目標(biāo)。Yann LeCun自己都承認(rèn),AMI的產(chǎn)品可能要幾年后才能看到。
中國則是另一番景象。阿里和騰訊幾乎在發(fā)布模型的同時就綁定了商業(yè)場景:Happy Oyster瞄準(zhǔn)影視制作和游戲開發(fā)的付費用戶,HY-World 2.0直接輸出可導(dǎo)入Unity/UE的3D資產(chǎn),做起了AI造世界的生意。
還有Sand.ai的VidMuse,圍繞音樂生成視頻這個細(xì)分場景,上線幾個月就做到了千萬美元級別的年收入。
中國團隊的邏輯很務(wù)實:世界模型首先得是一個能賺錢的產(chǎn)品。
這兩種路線沒有高下之分,但決定了各自的節(jié)奏和風(fēng)險。美國團隊敢于押注十年后的突破,中國團隊則必須在一年內(nèi)看到回報。
問題是,當(dāng)所有人都擠在同一個熱詞下喊口號時,局外人很難分清誰在做什么。
二、關(guān)于技術(shù)標(biāo)準(zhǔn)的拷問
花時間看完各家產(chǎn)品的介紹,你很可能會陷入更大的困惑。因為每個世界模型長得都不一樣,它們的底層邏輯甚至彼此矛盾。
先來看最反直覺的一派。Yann LeCun的AMI Labs走了一條很少有人敢跟的路,他們不認(rèn)為AI需要生成逼真的畫面。
LeCun的JEPA架構(gòu)刻意丟棄像素細(xì)節(jié),只在抽象的隱空間里做預(yù)測。最新發(fā)布的LeWorldModel只有1500萬參數(shù),單GPU幾小時就能訓(xùn)練完,但規(guī)劃速度比傳統(tǒng)方法快了48倍。
缺點是,它的輸出人類看不懂,你不能“看到”它預(yù)測的未來,只能相信它算對了。
這是一個純粹的學(xué)術(shù)路線,離普通用戶很遠,但LeCun賭的是:真正的智能不需要模擬每一片樹葉的飄落,只需要理解“風(fēng)會吹落樹葉”這個因果。
另一條路來自李飛飛的World Labs。李飛飛相信,智能必須建立在三維空間的顯式理解之上。她的Marble模型能從一張照片或一段文字生成一個可編輯、可導(dǎo)航的3D世界,用戶可以在里面自由移動視角。
World Labs還開源了渲染引擎Spark 2.0,讓普通瀏覽器都能流暢加載上億個3D點。
一個坦誠的評價是:Marble擅長重建空間的樣子,但對空間中會發(fā)生什么的理解還比較薄弱。
你可以走進它生成的房間,但你推不動里面的椅子,也打不翻桌上的杯子。它是一個靜態(tài)世界的復(fù)刻者,而不是動態(tài)物理的模擬器。
最熱鬧的陣營當(dāng)屬生成派。谷歌的Genie 3、阿里的Happy Oyster、騰訊的HY-World 2.0都屬于這一類。
他們的邏輯是:只要生成的畫面足夠逼真、交互足夠流暢,物理規(guī)律自然會被學(xué)出來。
阿里在Happy Oyster里做了一個很有意思的功能叫導(dǎo)演模式,用戶可以在視頻播放的過程中隨時輸入文字指令,改變劇情走向、切換鏡頭角度。騰訊更務(wù)實,直接輸出可二次編輯的3D資產(chǎn),讓游戲開發(fā)者可以導(dǎo)入Unity或UE引擎里直接用。
但這類產(chǎn)品有一個共同的軟肋:長時序一致性和物理準(zhǔn)確性仍然不穩(wěn)定。
Genie 3的演示很驚艷,但幾分鐘后畫面就開始走樣。阿里的漫游模式目前只能支持1分鐘的連續(xù)位移,超過這個時間會發(fā)生什么?官方?jīng)]說。
騰訊的3D資產(chǎn)在單一場景下看起來不錯,但它的優(yōu)勢主要體現(xiàn)在場景完整度和對輸入圖片的遵循程度,這些都是“看起來像”的指標(biāo),而不是“物理上對”的指標(biāo)。
最后還有一個特殊的玩家:英偉達。Cosmos平臺不生產(chǎn)世界模型,它生產(chǎn)“生產(chǎn)世界模型的工具”。
數(shù)據(jù)處理管線、視頻分詞器、預(yù)訓(xùn)練基礎(chǔ)模型,全部免費開放下載。黃仁勛的算盤很清楚:無論哪條路線最終勝出,訓(xùn)練和推理都需要英偉達的GPU。
這是最聰明的生意,不賭方向,只賭算力。
那么,這些世界模型哪些是名副其實的?一個關(guān)鍵的技術(shù)標(biāo)準(zhǔn)是:真正的世界模型必須是“動作條件化”的,也就是說,輸入一個動作,模型要能輸出世界狀態(tài)的變化。
你用鍵盤按“W”,畫面里的視角應(yīng)該向前移動;你給機器人一個抓取指令,模型應(yīng)該預(yù)測物體的位置變化。
按照這個標(biāo)準(zhǔn),李飛飛的Marble就不太合格,用戶只能看,不能做。它更像一個3D重建工具,而不是世界模擬器。
谷歌的Genie 3和阿里的Happy Oyster雖然支持交互,但物理準(zhǔn)確性存疑。騰訊的HY-World 2.0輸出的是靜態(tài)資產(chǎn),本身就不涉及動態(tài)預(yù)測。
換句話說,目前市場上幾乎沒有一家達到了“完美物理世界模擬器”的標(biāo)準(zhǔn)。每家都在自己的能力范圍內(nèi),選擇了一個可展示、可商業(yè)化的切入點。
這本身沒有錯,錯的是大家都在用“世界模型”這個模糊的大詞來包裝自己,讓外界誤以為他們已經(jīng)解決了所有問題。
三、那些被刻意回避的模糊地帶
只讀各家公司的新聞稿,會覺得世界模型已經(jīng)進入了規(guī)模化落地的前夜,但一些被忽略的細(xì)節(jié)拼出了一幅截然不同的圖景。
數(shù)據(jù)問題首當(dāng)其沖。訓(xùn)練一個真正的世界模型,需要海量的“觀察、動作、結(jié)果”三元組,但現(xiàn)實中沒有這樣的現(xiàn)成數(shù)據(jù)集。
有人用游戲數(shù)據(jù),動作標(biāo)簽完美,但游戲里的物理是引擎模擬的,不是真實物理。
有人用人類第一人稱視頻,最接近真實世界,但視頻里沒有動作標(biāo)簽,而且人的頭部運動和手部動作糾纏在一起,模型根本分不清是誰在動。
還有人用真實機器人遙操作數(shù)據(jù),保真度最高,但采集一小時數(shù)據(jù)可能要花費數(shù)萬美元,根本跑不起來規(guī)模。
這意味著每個世界模型都有天生的“能力邊界”。
評估真空是另一個麻煩。你打開任何一家世界模型公司的官網(wǎng),幾乎都能看到“登頂全球權(quán)威評測榜第一”的標(biāo)語。
問題是,這些評測榜單本身就不成熟。有的側(cè)重視覺逼真度,有的側(cè)重物理準(zhǔn)確性,有的側(cè)重任務(wù)完成率。一個在視覺榜單上拿第一的模型,可能在物理榜單上墊底。
這種標(biāo)準(zhǔn)的不統(tǒng)一,讓各家可以各說各話。普通人根本搞不清這到底是同一個榜單的不同類別,還是營銷話術(shù)的巧妙編排。
還有一個被刻意回避的“不可能三角”。
世界模型面臨三個相互制約的指標(biāo):空間尺度、視覺保真度、實時交互性。
你不可能同時做到“世界很大、畫面很清晰、交互很流暢”。李飛飛的Marble就是最好的例子:1.1版本畫質(zhì)好但空間范圍有限,1.1-Plus版本能生成大場景但畫質(zhì)發(fā)糊。
昆侖萬維的Matrix-Game 3.0能做到720P下40FPS的實時生成,但演示場景的風(fēng)格和復(fù)雜度都很有限。
幾乎沒有產(chǎn)品會主動承認(rèn)自己的短板,它們更傾向于展示最優(yōu)工況下的演示視頻,而把極限條件下的失敗藏起來。這種選擇性展示正在制造一個危險的泡沫。
最后,資本的狂歡也帶來了新的投機風(fēng)險。
一個值得注意的現(xiàn)象是,資本從追捧“大廠老兵”轉(zhuǎn)向押注頂尖高校的年輕學(xué)者。逆矩陣科技的兩位創(chuàng)始人,一個98年、一個04年,來自北大,首輪融資超千萬美元。
他們的技術(shù)路線是“強化學(xué)習(xí)+世界模型”,目前只有論文,沒有產(chǎn)品。這不是說年輕人不行,而是說在范式混沌期,資本愿意為“定義下一代技術(shù)”的可能性支付極高的溢價。
但大多數(shù)這樣的實驗室項目,最終無法跨越“論文→產(chǎn)品”的鴻溝。Yann LeCun這樣的圖靈獎得主都承認(rèn)商業(yè)化要等幾年,更何況是剛畢業(yè)的博士生?
四、結(jié)語
世界模型的目標(biāo),是讓AI能夠預(yù)測甚至干預(yù)物理世界。那么,如果AI的預(yù)測錯了,誰來承擔(dān)責(zé)任?
設(shè)想一個場景:一輛自動駕駛汽車的世界模型在仿真中“想象”出一個不存在的障礙物,導(dǎo)致車輛緊急剎車,被后車追尾。
這個鍋應(yīng)該甩給算法工程師,還是仿真數(shù)據(jù)的提供方?
再設(shè)想:一個工業(yè)機器人的世界模型錯誤預(yù)測了零件的運動軌跡,撞壞了整條生產(chǎn)線。保險公司的理賠標(biāo)準(zhǔn)是什么?
更極端的場景:有人用世界模型生成了一個逼真的虛假3D災(zāi)難視頻,在社交媒體上引發(fā)恐慌。平臺有沒有審核義務(wù)?法律如何界定這種“虛擬與現(xiàn)實混淆”的傷害?
這些問題,目前沒有任何一家公司、任何一個國家給出了清晰的答案。世界模型的倫理框架和法律邊界,遠遠落后于技術(shù)的發(fā)展速度。
當(dāng)資本和媒體聚焦于“誰能造出最逼真的虛擬世界”時,一個更根本的問題被擱置了:我們真的準(zhǔn)備好了嗎?
這或許才是世界模型賽道最被低估的變量。不是算力,不是數(shù)據(jù),不是算法,而是責(zé)任。
智械島版權(quán)所有,未經(jīng)授權(quán),禁止轉(zhuǎn)載
原文標(biāo)題 : 世界模型元年啟示錄:動機、亂戰(zhàn)與暗礁
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進展總結(jié)
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













