世界模型,成了具身智能的頭號技術敘事

編者按:讓 AI 像人類一樣思考并行動,曾是科幻小說中的終極幻想。如今,隨著通用大模型向物理世界的這一躍,具身智能大腦成為了科技競爭的絕對高地。
但技術的演進絕非一蹴而就的坦途,數據匱乏、泛化難題、甚至每一次微小的幻覺,都是橫亙在 Demo 與真實落地之間的鴻溝。
當端到端成為行業熱詞,當VLA模型不斷刷新上限,我們需要冷靜的思考:什么才是具身智能大腦的最佳架構?算力與數據的飛輪如何驅動物理智能的涌現?
在這個技術范式轉移的前夜,星河頻率特別策劃“具身智能大腦”系列文章,我們將深入演進中的技術范式,試圖穿透技術概念的表面熱潮,回歸系統與架構的本質思考,記錄智能體從有軀體到有智慧的進化歷程。
往期文章:《具身智能,是時候跳出“中國先研,國外帶火”的怪圈了》
作者 | 毛心如
評測發布不到三個月,第一名易主十次,WorldArena 的榜單見證了一場激烈的排位拉鋸戰。
這個由清華大學、北京大學、香港大學、普林斯頓大學、中科院等頂尖機構聯合推出的評測體系,是目前具身智能世界模型領域的國際權威公開評測標準。
多家公司競逐的落腳點,都是在 VLA 之后,找尋有關世界模型的新敘事。
事實上,世界模型成為熱潮是行業技術演進與資本押注的共同選擇。
今年年初,英偉達機器人部門負責人 Jim Fan 發布長文,挑明了 VLA 模型缺乏物理因果理解的核心短板,明確表示世界模型是通用機器人的未來。
緊隨其后,WorldArena 正式上線,以 16 項細分指標和 3 大真實任務構建嚴苛評測體系,成為全球世界模型的試金石,也讓技術實力比拼有了統一標尺。

資本層面同樣十分狂熱。
今年 3 月,前 Meta 首席科學家、圖靈獎得主楊立昆創立的世界模型公司 AMI,完成 10.3 億美元種子輪融資,創下歐洲 AI 領域種子輪融資紀錄。
國內市場里,極佳視界 1 個月內完成 25 億元融資,成為國內首個世界模型獨角獸,生數科技獲得由阿里云領投的 B 輪 20 億元融資。
從學術共識到榜單競技,從巨頭布局到資本加碼,2026 年的具身智能賽道,世界模型正從輔助工具走向物理世界理解與具身決策的核心引擎。
行業風向也從 2025 年的 VLA 模型,轉向理解物理、預測未來的世界模型。

中國公司領跑 WorldArena
從 WorldArena 這個全球競技場來看,中國玩家儼然從參與者變成了領跑者。
流形空間、生數科技、中科第五紀、極佳視界、星動紀元等公司都先后完成登頂,并實現對海外巨頭谷歌、英偉達的超越。
流形空間是最新殺出來的一匹黑馬,其自研的 WorldScape v0.2 在四月底登頂,并拿下了綜合感知、物理遵循、軌跡精度三項指標第一。
WorldScape 0.2 的技術核心是通過 MoE(混合專家)架構實現了多專家協同,通過分階段學習的設計思路,構建了一個兼顧物理真實性與空間準確性的世界模型。
其最大技術優勢在于,以極精簡的參數規模實現了極高的推理效能,成功將這種強大的世界理解能力轉化為高成功率的具身操控策略,打通了從感知、預測到行動的完整技術閉環。
作為宇樹 001 號供應商的中科第五紀憑借模型 FlowWAM-FiveAges,拿下總分第二,3D 精度第一的成績。
雖然具體細節尚在黑盒之中,但從命名來看,該模型較前代在物理空間的動態流動性與因果預測上實現了突破,最終在物理遵循和 3D 精度方面展現出明顯優勢。
目前位于榜單第三名的是生數科技的 MotuBrain,在細分指標拿下運動質量、流程評分兩項第一。
MotuBrain 通過整合此前割裂的世界模型和動作模型,提出并實踐世界行動模型這一新范式。
核心在于讓單一模型同時具備認知與行動能力,從理解并生成世界邁向行動于世界,從而完成從感知、決策到執行的閉環。
其特點可概括為四個一腦,即一腦多能、一腦多型、一腦貫通和一腦預見,旨在解決機器人無法在開放、動態環境中自主完成多步驟連續任務的最后一道坎。

除了上述三家外,首個綜合得分突破 60 分大關的具身世界模型 GigaWorld-1,來自極佳視界。
在技術架構上,這是一款專為具身場景設計的動作控制世界模型。
它深度繼承了其前身 EmbodieDreamer 的核心架構,并進行了兩項技術創新:
一是引入了顯式的動作建模機制,從根本上保證了視頻生成過程中的幾何一致性
二是創新性地融入了可微分物理引擎,以獲取精準的物理參數,實現對復雜物理交互過程的真實模擬與嚴格遵循。
此外,該模型使用了團隊積累的上萬小時高質量真實機器人操作視頻數據進行訓練,極大地增強了其在開放場景下的泛化能力。
星動紀元則是榜單中首個實現對谷歌和英偉達雙超越的中國企業。
其聯合斯坦福 Chelsea Finn(PI 創始人)團隊研發的 Ctrl-World 是全球首個可控生成式世界模型,采用動作條件化架構突破了傳統世界模型的單視角幻覺、動作控制不精細、長時一致性差三大瓶頸。
其設計思路非常務實:
首先,在訓練中嵌入物理引擎約束,使模型學習并遵守牛頓力學定律,確保生成的場景和交互在物理上合理。
其次,融合多視圖聯合與視頻預測模型,預測 RGB 圖像的同時也隱式建模深度圖與三維空間結構,從而獲得精準的深度感知和空間認知能力。
最后,模型設計緊密貼合機器人實際應用場景,如策略評估、動作規劃和數據合成。

五家公司的模型各有特色,有的靠物理直覺預演,有的靠 VLA 協同校驗,有的靠幾何精度堆疊,有的靠因果推理。
但它們都有一個共同點,那就是不再滿足于讓 AI 看得像,而是逼著 AI 想得對。
這才是世界模型的真正門檻。

三路玩家齊聚世界模型賽道
隨著世界模型的熱度上漲,水面下布局的玩家也逐漸顯現。無論是大廠還是初創公司,都不約而同地踏入了具身智能的河流。
在工程實踐中,世界模型并不是一條路走到黑的技術命題,入局玩家根據技術思路的差異,大體可以分為 3 類,分別是大廠派、All in 世界模型派以及 VLA+世界模型派。
大廠里,英偉達、谷歌、阿里、騰訊等都在積極布局。
它們的核心優勢不在于某條技術路線的激進程度,而在于算力、場景、數據和工程化能力的厚度。
其中,阿里系的打法最具代表性,它們將世界模型作為 AI 基礎設施中的一塊關鍵拼圖來鋪設,打通模型到落地場景的整條鏈路。
通義千問團隊推出原生多模態視頻模型 Wan2.6,主打多模態融合與高效落地,支持文本、圖像驅動的場景生成,兼顧視覺逼真度與物理一致性。
可適配機器人訓練、虛擬仿真等多場景,同時與通義大模型家族深度協同,實現了世界模型與通用 AI 能力的雙向賦能。
高德團隊推出的 ABot-PhysWorld 是面向物理世界規律預測的視頻模型,能準確預見物體在復雜交互下的運動軌跡,并保持多步因果邏輯的一致性。
在 WorldArena 的評測中,ABot-PhysWorld 在視覺質量獲得了單項第一。
螞蟻靈波則走出了一條強調開源生態的路徑,其推出的兩款世界模型各有側重。
LingBot-VLA 是面向具身智能的基座模型,實現了跨本體、跨任務的泛化能力,推動一腦多機走向規模化落地。
而 LingBot-World 則側重高精度物理建模,為具身智能、自動駕駛及游戲開發等場景創造高保真、可交互的虛擬訓練環境。

另一批玩家選擇了更徹底的方式,不把世界模型當作 VLA 的補丁或輔助模塊,而是直接以世界模型為基座,構建面向物理世界的原生智能系統。
它石智航、大曉機器人、千訣科技等玩家是這一陣營的代表。
它石智航在今年發布了全球首個能干活的通用具身大模型 AWE3.0,在亞毫米級精度操作、柔性物體感知控制、長程任務穩定執行、跨場景遷移等方面具備優勢。
搭載該模型的機器人 A1 更是以 105 次有效裝配成績,創造了機器人在一小時內裝配亞毫米級線束最多次數的吉尼斯世界紀錄。
大曉機器人則走了另一條路,端側化。
它發布的開悟 3.0 模型通過多模態理解-生成-預測一體化架構幫助機器理解物理世界因果。
其中,Kairos 3.0-4B 是世界上首個可以在 THOR 端側平臺上實時生成的具身世界模型,視頻生成時間與視頻時長的比例達到 1:1.5,意味著模型推演速度基本追平了物理世界的變化。
此外,還有一類玩家摒棄單一技術路線的局限,走 VLA 與世界模型深度融合的道路。
通過兩者協同互補,提升機器人的自主決策與執行能力,其中智元機器人的布局最為系統,也最具有代表性。

今年 4 月,智元發布了 Genie Envisioner 2.0,一個真正意義上的可交互世界模型。
它不只是一個生成模型,而是一個可以被使用的系統,即能夠嚴格響應機器人動作信號,生成高保真的環境變化,并嚴格遵循物理與語義邏輯。
此前,智元已經搭建了一套三層協同的世界模型思路:
EnerVerse-AC 動作生成層,負責將高層指令轉化為具體可執行的機器人動作,確保動作的精準性與連貫性。
Genie Envisioner 虛擬建模層,作為世界模型的核心,負責構建高保真、物理一致的虛擬場景,模擬環境變化與動作反饋,為 VLA 訓練提供高質量虛擬數據。
Act2Goal 自主執行層,實現動作生成、場景模擬與自主決策的閉環,讓機器人能夠根據虛擬場景推演,自主調整動作策略,大幅提升陌生任務的成功率。
這三層形成閉環協同,讓世界模型的物理推演能力與 VLA 的實時執行能力深度結合,有效縮減了單一技術路線的短板。
總體來看,三類玩家雖然路徑不同,但目標一致,讓世界模型從生成畫面走向理解并干預物理世界。
大廠靠技術厚度構建底座,All in 派用范式變革押注未來,融合派則在工程中尋找最優解,這三條河流,正在共同匯入具身智能的深海。

世界模型必然會迎來價值重構
事實上,行業對世界模型尚無統一定義,不同團隊基于對認知的不同理解,走出了三條截然不同的技術路線:
以谷歌 Genie 為代表,用視頻生成的方式去重建世界
以李飛飛 WorldLabs 為代表,以 3D 空間生成的方式去顯式建模世界
以楊立昆 JEPA 為代表,讓 AI 直接去學習世界的抽象結構
從實際應用來看,世界模型更多時候像輔助角色,核心作用是賦能 VLA 模型、降低數據成本、提升任務魯棒性。
從核心價值看,當前世界模型首要作用是理解物理世界、預測未來狀態,彌補 VLA 模型缺乏因果推理的短板。
世界模型可以通過學習物理規律,構建虛擬內部世界,預測動作結果與環境變化,為 VLA 提供提前預判能力,提升復雜場景適應性。
其次是數據增效,破解 VLA 的數據饑渴。
VLA 模型訓練依賴昂貴稀缺的真機數據,世界模型可以生成高保真合成數據,覆蓋長尾場景與極端情況。
像極佳視界 GigaBrain-0.5M * 預訓練數據中,有 61% 都由自研世界模型 GigaWorld 合成,極大地降低了對真機數據的依賴。

最后是提升長時程任務魯棒性。
VLA 模型在多步驟、長時序任務中易出現動作漂移、步驟失誤,世界模型通過全程預測環境演變,實時修正動作偏差,確保任務連貫完成。
像智元機器人的 Act2Goal 通過虛擬推演全流程,機器人不僅能自主完成訓練域內的任務,也能夠完成未見過的任務,最終真正理解任務的操作過程,提高陌生長時序任務中的操作成功率。
那么,未來世界模型會走向何方?這個話題,今年一直有兩種大熱聲音。
一派是以 Jim Fan 為首的替代論。
年初,英偉達團隊搭建的 DreamZero 通過自回歸 Transformer 與真實觀測注入技術,使機器人實現了跨任務、跨環境、跨具身的零樣本/小樣本泛化能力。
相比傳統 VLA 模型,DreamZero 能更好地理解物理世界,支持實時閉環控制,并在真實機器人實驗中展現出顯著的泛化性提升。
以美國公司 Genelist 為代表的公司更支持融合觀,即世界模型和 VLA 不是 A or B 的問題,而是 A and B 的問題。
從邏輯上看,VLA 不會消失,而是能力內化、角色轉變。
VLA 的核心優勢在于語義理解、實時動作執行、端側高效推理,是世界模型短期內難以完全替代的。
未來的技術范式或許會是世界模型作為核心大腦,負責全局規劃、物理推演、未來預測,VLA 作為感知-執行組件,負責實時理解環境、解析語言指令、執行精細動作。
兩者深度融合、協同迭代,世界模型生成虛擬數據訓練 VLA,提升其泛化能力,VLA 的真實交互反饋優化世界模型,提升其物理保真度,形成閉環進化。

從中長期發展趨勢來看,世界模型的演變將踏上三個臺階:
短期內,世界模型會繼續在物理數據生成與長時程任務模擬中扮演關鍵的輔助角色。
中期內,隨著控制延遲優化和物理推演精度的持續提升,VLA 與世界模型的功能邊界將趨于模糊,形成緊密交互的具身原生智能網絡。
遠期來看,業界很可能不再需要單獨區分 VLA 與世界模型,設計者將會直接從底層構造一個能同時理解物理世界、執行語音推理、并且做到高精度力反饋控制的整體式智能體。
2026 年的世界模型熱潮,并不是單純的行業跟風,而是具身智能從感知模仿向認知理解跨越的必然結果,也是技術、資本、市場共同推動的必然結果。
而世界模型的終局,是讓機器人真正理解物理世界、具備自主智能。
原文標題 : 世界模型,成了具身智能的頭號技術敘事
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













