VLA 與世界模型之爭:誰才是輔助駕駛的正確方向?
芝能科技出品
輔助駕駛的方向,從端到端之后大家就看不明白了,到了2026年自動駕駛與機器人的路線之爭被推向了高潮。
但在GTC2026 “選邊站隊”的辯論,我們將這場紛繁復(fù)雜的爭論,拆解為三個收斂的維度:技術(shù)哲學的分歧、工程實現(xiàn)的瓶頸,以及終極的融合形態(tài)。

01
核心爭議的細節(jié):預(yù)測“像素”還是預(yù)測“邏輯”?
世界模型與 VLA 的根本分歧,在于預(yù)測目標的顆粒度。世界模型的細節(jié),真正的世界模型不再試圖生成高清的未來視頻(那太費算力),而是生成 Latent Tokens,預(yù)測的是環(huán)境的“狀態(tài)特征”,比如前方車輛在 0.5 秒后的橫向位移概率。
模型不再直接輸出動作,而是先預(yù)測“下一步世界會變成什么樣”,王興興認為這種路徑“天花板更高”,是指世界模型在訓練中學習了重力、摩擦力和運動補償。
對于輔助駕駛當車輛在雨天側(cè)滑時,模型是基于對路面附著力的物理推演來修正軌跡。
現(xiàn)階段的視頻生成式世界模型算力開銷巨大,很難滿足輔助駕駛所需的毫秒級實時響應(yīng)。
VLA 把感知(看到什么)、語義(導(dǎo)航指令/常識)和行動(怎么打方向)壓進同一個 Transformer 框架,鏈路極短,數(shù)據(jù)從“攝像頭”直接流向“執(zhí)行器”,架構(gòu)天然適配車規(guī)級系統(tǒng)的低延遲要求。
將方向盤轉(zhuǎn)角、加速度直接轉(zhuǎn)化為離散的 Token,與視覺、語言 Token 在同一個 Transformer 空間內(nèi)對齊。
它的前路在于“語義對齊”,當你說“靠邊停車”時,VLA 不需要經(jīng)過“語音->文本->邏輯規(guī)劃->控制”的長鏈條,而是直接在 Embedding 空間里將“停車”語義與視覺中的“路沿”特征耦合,輸出 Action。
它強于“擬合”——只要見過足夠多的人類駕駛數(shù)據(jù),它就能開得像人。但它不理解物理法則,一旦進入從未見過的長尾場景(Corner Cases),泛化能力就會撞上天花板。

02
輔助駕駛前路的核心難點
無論這兩條技術(shù)路線的如何,終究要回到一個最樸素的迭代和進化的結(jié)果,消費者能不能感受到進步,這個系統(tǒng)能不能在真實世界里自己“進化”?
這個進化的閉環(huán)被三座大山死死卡住。每一座山,都對應(yīng)著一個讓工程師掉頭發(fā)的骨頭案。
◎ 第一座山:數(shù)據(jù)閉環(huán)——別讓“無效里程”淹沒AI,現(xiàn)在的自動駕駛測試車每天跑出海量數(shù)據(jù),但說白了,99%都是毫無營養(yǎng)的“垃圾時間”。
AI 就像一個學生,天天做一加一等于二的簡單題(常規(guī)巡航),水平永遠提不高。它真正需要的是那些萬分之一概率的“奧數(shù)題”(事故、極端天氣、鬼探頭),而這些數(shù)據(jù)在現(xiàn)實中極難捕捉。
行業(yè)正在把“世界模型”當成一個超高級的自動出題機。比如理想的 MindSim,它不再死等現(xiàn)實中的車禍,而是在虛擬世界里生成千萬倍于現(xiàn)實的極端場景,再把這些“人造險境”喂給 VLA 模型做強化學習。這種“虛實結(jié)合”,讓數(shù)據(jù)閉環(huán)第一次有了主動進化的生產(chǎn)力。
◎ 第二座山:推理閉環(huán)——在“腦補”與“逃命”之間找平衡輔助駕駛是一個必須跟死神賽跑的強實時系統(tǒng)。
如果讓 AI 的“大腦”像拍電影一樣,把未來幾秒的畫面一幀幀高清還原出來(像素級生成),那光算力延遲就能讓車撞上三回了。
在時速 120 公里的高速上,毫秒級的卡頓就是生與死的距離。工程師們學會了“抓大放小”,生成完整畫面太慢,那就干脆不畫了,直接在“隱空間”里做數(shù)學題。
系統(tǒng)不再去細摳路邊的樹是什么顏色,而是把障礙物抽象成一個個帶概率的“特征點(Token)”,只預(yù)測它們未來 2 秒的位置分布。這種舍棄掉視覺贅肉的“信息壓縮”,用工程上的克制換回了保命的實時性。
◎ 第三座山:系統(tǒng)閉環(huán)純神經(jīng)網(wǎng)絡(luò)模型最大的問題是它的“不可知性”。
AI 表現(xiàn)得再像老司機,但還是一個黑盒。誰也沒法保證,在某種從未見過的光影組合下,它會不會突然抽風把白車看成云朵。這種不確定性,是車規(guī)級安全絕對無法接受的。
英偉達等巨頭推崇的“混合架構(gòu)”,給 AI 焊上了一道物理圍欄。
端到端模型負責“開得絲滑”,像小腦一樣處理日常加減速;底層的安全仲裁器則負責“守住底線”,基于剛性規(guī)則的代碼。一旦 AI 算出的動作距離前車太近,或者壓了實線,規(guī)則引擎會瞬間切斷 AI 的控制權(quán)強制接管。
當前VLA(視覺語言動作模型)正在全面走向“世界模型化”,曾經(jīng)的技術(shù)分歧正在逐漸消失,終局已經(jīng)明確:
未來的系統(tǒng)將是一個分層的融合架構(gòu),我們可以將這個“數(shù)字大腦”抽象為三層,分別是負責物理理解與未來推演、為系統(tǒng)提供“常識”和“泛化力”的世界建模層。
負責將認知轉(zhuǎn)化為具體Action、整合多模態(tài)信息并輸出符合動力學約束絲滑軌跡的決策生成層(VLA Layer),以及負責規(guī)則兜底與功能安全的安全執(zhí)行層(System Layer)。
關(guān)于其發(fā)展節(jié)奏,核心判斷是3年看落地,10年看上限。
◎ 短期來看(2026-2028)將由VLA主導(dǎo),它已經(jīng)具備工程可行性,英偉達和理想給出的2028年L4時間表,正是基于VLA架構(gòu)的成熟;
◎ 而長期來看(2030+),則由世界模型定勝負,誰能率先完成“世界理解→自動生成數(shù)據(jù)→現(xiàn)實驗證→模型自進化”的全閉環(huán),誰就能真正統(tǒng)治無人駕駛和通用機器人領(lǐng)域。
小結(jié)
GTC 2026的爭論,VLA是工程師的答案,目標是“先把車開好”,追求工程落地與量產(chǎn);世界模型是科學家的理想,目標是“先看懂世界”,追求通用與泛化。
而如今這兩條路已經(jīng)完成了在高處的會師——當VLA開始學習3D空間特征(如3D ViT),當世界模型開始被壓縮進實時芯片(如Thor),讓這套復(fù)雜的融合架構(gòu),走好的玩家才是贏家。
原文標題 : VLA 與世界模型之爭:誰才是輔助駕駛的正確方向?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
推薦專題
- 1 2148萬樁蓄力突圍,政策組合拳如何撬動充電設(shè)施三年倍增?
- 2 國產(chǎn)智駕,“年內(nèi)超越特斯拉”?
- 3 2026年,各車企的自動駕駛方案到了什么階段(一)?
- 4 “狼”又來了!FSD中國版上線前夜,小米華為誰該失眠?
- 5 深度分享和分析華為2026乾崑技術(shù)大會:大家如何應(yīng)招?
- 6 2026年,各車企的自動駕駛方案到了什么階段(二)?
- 7 熱門爆款扎堆,2026北京車展重磅SUV盤點
- 8 2026北京車展前瞻 | 自動駕駛激戰(zhàn)正酣,車企圍攻“光明頂”
- 9 特斯拉官宣戰(zhàn)略轉(zhuǎn)型:主賣FSD、在建Optimus兩條產(chǎn)線!
- 10 【深度報道】商用車市場的“十五五”:存量競爭、轉(zhuǎn)型升級與生態(tài)重塑
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享










