小鵬和理想均押注VLA,兩者技術各有啥特色?
隨著高級輔助駕駛功能越發完善,高速NOA、城市NOA的使用已經較為普遍,這其中離不開VLA(視覺-語言-動作)模型的推動。
VLA大模型的出現,也標志著行業正式從“感知識別”邁向了“理解決策”。以前的智駕系統更像是一個經驗豐富的“反射神經”,看到紅燈就停,看到障礙物就繞,但它并不理解為什么要這么做。
VLA模型把人類的常識、邏輯推理能力與駕駛行為直接掛鉤。通過將海量的圖像數據與語言理解能力結合,模型不再只是計算像素點,而是像人類一樣去“觀察”并“理解”物理世界的因果關系,最后直接輸出方向盤轉角、剎車力度等控制指令。這種從輸入到輸出的跨越,讓車具備了處理從未見過的新場景的能力。
簡單理解下VLA模型,其就是讓車輛做到了“看懂世界、理解意圖、做出動作”這三件事。

圖片源自:網絡
最近理想汽車和小鵬也相繼發布了最新的VLA模型,讓自動駕駛的技術競爭進入了一個全新的階段。那這兩家發布的VLA模型都有哪些特色?都就解決了自動駕駛的哪些問題?今天智駕最前沿就帶大家來聊一聊。
在開始今天的話題前,先申明一下,本次內容的素材均源自于理想與小鵬發布的內容,若內容出現歧義或存在錯誤,也歡迎大家評論區補充。
理想MindVLA-o1,在隱空間里推演未來
從理想的MindVLA-o1的介紹中來看,MindVLA-o1偏“體系化設計”。它不只是一個模型,而是一整套從數據、模型到訓練和部署的閉環系統。

圖片源自:理想汽車微信公眾號
理想明確引入了3D建模能力。通過視覺模型結合激光雷達點云作為幾何提示,讓模型在內部形成更穩定的空間結構表示。這一點和純視覺路線相比,更強調“物理一致性”,也更利于處理如遮擋、坡道、非規則障礙物等復雜空間關系。
理想還在MindVLA-o1中引入了預測式隱世界模型,可以在隱空間中高效模擬未來。簡單理解,就是讓模型不僅可以看當前,還能在內部模擬未來幾秒的場景變化。對于自動駕駛來說,很多駕駛動作本質上就是對未來的預測,這種能力如果做得好,可以顯著提升決策穩定性。
在行為生成部分,理想還采用了VLA-MoE(混合專家模型)+Action Expert(動作專家)、并行解碼(Parallel Decoding)以及Discrete Diffusion(離散擴散)等更結構化的方式。這類設計的目標很明確,就是讓輸出軌跡在時間上更連續,在物理上更合理。
理想還投入大量精力在仿真和強化學習上,通過可控環境進行大規模訓練,再結合真實數據閉環。這種方式的優勢是可以覆蓋大量長尾場景,而不完全依賴真實道路采集。
同時,理想在模型設計階段就考慮硬件限制,通過軟硬件協同去優化部署效率,這對于大模型落地是非常關鍵的一步。
整體來看,理想MindVLA-o1是一條更偏長期能力構建的路線,強調模型結構、訓練體系和工程閉環的完整性。
小鵬第二代VLA,更偏產品化和數據閉環
小鵬的第二代VLA更強調盡快在真實用戶場景中跑起來。它的核心思路是盡量減少規則依賴,用大模型去直接學習駕駛行為,并通過車端數據不斷迭代。

圖片源自:小鵬微信公眾號
其一個比較關鍵的特點是對連續視頻流的使用。相比傳統只用關鍵幀或抽象特征,小鵬更強調時間連續的信息輸入,這讓模型在處理前車減速、行人橫穿等動態場景時更穩定,決策不會出現明顯跳變。
在感知中小鵬并沒有強調復雜的顯式三維重建,而是更依賴模型自身去學習空間關系。這種做法的好處是結構更簡單,端到端程度更高,但代價是對數據規模和模型能力依賴更強。
小鵬第二代VLA另一個明顯特征是“分層產品策略”(含三個版本)。高算力平臺承載完整能力,再通過蒸餾壓縮到中低算力車型。這其實是一個典型的工程折中,其既保證了技術上限,又能快速規模化落地。
從體驗指標來看,小鵬更關注接管次數、重剎等用戶感知明顯的指標。這說明它的優化目標更偏“駕駛是否自然、是否讓人放心”,而不是單一的技術指標。
此外,小鵬還強調“軟硬結合”,通過自研的圖靈AI芯片,他們把硬件的有效算力發揮到了極致。在小鵬的架構中,模型不再是一個孤立的算法,而是與芯片指令集、AI編譯器深度綁定的整體。這種設計讓模型能以極高的頻率去吞吐視頻流數據,確保了在復雜路況下的實時響應速度。
整體來看,這是一條以真實數據驅動為核心、強調快速迭代和規模落地的路線。小鵬的技術邏輯其實也非常清晰,既然物理世界的數據量巨大且連續,那就通過最強悍的算力底座和最高效的模型架構,直接去消化這些海量信息。
智駕最前沿觀點?
對比這兩家的方案,智駕最前沿以為它們在解決自動駕駛上限問題時選擇了不同的發力點。理想試圖通過構建完美的物理模型和模擬器,讓車學會如何像人一樣去思考物理定律,從而在未知的環境中找到答案。它的優勢在于它對場景的還原度和對未來的預測精度,這讓它的車在面對復雜路口和人車交互時,表現得更加冷靜且符合邏輯。
而小鵬則更看重系統的爆發力和執行效率。其強調大模型帶來的能力提升必須建立在高效的算力流轉基礎之上,所以他們把大量的精力花在了如何讓大模型在有限的端側設備上跑得更順暢、吞吐量更大。
如果說理想是在提升車的“智商”,那么小鵬就是在通過重構身體結構(芯片與編譯器)來釋放大腦的潛力。
從這兩家發布的技術中,我們也可以看到一個清晰的趨勢,自動駕駛正在加速向具身智能演進。無論是理想的“數字大腦”類比,還是小鵬對“物理AI”基座的重構,其實都在表達同一個觀點,那就是車只是AI介入物理世界的第一個載體。
未來的核心競爭力,不再是某一個功能可以做到什么程度,而是誰能構建出一套通用性最強、自進化速度最快的底層架構。
在我看來,目前的難點其實在于端側部署的效率紅線。即便模型再聰明,如果在車端運行時的延遲過高,一切都是空談。因此,小鵬這種從底層芯片開始重構的路徑,在長遠來看具有極強的技術護城河。而理想通過世界模型實現的閉環強化學習,則在數據獲取成本和模型進化效率上找到了平衡。
未來這兩條路線可能會殊途同歸,即在擁有強大硬件底座的基礎上,通過世界模型進行大規模的自我進化。
-- END --
原文標題 : 小鵬和理想均押注VLA,兩者技術各有啥特色?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













