VLA已死?這家公司想用 VLOA 給機(jī)器人裝上“物理直覺”

作者|李沐蓉
今年5月,英偉達(dá)機(jī)器人負(fù)責(zé)人 Jim Fan 在紅杉峰會上拋出一句話:「VLA已死」。
這四個(gè)字,把具身智能行業(yè)積壓已久的焦慮推上了臺面。
機(jī)器人泛化這道題,究竟該怎么解?
完成 10 億元 A 輪融資的 RoboScience,給出了自己的答案:VLOA(Vision-Language-Object-Action)。
VLOA,相比于 VLA 它在視覺和動作之間嵌入 Object,聚焦物體該怎樣動,模型不只是「看到并執(zhí)行」,而是能夠在一定程度上理解「動作如何在物理世界中發(fā)生與演化」。
VLOA 將任務(wù)轉(zhuǎn)化為對物體運(yùn)動軌跡的理解,再據(jù)此生成動作,這就從底層邏輯上一定程度上解決了泛化難題。
據(jù)了解,本輪融資主要用于持續(xù)深化 VLOA 模型,以及推進(jìn)自研機(jī)器人本體的工程化與量產(chǎn)。

10億融資背后,資本押的是什么?
資本對 RoboScience 的關(guān)注,其實(shí)在去年就已經(jīng)開始。
天使輪階段,京東、招商局創(chuàng)投、零一創(chuàng)投,便用兩億投出信任票。
到了今年 A 輪,融資規(guī)模進(jìn)一步擴(kuò)大,累計(jì)融資超過 13 億元,投資方包含多家國內(nèi)外知名產(chǎn)業(yè)巨頭和一線財(cái)務(wù)機(jī)構(gòu)。
資本持續(xù)追投的背后,是對團(tuán)隊(duì)能力和 VLOA 模型的押注。
RoboScience 團(tuán)隊(duì)的稀缺之處,在于它不僅擁有工程落地能力,更有前沿的學(xué)術(shù)研究成果。
創(chuàng)始人田野,本科畢業(yè)于中科大物理學(xué)院,后進(jìn)入斯坦福 AI Lab,師從吳恩達(dá)。
在蘋果工作的七年時(shí)間里,他擔(dān)任 Apple AI Platform 技術(shù)負(fù)責(zé)人,參與 Apple Intelligence、端側(cè)動態(tài)神經(jīng)網(wǎng)絡(luò)、編譯融合系統(tǒng)等核心項(xiàng)目研發(fā)落地,具備成熟的 AI 技術(shù)部署及生態(tài)構(gòu)建經(jīng)驗(yàn)。
這意味著,他并不僅理解模型,更理解如何把模型部署到硬件系統(tǒng)里。
團(tuán)隊(duì)另一位關(guān)鍵人物,首席科學(xué)家邵林,不僅是新加坡國立大學(xué)計(jì)算機(jī)系助理教授,還是 IEEE 機(jī)器人與自動化學(xué)會機(jī)器學(xué)習(xí)技術(shù)委員會的聯(lián)合主席。
他長期深耕于機(jī)器人感知與操作、強(qiáng)化學(xué)習(xí)、機(jī)器人操作模型等前沿領(lǐng)域,在 ICRA、IROS、IEEE 等頂會頂刊中發(fā)表過超 35 篇論文,技術(shù)成果走在行業(yè)前沿。

深受蘋果產(chǎn)品哲學(xué)的影響,這支團(tuán)隊(duì)從一開始就選擇了「模型自研+本體自研」的全棧路線。
他們認(rèn)為,如果模型和硬件脫節(jié),將永遠(yuǎn)無法真正理解機(jī)器人在真實(shí)世界里的失敗到底出在哪兒,是感知錯(cuò)了,還是執(zhí)行不了?閉環(huán)迭代必須自己掌控兩端。
這種「軟硬一體化」的布局正好契合了資本對硬科技閉環(huán)能力的偏好。
普華資本在領(lǐng)投 Pre-A 輪時(shí)的評價(jià),精準(zhǔn)概括了市場對這條路線的期待:
RoboScience 獨(dú)創(chuàng)的 VLOA 大模型架構(gòu),以及快慢腦分層系統(tǒng),不僅解決了行業(yè)長期存在的泛化性難題,更通過自研的 RoboMirage 仿真引擎構(gòu)建了高效的數(shù)據(jù)閉環(huán),為通用機(jī)器人的實(shí)現(xiàn)鋪平了道路。

VLOA模型,突破具身智能泛化瓶頸
過去兩年,VLA 模型幾乎成為整個(gè)機(jī)器人行業(yè)最主流的大腦模型,視覺看見環(huán)境、語言理解任務(wù)、動作執(zhí)行指令。
它給機(jī)器人提供了一套簡單、統(tǒng)一、易于講述的「大腦范式」,第一次讓機(jī)器人具備了任務(wù)理解能力。
優(yōu)必選 Walker S2、智平方 AlphaBot 2,都在不同程度上搭載或強(qiáng)調(diào) VLA 模型。
但問題逐漸暴露,VLA 似乎只能理解任務(wù),不能理解物理世界。
4 月,一篇發(fā)表在 arXiv 上的論文用因果干預(yù)實(shí)驗(yàn)論證了 VLA 模型在動態(tài)場景中「災(zāi)難性地失敗」。
當(dāng)環(huán)境發(fā)生變化時(shí),模型傾向于重復(fù)先前的動作,而不是根據(jù)新狀態(tài)調(diào)整,更嚴(yán)重的是,在復(fù)雜場景下,多模態(tài)語義特征會發(fā)生「語義坍塌」,導(dǎo)致模型失去區(qū)分能力。
Covariant 聯(lián)合創(chuàng)始人 Peter Chen 曾直言:
「VLA 擅長回答『這是什么』,卻不擅長回答『這樣做之后會發(fā)生什么』——它缺乏對物理因果鏈的理解。」
VLOA 模型,在傳統(tǒng) VLA 的基礎(chǔ)上,將「Object」單獨(dú)抽離出來,作為視覺-語言到動作之間的核心中間層。
RoboScience 認(rèn)為機(jī)器人所有操作,本質(zhì)上都是在改變物體在三維空間中的位置、姿態(tài)和交互關(guān)系。
無論是擰瓶蓋、疊衣服還是端起水杯,任務(wù)不管多復(fù)雜,最終都可以統(tǒng)一描述為「物體軌跡的變化」。
整個(gè)模型架構(gòu)拆成兩層:
上層是從 V→O(Vision to Object),由具身世界模型負(fù)責(zé)語義規(guī)劃,理解場景中的對象和指令意圖,回答物體應(yīng)該發(fā)生怎樣的狀態(tài)變化才算完成任務(wù);
下層 O→A(Object to Action),由通用操作模型負(fù)責(zé)物理執(zhí)行,讓機(jī)器人依據(jù)物理規(guī)律操作物體,使其產(chǎn)生期望的運(yùn)動變化。

兩層之間傳遞的,是以 3D 點(diǎn)云軌跡形式表達(dá)的物體軌跡(Object Trajectory),包括物體的位置、姿態(tài)、運(yùn)動方向以及預(yù)測置信度。
換句話說,VLOA 試圖把「物體運(yùn)動」變成機(jī)器人理解世界的基礎(chǔ)語言。
這樣的路線,相比 VLA 有三個(gè)優(yōu)勢。
第一,泛化基礎(chǔ)更接近真實(shí)物理操作。
傳統(tǒng) VLA 更像「動作記憶」,而 VLOA 關(guān)注的是物體運(yùn)動規(guī)律,它更接近真實(shí)世界操作本質(zhì)。
第二,實(shí)現(xiàn)跨本體泛化。
上層世界模型并不綁定具體機(jī)器人形態(tài),因此,同一套模型理論上可以遷移到不同機(jī)器人本體上,包括單臂、雙臂、人形、輪式機(jī)器人。
第三,更少的數(shù)據(jù)實(shí)現(xiàn)更優(yōu)的效果。
模型分層使得數(shù)據(jù)的收集和處理更有條理,他們抓住了機(jī)器人與物理世界交互的本質(zhì),關(guān)注物體運(yùn)動的軌跡,讓使得海量視頻數(shù)據(jù)都能成為訓(xùn)練資源,降低對真機(jī)數(shù)據(jù)的依賴。
據(jù)團(tuán)隊(duì)披露,目前具身世界模型已經(jīng)積累數(shù)百萬小時(shí)多模態(tài)操作數(shù)據(jù)集,并以每周數(shù)十萬小時(shí)速度持續(xù)增長。
不久前,馬斯克也提到要用視頻訓(xùn)練替代真機(jī)數(shù)據(jù),這也說明 RoboScience 路線的前瞻性。

泛化的終極答案,依然在路上
今天,整個(gè)具身智能行業(yè),其實(shí)都在圍繞同一個(gè)終極目標(biāo)展開競爭:通用機(jī)器人。
真正的通用機(jī)器人,不是只會完成一個(gè)任務(wù),而是能夠像人類一樣,在無限變化的世界中持續(xù)適應(yīng)。
當(dāng)前,具身智能泛化面臨著三重挑戰(zhàn):
任務(wù)泛化,機(jī)器人能否理解并執(zhí)行從未見過的新任務(wù)指令,而不是只能重復(fù)訓(xùn)練過的固定流程;
場景泛化,機(jī)器人能否在陌生環(huán)境中維持穩(wěn)定工作,從實(shí)驗(yàn)室走向真實(shí)世界之后,依然保持可靠性;
對象泛化,機(jī)器人能否操作訓(xùn)練中從未出現(xiàn)過的新物體,從不同材質(zhì)、形狀,到重量、摩擦力、柔性結(jié)構(gòu)都發(fā)生變化時(shí),依然具備穩(wěn)定操作能力。。
三重挑戰(zhàn),讓具身智能從「可用」邁向「可靠」,異常艱難。
VLOA 模型的出現(xiàn)為破解泛化瓶頸提供了一條極具想象力的技術(shù)路徑,其實(shí)目前整個(gè)行業(yè)都在多條技術(shù)路線上,對泛化難題進(jìn)行攻堅(jiān)。
今年 4 月,Physical Intelligence 發(fā)布了最新的π0.7 模型,展示出一種令研究團(tuán)隊(duì)自己都感到意外的「組合泛化能力」。
在訓(xùn)練數(shù)據(jù)中,模型幾乎沒有見過空氣炸鍋相關(guān)操作,僅存在兩個(gè)極其邊緣的關(guān)聯(lián)片段。
但模型最終卻能夠通過拼合不同機(jī)器人操作片段、網(wǎng)頁預(yù)訓(xùn)練知識以及歷史動作經(jīng)驗(yàn),形成對「空氣炸鍋如何工作」的功能性理解,并完成相應(yīng)任務(wù)。
利用組合泛化,模型不再死記硬背特定任務(wù)的解決方案,可以通過已有經(jīng)驗(yàn)遷移解決未知問題。
還有部分公司在推進(jìn)世界模型與 VLA 的融合路線。
智平方作為國內(nèi)最早布局端到端 VLA 的創(chuàng)業(yè)團(tuán)隊(duì)之一,在去年 11 月發(fā)布了 Video2Act 融合架構(gòu),將世界模型與 VLA 結(jié)合。
不僅讓機(jī)器人「理解任務(wù)」,還讓機(jī)器人能夠預(yù)測物理變化過程,從而提升復(fù)雜環(huán)境下的推理與決策能力。

京東 Joy Future Academy 在 VLA 的框架下,提出了 JoyAI-RA 0.1 模型,引入了統(tǒng)一動作空間,為不同形態(tài)的機(jī)器人提供一套統(tǒng)一的動作接口。
模型可以在同一個(gè)空間內(nèi)學(xué)習(xí)人類視頻、仿真軌跡和真實(shí)機(jī)器人動作,顯著提升了跨實(shí)體知識遷移的效率。
這背后,其實(shí)反映出行業(yè)另一個(gè)重要趨勢:機(jī)器人正在嘗試擺脫「一機(jī)一模型」的割裂狀態(tài)。
還有,魔法原子發(fā)布自研世界模型 Magic-Mix。
該模型由兩個(gè)核心引擎構(gòu)成,Magic-Mix WAM 負(fù)責(zé)物理環(huán)境理解、空間推演與動作決策;
Magic-Mix Creator 則作為離線數(shù)據(jù)生成引擎,通過合成大批量訓(xùn)練數(shù)據(jù),降低對昂貴、周期長的真機(jī)數(shù)據(jù)采集的依賴,為模型提供持續(xù)的數(shù)據(jù)供給,形成一個(gè)「數(shù)據(jù)生成-訓(xùn)練-反饋」的閉環(huán)。
本質(zhì)上,這套架構(gòu)直指 VLA 模型在真實(shí)世界中泛化不足和執(zhí)行不穩(wěn)定的長期痛點(diǎn),讓機(jī)器人能夠理解物理世界、預(yù)測未來并做出決策。
行業(yè)針對 VLA 模型的爭議,在 5 月英偉達(dá)機(jī)器人負(fù)責(zé)人 Jim Fan 在紅杉 AI Ascent 峰會上的發(fā)言中達(dá)到頂點(diǎn)。
他給出的論斷「VLA 已死」引發(fā)激烈討論。
雖然不少研究者認(rèn)為 VLA 仍在諸多場景中發(fā)揮著不可替代的作用,但這一聲音至少折射出整個(gè)行業(yè)對現(xiàn)有模型泛化能力的擔(dān)憂。
智源研究院院長王仲遠(yuǎn)指出,最現(xiàn)實(shí)的路徑是通過「VLA +強(qiáng)化學(xué)習(xí)」攻克具體場景,讓機(jī)器人先干起來,在真機(jī)運(yùn)行中積累更多數(shù)據(jù),形成數(shù)據(jù)閉環(huán),最后再解決泛化性難題。
而智平方創(chuàng)始人郭彥東的判斷則是:
VLA 遠(yuǎn)遠(yuǎn)沒有結(jié)束,它是通往物理世界智能的最強(qiáng)主航道,行業(yè)正快速向「世界模型+VLA」的混合路線靠攏,下一代機(jī)器人大腦是類腦 VLA。
在這樣的行業(yè)背景下,RoboScience 的 10 億元 A 輪融資,其實(shí)是資本對「AI 大腦路線」的投票。
VLOA ,不是讓模型記住更多場景,而是讓模型理解操作的物理本質(zhì),把「物體怎么動」學(xué)會,其泛化能力,最終必須讓成百上千臺機(jī)器人在真實(shí)環(huán)境中的持續(xù)運(yùn)行中得到驗(yàn)證。
目前陷入概念之爭,VLA是否已死、端到端還是分層、世界模型是終點(diǎn)還是過渡方案,還為時(shí)過早,也尚無必要。
最重要的是,如何通過架構(gòu)的創(chuàng)新去不斷提升模型的能力。
泛化這道題沒有標(biāo)準(zhǔn)答案,但方向是清晰的,無論哪條路,最終都必須讓模型從「看過什么做什么」,進(jìn)化到「理解了什么都能做」。
這場競賽的勝負(fù)手,不取決于誰先喊出下一個(gè)口號,而取決于誰先讓模型真正理解物理世界。
原文標(biāo)題 : VLA已死?這家公司想用 VLOA 給機(jī)器人裝上“物理直覺”
發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





