3個月連融5億,這家公司手握2026年具身智能流量密碼

作者 | 毛心如
今年,具身智能領域什么詞最火?VLA(視覺-語言-行動模型)一定能占領一席之地。
無論是行業(yè)還是學界,對 VLA 的關注都來到了新高度。根據(jù)公開信息統(tǒng)計,在今年的三大機器學習頂會之一,ICLR,VLA 模型相關投稿量從去年的個位數(shù)飆升至 164 篇,足足增長了 18 倍。
這一技術路線因其能實現(xiàn)從視覺感知到動作執(zhí)行的端到端映射,被視為實現(xiàn)通用機器智能的捷徑,吸引了大量研發(fā)投入。
然而,在表層共識之下,一場關于技術終局的深刻思辨早已暗流涌動。
早在今年 8 月的 2025 世界機器人大會上,王興興直言不諱地稱當下火熱的 VLA 模型是相對比較傻瓜式的架構,并表示保持比較懷疑的態(tài)度。
這一炸裂觀點在業(yè)內引發(fā)了廣泛熱議,而其背后的邏輯更值得深究。
他認為如果模型只是表面地把視覺、語言和行動拼接起來,卻沒有穩(wěn)定的世界表示與預測能力,這樣的系統(tǒng)在真實世界交互時會暴露出短板,例如對數(shù)據(jù)質量和多樣性的過度依賴、對長期規(guī)劃和因果推理能力不足等。
因此,王興興傾向于將更多資源投向世界模型路線。
這一判斷也呼應了多位業(yè)內人士的觀點,即世界模型有望緩解具身智能在數(shù)據(jù)稀缺與泛化困難上的核心瓶頸,極可能在 VLA 之后,成為 2026 年的核心技術趨勢。
事實上,這場關于終極智慧的博弈不僅存在于人形機器人行業(yè),在智能駕駛,這個被視為具身智能先行區(qū)的賽道,像特斯拉、小鵬等頭部玩家們也在端到端、VLA、世界模型三條線路里探索、權衡。
技術路線的選擇,很可能決定未來 5 年的產業(yè)格局。
最近,專注世界模型的初創(chuàng)公司極佳視界獲得了 2 億元的 A2 輪融資,此前,極佳視界已分別完成 Pre-A、Pre-A+、A1 連續(xù)三輪融資,3 個月內連續(xù)完成了 4 輪累計 5 億元 A 輪系列融資。
投資方包括中金資本、國中資本等傳統(tǒng)機構以及華為哈勃這樣的產業(yè)資本。
值得注意的是,華為哈勃目前在具身智能領域的投資標的較為有限,極佳視界是其中之一。
這一投資動作,與華為將世界模型列為「未來智能世界 2035 年十大技術趨勢之首」的戰(zhàn)略預判不謀而合。
目前,極佳視界正在以世界模型為業(yè)務核心,同時布局智能駕駛和機器人兩條業(yè)務線。
這家公司的技術選擇和商業(yè)化路徑,恰好提供了一個絕佳樣本,讓我們得以觀察世界模型是否真能成為下一代機器人的通用大腦。
一支全棧式頂級團隊
雖然已至年末,但具身智能行業(yè)的融資熱度并未消減,少量大額融資與密集多輪融資仍在輪番上演。極佳視界顯然屬于后者。
驅動這一系列資本動作的,是一支在學術、工程、產業(yè)和算法四個維度均配備頂尖人才的復合型創(chuàng)始團隊。
這種覆蓋全鏈條的全棧式配置,在具身智能初創(chuàng)公司中尤為罕見。
黃冠:創(chuàng)始人兼 CEO,連續(xù)創(chuàng)業(yè)者,曾在微軟、地平線等企業(yè)從事算法開發(fā)工作
朱政:首席科學家,清華博士后,超 70 篇頂會論文;圈內公認學術大牛
毛繼明:工程副總裁,曾擔任百度 Apollo 仿真和工程負責人
孫韶言:產品副總裁,曾擔任阿里云總監(jiān)、地平線數(shù)據(jù)閉環(huán)產品線總經理
陳新澤:算法負責人,AI 世界冠軍得主
極佳科技創(chuàng)始人&CEO 黃冠
具身智能領域的競爭,本質上是頂尖人才的競爭。
從技術角度講,極佳視界的團隊架構呈現(xiàn)出一種高維跨界特征,有效地彌合了傳統(tǒng) AI 研究中視覺感知、物理理解和機器人控制三者之間的鴻溝。
從公司運營角度講,這種頂尖學術與大規(guī)模工業(yè)落地經驗的組合,也構成了極佳視界的競爭優(yōu)勢。
基于這種復合能力,極佳視界選擇了一條看似更難、卻更利于構筑長期護城河的商業(yè)化路徑:在智能駕駛與通用具身智能兩大戰(zhàn)場同時推進,并致力于打通從大腦到身體的全棧閉環(huán)。
除了團隊光環(huán),極佳視界的自我造血能力也是資本看好的關鍵。極佳視界以空間智能相關研發(fā)為起點,推出了面向物理空間的數(shù)據(jù)引擎和面向虛擬空間的內容引擎兩個方向的技術。
目前其產品包括世界模型平臺 GigaWorld、具身基礎模型 GigaBrain、通用具身本體 Maker 等全棧軟硬件產品。
商業(yè)化層面,其在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作。
在具身世界模型、具身大腦等方向也已和多個具身本體、終端公司達成簽約合作,應用于科研教育、數(shù)據(jù)采集、工業(yè)業(yè)、服務業(yè)等多個場景。
搭好了智能大腦的臺子,極佳視界也并沒有把自己局限在一個軟件提供商的角色。
隨著大模型業(yè)務的初步穩(wěn)定,今年年中,極佳科技開始組建機器人團隊,試圖將大模型能力應用至輪臂機器人。
今年 10 月底,其與湖北人形機器人創(chuàng)新中心達成戰(zhàn)略合作,共建全球首個世界模型驅動的虛實結合具身智能數(shù)據(jù)工廠。
11 月底,極佳視界推出首款輪式人形機器人 Maker H01,同時啟動規(guī)模化量產交付。
Maker H01 標準版高度約為 1.6 米,全身擁有 20+自由度,專為家庭、商業(yè)服務與輕工業(yè)等開放場景設計。目前正逐步在物品取放、巡檢接待、實驗協(xié)助、倉儲搬運等真實業(yè)務場景落地。Maker H01 的正式發(fā)布也標志著極佳視界階段性完成了行動核心+數(shù)據(jù)引擎+物理載體的三位一體產品架構。
這種從算法、軟件到硬件的閉環(huán)布局,不僅驗證了其世界模型的技術,更意在搶占從智能到智能體的完整生態(tài)位,為其長期競爭奠定基礎。
用世界模型做技術深潛
極佳視界的敘事核心,圍繞世界模型展開。
但世界模型到底是什么?它為什么被認為是下一代機器人大腦的關鍵?
通俗理解,我們可以把世界模型看作一個學習了物理規(guī)律的數(shù)字沙盤。
在這個沙盤里,AI 可以模擬現(xiàn)實世界的運作,比如一個玻璃杯從桌邊掉落會摔碎,推動一個箱子需要克服摩擦力。
借助這個沙盤,機器人不用在現(xiàn)實世界中經歷多次且緩慢的試錯,就能預先腦補出各種行動的結果,并學習最優(yōu)策略。
這也正是極佳視界技術范式的精髓,世界模型+行動模型+強化學習的三位一體。
在這個體系中,三者分工明確:
世界模型負責構建高保真的物理環(huán)境,解決機器人在不同場景下的泛化能力問題
行動模型作為指揮中樞,負責理解復雜的多模態(tài)指令并將其分解為行動序列
強化學習則讓機器人在虛擬環(huán)境中通過反復試錯,不斷優(yōu)化行動策略,提升任務的完成精度與魯棒性
在這一架構下,原生世界模型 GigaWorld-0 充當基石與養(yǎng)料,而原生行動模型 GigaBrain-0 則掌控決策核心。
GigaWorld-0 通過幾何一致、物理準確的建模機制,大規(guī)模生成高保真交互數(shù)據(jù),實現(xiàn)數(shù)據(jù)放大效應,讓模型訓練擺脫了對昂貴且耗時的真實世界數(shù)據(jù)的依賴。
這是極佳視界專為 VLA 模型訓練打造的世界模型框架,也是業(yè)內首個采用 FP8 精度端到端訓練的世界模型。
這里值得一提的是,F(xiàn)P8 精度訓練作為一種計算效率高、內存占用低、通信帶寬需求小的技術,被廣泛應用在 Deepseek-V3、GPT-4 等大語言模型訓練中,可在保持模型性能的同時大幅提升訓練速度。
其成功將世界模型生成數(shù)據(jù)在 VLA 訓練中占比提升至 90%,是全球范圍內首個實現(xiàn)的模型公司。
數(shù)據(jù)的量變帶來了能力的質變。經過生成數(shù)據(jù)訓練的 VLA 模型在新紋理、新視角、新物體位置三大泛化維度上均實現(xiàn)了近 300% 的性能提升。
在 PBench(Robot Set)基準測試中,GigaWorld-0 以最小參數(shù)量達成最高整體性能。這種小參數(shù)量+高性能的特性,為后續(xù)的工程化落地掃清了成本障礙。
GigaBrain-0 則是一款端到端的決策控制模型,專為具身智能體設計。
極佳視界團隊認為,目前具身智能的瓶頸存在三大挑戰(zhàn),一是高質量數(shù)據(jù)稀缺,真機采集的成本高、效率低;二是仿真數(shù)據(jù)存在仿真到現(xiàn)實的誤差,難以直接利用;三是傳統(tǒng)仿真器的建模誤差制約強化學習效果。
而有世界模型 GigaWorld-0 加持下的 GigaBrain-0 將有潛力打破這些瓶頸。
基于 VLA 架構,該模型融合了圖像、深度、文本及本體狀態(tài)等多模態(tài)輸入,能夠輸出結構化的任務規(guī)劃與運動指令。
針對當前機器人在操作精度與推理能力的短板,GigaBrain-0 重點強化了 3D 空間感知與結構化推理能力,提升其在復雜環(huán)境中的導航精度與長序列任務執(zhí)行能力,讓機器人擁有更強的泛化性能。
在制作咖啡、整理桌面、搬運物品等復雜任務中,其模型性能不僅全面超過了π0,還能跟π0.5 相當。
值得一提的是,其端側部署能力也很強。經深度優(yōu)化的輕量級變體模型 GigaBrain-0-Small,在 NVIDIA Jetson AGX Orin 平臺上的推理延遲僅為 0.13 秒,遠低于 π 的 1.28 秒。
而任務成功率卻與π0 的 80% 持平,這代表著在資源受限設備上,模型依然能進行高效實時推理。這一點直擊傳統(tǒng)大模型算力需求高、難以部署的痛點。
總的來說,GigaBrain-0 的性能優(yōu)勢有三點:
訓練數(shù)據(jù)來源更豐富:在紋理、光照、視角變化下表現(xiàn)更魯棒、泛化性更好
架構更深:關鍵子模塊引入更深層建模,操作表現(xiàn)更精細
有大小雙版本模型:小模型可達大模型 90% 效果,且可在端側 Orin 實現(xiàn)實時推理
極佳視界的首席科學家朱政表示,現(xiàn)在 VLA 模型與世界模型越來越呈現(xiàn)合二為一的趨勢。
但這其中,世界模型的作用顯著。除了可以提供數(shù)據(jù)之外,還可以在 VLA 里加上隱式的未來狀態(tài)預測和顯式的未來視頻預測,能夠克服行動環(huán)節(jié)監(jiān)督太過稀疏的缺點。
誰先在機器人大腦拿下話語權
無論是今年大熱的 VLA 模型,還是被寄予厚望的世界模型,其本質都是具身智能大腦在不同階段的范式演進。
盡管終極范式尚無定論,但世界模型已引發(fā)全球產業(yè)界和學術界的關注。無論是英偉達的 COSMOS,還是谷歌的 Genie-3,巨頭紛紛入場。
這背后,是一場關于機器人大腦底層話語權的爭奪。
目前來看,業(yè)內匯聚了三股主要力量參與其中:
第一股是具有場景與量產路徑的汽車主機廠商,例如特斯拉、小鵬等。
他們的優(yōu)勢在于擁有真實的駕駛數(shù)據(jù)和閉環(huán)場景。特斯拉每天有數(shù)百萬輛車在路上跑,產生的真實駕駛數(shù)據(jù)是任何初創(chuàng)公司難以企及的。
但泛化受限的劣勢同樣明顯:從車端智能遷移到通用機器人,需要解決全新的平衡、操作與復雜交互難題。
第二股是海內外的平臺級大廠,國內字節(jié)、阿里,國外谷歌、英偉達等。
這類玩家擁有算力優(yōu)勢、數(shù)據(jù)體量,推出的模型往往具有更強的泛化能力和多模態(tài)理解水平,但大多公司傾向于先在云端形成規(guī)模化能力再向邊緣延展。
第三股是專注具身智能業(yè)務的初創(chuàng)公司,如 Figure AI、極佳視界、星動紀元等。
具身初創(chuàng)企業(yè)們最大的優(yōu)勢在于路徑純粹、業(yè)務聚焦,他們沒有歷史包袱,敢于押注前沿技術路線。
然而,資金和場景制約是他們難題。訓練一個高質量的世界模型可能需要數(shù)萬 GPU 小時的算力投入,這對初創(chuàng)公司是巨大的燒錢游戲。
同時,他們缺乏自有的大規(guī)模硬件生態(tài)和真實的數(shù)據(jù)閉環(huán),也需要高度依賴外部合作伙伴提供落地場景和數(shù)據(jù)回流。
無論三路玩家誰先爭得話語權,也都要先解決當前行業(yè)發(fā)展的三大瓶頸。
首先是真實世界的數(shù)據(jù)缺失,語言大模型的成功源于互聯(lián)網文本數(shù)據(jù)的爆發(fā),但具身智能需要具備高維物理信息的真實數(shù)據(jù)。
目前像極佳視界用世界模型試圖通過合成數(shù)據(jù)來破局,但如何減少仿真環(huán)境中訓練的策略在真實世界部署時性能下降的問題,確保模型在模擬器中學到的行為在真實世界中穩(wěn)定可靠,是所有玩家面臨的挑戰(zhàn)。
其次是算力與推理成本的挑戰(zhàn),要訓練好一個足夠聰明能理解世界的模型,需要的算力消耗會遠超當前的語言大模型。
而且機器人必須在毫秒級時間內做出決策和反映,這意味著算力不能只集中到云端也需要下沉到邊緣側。
這就直接推高了具身智能的燒錢門檻。
這也正是極佳視界在 3 個月內密集融資 5 億元的深層邏輯,押注世界模型不只是一場技術競賽,更是一場資本的耐力賽。
對于初創(chuàng)公司而言,能夠持續(xù)獲得機構、產業(yè)資本及地方資本的青睞,確保持續(xù)的彈藥補給,是能在這場馬拉松中跑到最后的必要條件。
最后是生態(tài)層面的挑戰(zhàn),目前「傳感器-執(zhí)行器-模型」的數(shù)據(jù)閉環(huán)規(guī)模化搭建仍處于初級階段。
盡管世界模型的出現(xiàn)為數(shù)據(jù)生成提供了新路徑,但如何構建可持續(xù)的數(shù)據(jù)源生態(tài),也是行業(yè)需要解決的核心問題。
話語權的爭奪戰(zhàn)才剛剛拉開序幕。未來的勝負手,將取決于兩個核心要素:
其一,模型通用化程度。誰能率先訓練出一個不限于特定硬件或場景的通用模型,誰就掌握了核心話語權。
其二,生態(tài)構建能力。在未來,具身智能的競爭將不再是單一技術點的較量,而是圍繞著模型、數(shù)據(jù)、硬件和應用場景的生態(tài)之戰(zhàn)。
擁有最廣泛的合作伙伴、能夠形成最快速的數(shù)據(jù)飛輪的公司,才有可能在長期競爭中笑到最后。
而當機器人的大腦真正具備了通用的物理理解能力,物理世界的 ChatGPT 時刻才會真正降臨。
原文標題 : 3個月連融5億,這家公司手握2026年具身智能流量密碼
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市


分享













