99%具身智能數據缺口背后,誰在“賣鏟子”?
文|周享玥
編|趙艷秋
人形機器人能在春晚上跳舞,能跑馬拉松,卻擰不開一個陌生的瓶蓋。
這是因為數據不夠“見過世面”。2026年,當資本狂潮席卷具身智能賽道,一個殘酷的真相正在浮出水面:高質量具身數據,已經成為鎖住具身智能進化的最大枷鎖。面對高達99%的數據缺口,賽道內各玩家都卯足了勁兒在搞數據建設。這一年也因此被認為是具身智能的“數據規模化元年”。
“我們理解的‘元年’,不是問題解決了,而是行業第一次從‘做 Demo’進入‘做規模化數據系統’的階段。”光輪智能相關人士告訴數智前線。他們觀察到三件事正在發生:第一,百萬小時級有效的高質量數據已成為頭部團隊的入場門檻;第二,數據投入從邊緣預算躍升為核心預算;第三,越來越多真實產業場景開始為具身智能訓練、評測和部署所需的數據基礎設施買單。
AI圈向來有一條鐵律:最先賺錢的永遠是“賣鏟子的人”。2026年,一場關于具身智能的數據生意,正在悄然沸騰。
01
具身數據,需求爆發
2026年初,具身智能領域的數據需求正在快速升溫。
“我覺得百倍于去年的需求。”光輪智能聯合創始人兼總裁楊海波透露,作為具身數據領域的獨角獸企業,光輪智能的數據業務增勢明顯,2026年一季度已拿下5.5億元訂單,超過2025年全年訂單總額,刷新行業紀錄。國際主要具身智能團隊中,超80%的仿真資產與合成數據來自該公司。
這背后,是數據正被提升至前所未有的戰略位置。“今年以來,具身數據已從附屬投入轉向核心預算項,成為客戶預算中增長最快的板塊之一。”光輪智能相關人士告訴數智前線,行業已清晰認識到,決定模型能力上限和場景落地速度的,不只是算法和本體,更在于有沒有持續、可迭代、可評測的數據供給體系。
智元機器人旗下覓蜂科技董事長兼CEO姚卯青也感受到這股熱浪。他在4月透露,數據需求目前集中在前沿大模型團隊、海內外具身智能大廠及初創公司,“需求方普遍處于‘你有多少我就買多少,你什么時候有,我馬上要’的狀態。”
在他看來,數據將像算力一樣成為基礎生產要素,帶有投資屬性和回報周期。“賣鏟子的人最先賺錢。”姚卯青認為,現階段行業需要海量數據來研發、驗證,進而催生應用,參考基礎設施先行邏輯,數據的回報周期會比本體機器人或面向具體行業的解決方案來得更快。
業界普遍認為,這波需求大爆發背后,主要有三大驅動因素:
第一,“大腦”進化倒逼數據“口糧”。 制約機器人規模化落地的核心瓶頸,已從硬件和底層運控轉向“大腦”,即具身智能模型本身的欠缺。具身VLA與世界模型正在快速突破,開始進入更復雜任務空間,這個過程中,必須以海量數據喂養。
第二,產業落地加速,數據需求從實驗室級別轉向部署級別。當機器人開始進入工廠、物流、商業等真實場景,其對數據規模的要求顯著提升。“機器人完成單一任務可能需要一個千小時級的訓練數據,復雜任務則更多。”楊海波說。
第三,非本體數據的價值被驗證,采集效率躍升。過去,具身數據采集主要依靠實驗室手動操作,一天僅能采集數十小時數據,遠遠無法滿足具身智能模型訓練與產業落地所需的數據規模;如今,VR遙操作、外骨骼、UMI、Ego等技術逐漸成熟,數據采集從小規模、低效率的“手工作坊”,走向更大規模、更高效率的數據規模化生產階段。
然而,與爆發式需求形成鮮明對比的,是嚴重的“數據荒漠”。行業共識是,訓練具備通用泛化能力的具身模型,至少需要千萬小時級數據支撐。但截至2026年初,全球高質量真實物理交互數據總量僅約50萬小時,不足大語言模型訓練數據的兩萬分之一。CSDN的數據也顯示,具身智能需要數百PB級物理交互數據,當前缺口超99%。
機遇與卡點并存下,一場關于具身數據的爭奪戰,已經開始打響。
02
數據金字塔,玩家卡位
面對99%的數據缺口,供給側已告別零散試水,迅速掀起數據基建狂潮。
“百萬小時”成為入局標配門檻,靈初智能、鹿明機器人、星海圖等集體沖刺百萬小時級有效數據采集。京東提出兩年內采集100萬小時機器人本體數據+1000萬小時人類真實場景視頻數據。覓蜂科技官宣,2026年將落地千萬小時級數據產能。
行業大規模擴產背后,是一套“數據金字塔”普遍共識:頂層為真機數據,精度最高、貼合真實場景,但成本高昂、供給稀缺;中層是仿真合成數據,低成本、易規模化量產,但面臨“Sim-to-Real”(仿真到現實)遷移難題;底層為互聯網視頻、人類行為數據,泛化性強,但精度低,需大量清洗與動作對齊。三類數據缺一不可,行業玩家正圍繞金字塔全面卡位布局。
供給側最先落在了金字塔尖的真機數據。其中,主流遙操作數據被視為“黃金數據”,由專業人員通過主從控制或VR設備遠程操控真實機器人完成精細動作。據第三方數據,截至2026年4月初,全國規劃或擬建成的
具身智能數采中心、創新中心與訓練場已達到64座,覆蓋至少27個城市。
頭部企業已成為建設主力軍:智元在上海、成都等地布局數采中心;鹿明機器人建成3個標準化數采場。帕西尼繼去年4月落成天津數采工廠后,今年宣布將在宿遷、武漢、贛州等再建4座數采工廠。京東計劃發動60萬人眾包采數。地方政府如上海張江建成全國首個異構人形機器人訓練場,年內目標采集500萬條真機數據。
不過,受限于采集成本與效率,真機數據很難快速規模化。行業加速轉向“強化中層仿真數據+夯實底層人類數據”的混合策略,以降低對昂貴真機數據的絕對依賴。
仿真合成數據是目前實現規模化數據生產的主流路線。光輪智能判斷,未來仿真數據將承擔規模化預訓練、評測和強化學習任務,人類視頻數據提供行為先驗,真機數據更多用于場景對齊和1%的最終調優。為此,光輪智能自研物理仿真引擎,復刻真實世界的物體運動和形變規律,并圍繞“世界—行為—評測”三層架構,構建覆蓋仿真世界生成、規模化數據生產、模型能力評測的技術體系。
真機、仿真數據之外,以UMI、Ego-centric數據(第一人稱人類視頻數據,以下簡稱Ego數據)為代表的無本體數據正在異軍突起。這類數據僅通過采集員佩戴可穿戴設備即可記錄操作軌跡,兼具高效、低成本與強泛化性。姚卯青透露,國內真機數據市場價格約為500-1000元/小時,無本體數據采集效率大概會是真機兩三倍,雖曾因規模化不足出現過報價更貴的情況,但預計最終將收斂至真機數據的三分之一到二分之一。
其中,UMI方案通過人工手持夾爪演示操作、并由攝像頭記錄整個過程,只要夾爪外觀與攝像頭參數一致,數據可通用于不同機械臂,支持跨本體數據復用。而Ego數據通過頭戴、腕戴設備采集第一人稱視角與動作信息。兩種方案都更容易實現“眾包采集”。
鹿明機器人發布FastUMI無本體數采產品“全家桶”,計劃2026年建成超100萬小時UMI數據產能。京東推出自研超高清采集終端JoyEgoCam,適配倉儲、零售、家政等場景。覓蜂科技發布了MEgo系列無本體數據采集設備,且計劃的年內千萬小時級數據產能中,有60%-70%將來自無本體采集。
具身數據市場正在加速爆發,但百萬小時遠非終點,行業真正的瓶頸不是單一數據源,而是缺乏統一、可流通、可持續的數據基礎設施。京東推出具身智能數據全鏈路基礎設施及數據交易平臺。樂聚聯合中國移動、華為、阿里云等共建數據生態。覓蜂科技定位一站式物理AI數據服務平臺。光輪智能也在持續完善具身數據引擎,搭建仿真生態與評測閉環,計劃今年聯合超1000家場景方產出1000萬小時具身數據。
03
什么樣的數據,能喂飽具身智能?
隨著具身智能的數據爭奪戰打響,一個關鍵問題浮出水面:數據需求方在采購時最關注什么?什么樣的數據,才是當下行業最迫切需要的“好數據”?
光輪智能相關人士告訴數智前線,今天客戶采購具身數據時,最關注的已經不是“量大不大”或“單價高不高”,而是這批數據能不能真正轉化成模型能力提升,買的也不只是“數據量”,而是“能否支撐訓練、評測和部署閉環的系統性能力”。
庫帕思具身數據解決方案負責人曹宇也表示,他們與頭部公司交流后的普遍反饋是,現在算法最需要的不是再來一批數據,而是數據能直接喂給模型就跑起來的方法——圍繞最終的商業化應用場景倒推,數據該怎么采集、標注、訓練、評測,效果能否講清。行業正追求“AI ready”狀態。
京東具身智能相關人士指出:“客戶首先關注數據種類,會問你是遙操的還是頭戴的;其次關心是否已處理成標注好的數據,標注了哪些維度,比如手部關鍵點、位置、文本描述,精度是毫米級還是厘米級。”這些都會成為具身企業是否選擇使用數據的重要參考。
業界觀察,真正高質量的具身數據,通常同時滿足四個條件:
第一,物理真實。這是底線。與互聯網圖文數據不同,具身數據不僅要畫面真實,更要能精準還原接觸、受力、狀態變化等關鍵物理信息;數據缺乏物理真實性,訓練出的機器人在真實世界中會極易出現抓取落空、操作失衡等問題。
第二,可規模化。能支撐預訓練和持續迭代,而不是只夠做幾個 Demo。光輪智能創始人CEO謝晨強調,同時具備足夠可規模化,足夠可以終身學習的,才是好數據。
第三,多樣性足夠高。模型需要看到世界的全貌,這就要求數據所覆蓋的場景、任務、執行路徑、操作習慣要足夠多元,尤其不能只有完美的成功軌跡。光輪智能楊海波強調,失敗、有瑕疵的數據同樣具備極高價值,“我們曾有客戶以1.5倍價格收購這類‘不那么成功’的案例數據。”覓蜂科技姚卯青也表示,采集中會刻意抓取失敗并從失敗中恢復的數據。
其邏輯在于,在預訓練階段,數據的“多樣性”比“正確性”更重要。如同嬰兒在試錯中學會走路,具身智能也需要從正誤混雜的數據中,自主習得物理規律與因果邏輯。真實世界并不存在永遠標準的動作,很多包含“失敗—糾正—成功”過程的數據,反而因更接近真實世界的學習路徑而更有價值。
由此,極佳聯合創始人兼首席科學家朱政指出,“業界的一些工作,比如只定義最后的目標,而不去嚴格定義采集的過程,讓這種采集員去盡可能依靠自己的理解去發揮去采集,我覺得這是一個比較好的開端。”朱政說。
螞蟻靈波科技首席數據科學家黃用韜補充,工廠固定工位流水線數據,雖然體量龐大、動作高度標準一致,但同質化嚴重,對模型能力提升邊際價值較低,高質量具身數據更看重多元性而非單純規整度。
第四,端到端可用。極佳朱政指出,當前具身數據標注普遍過于簡略。傳統多模態圖文模型,單張圖片會配有數千字精細化標注,完整還原場景背景、畫面細節與多元理解視角;而現階段具身視頻數據,大多僅有基礎動作標簽,缺少環境語義、任務過程的細致描述,遠不能滿足高質量模型訓練需求。
除了這四個維度,行業還提出了一個更深層的標準:行為對齊。智源研究院具身Infra&數據負責人姚國才認為,具身數據的使命是更好地表征人類行為,讓模型與人類行為對齊。真正有價值的數據,應高保真、多樣化地捕捉并記錄人類的真實行為模式,包括那些無意識的隱蔽行為——比如拿水杯前先判斷它是否干凈。這類細節正是當前多數模型與數據體系還沒有考慮進去的。
以當下備受關注的Ego數據為例,其核心價值之一在于 in the wild(在自然/真實場景下)采集,捕捉日常生活中的各種行為模式。但許多數采廠商仍沿用人為設計任務的思路讓數采員反復采集,恰恰把這類數據最重要的 in the wild的自然行為捕捉丟棄了。此外,為了更精準地表征行為意圖,肌電、腦電等與人類意圖緊密關聯的數據模態,也正成為高質量具身數據的重要探索方向。
從需求結構看,光輪智能告訴數智前線,目前最迫切的數據需求,主要集中在生產制造、倉儲物流等場景,尤其是柔性裝配、搬運,以及一些工作環境惡劣危險、重復單調的任務。這類場景一方面真實落地價值最明確,客戶付費意愿更強;另一方面,對物理交互、穩定性和泛化能力要求更高,也正是當前高質量具身數據最稀缺的地方。
04
還有哪些卡點?
盡管具身數據的熱度持續攀升,但不可否認的是,當前具身數據的規模化進程仍存在諸多卡點。
首先,行業內存在大量“非共識”。智源研究院姚國才指出,當前行業最大的問題是“太著急”,“尤其今年Ego起來后,哪個公司不說自己要百萬小時數據,都不好意思出門。”但對于實現AGI需要多少數據、哪些模態、如何評價質量等,大家還沒有想清楚。他認為,具身數據在數據科學層面仍有諸多問題尚未解答,比如如何精準表征人類行為以對齊模型,遠未到通過數據工程Scale up的階段。
成本與效率是最直觀的障礙。極佳聯合創始人朱政透露:“采一小時數據大概需要200塊錢,按這個成本很難采集幾百億小時。”賽迪智庫報告也顯示,單臺設備產出1萬小時真機數據需耗費上百萬元,且一人一天僅能采集300~500條。UMI、Ego等新采集模式雖降本提效,但也帶來了新挑戰。阿里云高級算法專家張民英建議借鑒特斯拉Shawdow模式,當預測行為與真實行為不一致時,這段數據即為高價值長尾數據,值得優先采集。
數據利用率也是問題。上海交通大學副教授李永露透露,他們從約12萬小時Ego-centric人類行為數據篩選后,真正可用于VLA預訓練的不超過5000小時;前不久某機構公開的11萬小時工廠視頻數據,樂觀估計可用比例約3%,“我們需要新的架構、新的范式。”朱政也坦言,公司用幾十萬小時數據訓練模型,每年GPU就要花掉幾千萬,如果數據規模擴大100倍甚至1000倍,創業公司根本扛不住,“所以我非常贊同Scale數據的同時,還要去努力改善模型架構,提高運行效率。”
認知與需求對齊難,是數據采集的隱性卡點。北京人形具身智能負責人車正平指出,比如精細操作時,數采員是用肉眼或VR去看,而機器人依賴手眼相機,視角偏差若不及時提醒,視覺gap可能直接導致數據“不可用”。
螞蟻靈波科技首席數據科學家黃用韜進一步總結三種“無法對齊”:學習對象與數據不對齊,遙操作動作質量天花板遠低于人類真實能力;任務分布與數據不對齊,采集動作單一且受環境約束,比如采集的多是抓拿放動作,而用戶要的是切菜洗碗;機器人本體間不對齊,不同機器人的自由度、傳感器布局、零位誤差各異,數據無法統一。
數據標準體系缺失,是行業最底層的痛點。當前,數據采集格式、標注規范、質量評估都缺乏統一標準,不同廠商的機器人構型、傳感器布局各異,采集出來的數據格式千差萬別。智源研究院姚國才坦言:“我們在訓模型時有大量時間都在做數據格式轉化,轉化完后涉及到許多標準定義的問題,比如坐標系定義不一樣,還得再去做數據處理。”
標準的缺失,也使得數據價值難以準確衡量。原力靈機聯合創始人范浩強表示:“現在在市面上去看這些數據叫挑花了眼,啥樣的都有,但說到底我需要什么、還缺什么,很難回答。”他建議以Benchmark為牽引,形成“測評→數據→模型”閉環,正如ImageNet 同時作為數據集和測評標準,推動了上一波視覺革命。
目前國內已加快標準建設步伐:2025年9月,上海發布人形機器人數據集標準;2026年3月,工信部出臺國內首個覆蓋全產業鏈的標準頂層設計文件。企業側,光輪智能通過“仿真生成、評測驗證、少量真實對齊”的閉環能力,提升產業場景數據的跨本體復用效率,在部分典型項目中將開發周期從3-6個月壓縮至約2周,顯著降低真機試錯成本。此外,覓蜂科技推出MEgo Engine一站式數據治理平臺,京東也發布了首個覆蓋“采、存、標、訓、評、仿、測”全流程的具身智能數據基礎設施。
業內人士認為,行業目前距離“數據充足”還很遠,真正稀缺的不是數量本身,而是高質量、可復用、可評測、能進入閉環的數據。誰能率先打通從數據到價值的閉環,誰就能在下一階段占得先機。
2026 年,站在規模化的關鍵拐點上,具身智能數據的故事才剛剛開始。


分享













