具身智能 PoC,需過真機這一關

超 30 起融資、約 200 億資金,這是具身智能在 2026 年 Q1 的融資情況,超越 2025 年全年。
行業節奏快得前所未有。各家紛紛押注具身大模型,「具身大腦」成了最熱關鍵詞。
但技術路線仍未收斂,到底誰更領先,根本沒法放在同一場景里比較。發布會一場接一場,Demo 視頻越來越精彩,可沒人能說清:這個模型究竟強在哪、強多少、在什么條件下成立。
光鮮的演示背后,是統一評測標準的缺失。現在的具身智能,不缺資本追捧,不缺宏大敘事,更不缺看似聰明的大腦,唯獨缺一把能客觀衡量能力、錨定真實水平的尺子。

Demo 刷屏背后,具身智能還未跨過真機的坎
這兩年,具身智能的 Demo 刷屏不斷:四足機器人翻山越嶺,人形機器人完成精細操作,大模型加持下的機械臂看似無所不能。
但熱鬧背后,是行業普遍存在的「落地焦慮」——仿真環境里的「完美表現」,到了真實場景中往往水土不服。
在一些機器人演示案例中常常可以看到,在實驗室預設場景中,機械臂能精準抓取、擺放物體,成功率高達 98%,但當測試環境調整為普通家庭廚房(物體雜亂、光線不均),成功率直接跌至 30% 以下。
這種「實驗室里能行,真實場景不行」的尷尬,在當前具身模型中非常普遍。

和當年 AI 領域的 ImageNet、NLP 領域的 GLUE 不同,具身智能需要的是一個在真實世界中的評測體系。
優秀的真機評測對具身模型而言,早已不是可有可無的輔助,而是決定行業能否健康發展、突破瓶頸的關鍵,更是破解當前行業混沌的唯一路徑。
這種標準各異帶來的后果,意味著研發資源在分散中內耗:
有的團隊專注于單一任務優化,有的團隊深耕仿真場景,但都難以突破「泛化能力」這一核心瓶頸,行業也陷入了「Demo 繁榮、落地滯后」的循環。
事實上,RoboChallenge 此前推出的 Table30 V1 版本,已通過 4 萬+次真機測試。結果發現,即便是當前最頂尖的具身模型,30 項任務的平均成功率也只有 51%。
這不是某家公司的問題,這是行業現狀。

Table30 V2,不堆任務,只把真機評測的「尺子」校嚴
RoboChallenge Table30 V2 的出現,全面面向模型泛化。
V2 的核心判斷是:
評測要模擬真實環境,價值不在于任務數量,而在于能否逼出模型的真實邊界。Table30 V2 完成了全面升級,它沒有盲目堆加任務數量,而是精準瞄準當前具身模型的短板,突出一個模型多個任務,試圖把衡量模型能力的「標尺」校得更準、更嚴。

在保留 12 個經典任務的基礎上,Table30 V2 新增 18 個雙臂靈巧操作任務,總任務數達 30 個,每一個都直擊當前模型的短板。
新增任務聚焦三個方向:軟體處理、工具使用和雙手同步操作。
軟體處理,考驗的是模型對非剛性物體形變的理解,這是當前很多模型的「軟肋」;
工具使用則檢驗模型的泛化能力,看它能否靈活運用工具完成跨物體操作;
雙手同步操作則針對雙臂協同的難點,測試模型的時序協調與空間感知能力。
評測機制方面,V2 強制要求單一模型應對所有 30 項任務,不允許針對單個任務單獨調優——這意味著,模型必須具備真正的多任務泛化能力,而非「應試優化」,從根源上杜絕了「為評測而評測」的偽突破。
同時,V2 新增了零樣本評測賽道,引入域外場景測試。簡單說,就是讓模型去應對從未見過的環境和物體,直接檢驗它的泛化邊界。
除此之外,還新增了完成時間評分維度,不只看「能不能完成」,更看「完成得夠不夠快」,更貼近工業生產、家庭服務等真實場景部署的效率要求。
系統優化層面,V2 的系統吞吐量提升超 300%,大幅縮短了評測周期,讓更多模型能在短時間內完成全量測試。
對于缺乏自有硬件的學界團隊和中小企業來說,這也降低了參與評測的門檻,無需投入巨資搭建硬件測試環境,只需上傳模型即可參與標準化評測,有助于形成開放、透明、可復現的行業生態。
無論是希望測試自己模型的團隊、希望參與任務設計的研究者,還是希望接入評測數據的企業,Table30 V2 都提供了入口。

具身智能破局,靠的是行業共建而非單兵作戰
回望 AI 每一次真正意義上的躍遷,背后幾乎都有一個共同的推手——統一的評測基準。ImageNet 讓計算機視覺從百花齊放走向可比較、可積累;
GLUE 的出現,讓 NLP 研究者第一次有了共同的對話語言。基準不是終點,而是起跑線被拉齊的那一刻。
具身智能走到今天,同樣到了需要「拉齊起跑線」的時候。
但這件事的難度,遠比當年的 ImageNet 更高。因為它不只是標注一批圖片、跑一個排行榜那么簡單——它需要真機、真場景、真操作,需要有人愿意開放數據、愿意暴露自己的短板、愿意把私有標準放進公共框架里接受檢驗。
這是一件反商業直覺的事,卻是整個行業必須有人去做的事。
Table30 V2 的意義正在于此。它不是要做一份行業排名,而是想成為一個共識生長的地方——讓研究團隊看清自己在泛化能力上的真實位置,讓企業在選型時有據可依,讓整條產業鏈的資源不再因為標準各異而內耗損耗。

無論是希望測試自己模型的團隊、希望參與任務設計的研究者,還是希望接入評測數據的企業,Table30 V2 都提供了入口。
它將在 CVPR 2026 GigaBrain Challenge 研討會期間正式上線,以開放的姿態邀請全球團隊參與共建:校準標準、補充場景、共享數據。
只有當所有玩家都放棄私有標準,用同一把尺子衡量進步,具身智能才能迎來自己的「ChatGPT 時刻」,讓機器人真正從實驗室走進千行百業。
原文標題 : 具身智能 PoC,需過真機這一關
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













