剛剛,千尋智能開源了自研 VLA 基礎模型 Spirit v1.5,該模型在第三方機器人模型評測組織 RoboChallenge 的 Table30 榜單上位列第一,超過了之前最強模型 Pi0.5。
機器人基礎模型近年來迅猛發展。大規模視覺-語言-動作(VLA)模型開始展現出清潔廚房、在全新環境中折疊衣物等長時任務。
許多最先進的模型都基于“干凈”的數據集進行訓練。這些數據集的設計初衷是盡可能方便機器人復現演示動作,而這一目標也對數據施加了一些嚴格的限制:
雖然這種“干凈”的方法提供了一個穩定的起點,但它限制了機器人的泛化能力。如果機器人只在一切都完全可見且可到達的環境中學習,那么當面對開放世界中諸如部分可觀測性等問題時,它很可能會失敗。
千尋智能這種基于精心篩選數據的常見做法提出了質疑。為了超越實驗室環境,實現真正的泛化,他們提倡使用多樣化且很大程度上不受控制的數據進行機器人預訓練。
開放式多樣化數據收集
在傳統的定向采集方法中,子任務通常遵循單一的線性路徑走向成功,任何偏離理想化順序的情況都被視為失敗,并在數據采集過程中被舍棄。
相比之下,多樣化采集范式構建了一個更為復雜、相互關聯的經驗網絡。雖然它仍然包含一條通往目標的成功路徑,但也融入了諸如失敗-重試循環和偏離等真實場景。這種多樣性使機器人能夠學習恢復行為,并在重疊的任務之間平滑過渡。
通過強制數據采集者遵循預設的腳本采集而成的數據往往面臨低多樣性和有限的可擴展性這兩大問題。
由于數據經過高度優化,模型無法學習如何從失誤中恢復、如何處理雜亂的表面,或者如何在光線變化時做出反應。
除此之外,每個演示驅動的數據集都需要精心設計任務和進行質量控制,這造成了嚴重的擴展性問題。對于每個新的場景,一個工程師團隊都必須設計任務、編寫詳細的數據采集員操作指南并篩選數據。這種工作流程限制了可收集的數據量。
千尋智能提出一種范式轉變,即摒棄大部分保證數據“干凈”的規則,只遵循一條規則:做有用的事。這種方法稱為開放式、目標驅動的數據收集,或稱多樣化收集。
來源:千尋智能
這種方法具有以下幾個關鍵優勢:
多樣性和物理協調:數據包含了海量的物體交互、軌跡和環境信息。每次記錄都自然而然地將多個不同的任務或子任務串聯起來。它并非只是重復單一動作,而是記錄了技能的連續流動,以及不同目標之間的轉換。多樣化的采集方法不再局限于學習如何孤立地完成某個特定動作,而是學習一系列技能及其相互聯系,從而使模型知識更加通用。
可擴展性:多樣化的數據收集方式對操作人員來說更有趣、更具吸引力,因為他們可以從事各種有趣的工作,而不是重復數百次枯燥的動作。這有助于團隊保持高效率,減少邊際成本。
多樣性作為訓練燃料
研究團隊建立了兩組模型。一組是在經過精心挑選的演示任務的數據集上進行預訓練。另一組是使用包含開放式多樣化數據集的預訓練模型。
結果表明,多樣性優勢顯著。在微調階段,使用多樣化數據集訓練的模型在收斂速度和最終性能方面均優于基于演示數據集的模型。具體而言,多樣化數據集模型達到相同性能所需的迭代次數比基線模型減少了 40%。
除了比較數據類型之外,團隊還發現遷移效率與多樣化數據量呈正相關。隨著數據集的增長,新任務的驗證誤差持續下降,這表明模型有效地學習如何從日益增長且固有的現實世界多樣性中學習。這些發現表明,任務多樣性比單個任務的演示數量更為關鍵。該模型學習到一種通用策略,只需更少的步驟即可適應新任務。這證實了,使用高多樣性、控制較為寬松的數據進行預訓練不僅是可行的,而且優于使用文獻中常見的“干凈”數據。
在最近一次評估中,Spirit-v1.5 在基準測試中取得了最先進的性能,顯著優于之前的領先者,例如 pi0.5。在 RoboChallenge 的設置中,所有模型都使用同一組數據對 Table30 任務進行微調。因此,區分因素在于基礎模型的能力,特別是其泛化和遷移能力,而這正是多樣性的優勢所在。
參考資料:
https://www.spirit-ai.com/en/blog/spirit-v1-5