今日,美國具身智能創業公司 Physical Intelligence(簡稱 PI )發布了最新機器人基礎模型 π*0.6。
官方稱,過去一年,機器人成功完成一半任務并不難,但要讓它每次都成功卻非常困難,更不用說在現實世界達到人類水平。
現實世界的機器人任務需要一個可靠且快速運行的系統。PI 開發了一種名為 Recap(基于優勢條件策略的經驗與糾正強化學習)的方法,它實現了三個步驟:
通過演示訓練和糾正指導機器人,使其能夠從自主經驗中改進。
使用 Recap 改進了最新版本的視覺-語言-動作 (VLA) 模型 π 0.6 ,使其能高效地執行例如制作意式濃縮咖啡、組裝盒子和折疊各種衣物等復雜任務。
利用 Recap 對 π * 0.6 進行自主經驗訓練,可以使一些最困難任務的吞吐量提高一倍以上,并將故障率降低 2 倍或更多。
這使得 π * 0.6 能夠達到實際應用所需的魯棒性水平。它能夠連續一整天制作意式濃縮咖啡,在新家中連續數小時不間斷地折疊新衣物,以及組裝工廠中用于實際包裝的紙箱。
模仿學習還不夠
為什么僅靠模仿學習訓練的虛擬邏輯自動化(VLA)難以持續取得成功,而監督學習對邏輯邏輯模型(LLM)和其他機器學習系統卻如此有效?
由于機器人是在與真實的物理環境交互,像放錯位置等小錯誤會產生與訓練數據中略有不同的情況。在訓練數據中,機器人更有可能犯下更大的錯誤,從而導致誤差累積。
小錯誤可以糾正,但累積誤差會導致失敗。對于產生靜態輸出的人工智能系統(例如 LLM)來說,這并不是一個大問題。但實際上,這意味著 VLA 不能可靠地成功完成任務。
如果利用 VLA 自身行為的額外數據,就能解決這個問題。可以通過訓練 VLA 來糾正它在現實世界中實際犯的錯誤,累積性錯誤可以通過讓策略(即 VLA)反復練習來解決。
指導糾正,練習強化
Recap 提供了兩種從經驗數據中獲取良好訓練信號的方法:
指導以提供糾正,即專家向機器人展示如何糾正錯誤或做得更好;
強化學習,即機器人根據一個回合的總體結果自行判斷哪些行為更好或更差,并迭代地學習執行好的行為,同時避免壞的行為。
為了使指導有效,專家級遠程操作員需要提供糾正措施,指導機器人如何從實際操作中犯的錯誤中恢復。這這種干預針對的是策略實際應用到機器人所處的場景,從而解決了錯誤累積的問題。
然而,僅僅靠糾正是遠遠不夠的。糾正措施的監督質量取決于人能否準確把握干預時機并真正提供高質量的糾正。要快速、可靠且始終如一地完成任務,機器人需要自主學習。
核心挑戰在于功勞分配——理解機器人執行的哪些動作導致了良好的結果,哪些動作導致了不良的結果。
獎勵分配是強化學習中的一個關鍵挑戰,Recap 能夠預測特定情況相對于其他情況的優劣
例如,在國際象棋這樣的游戲中,智能體獲勝后會獲得獎勵,價值函數會根據當前的棋盤狀態預測智能體獲勝的概率。如果能夠從機器人的經驗中學習價值函數,就可以通過觀察價值函數的變化來判斷哪些行為是好是壞。
下圖展示了在執行“折疊衣物”過程中,價值函數所做的預測:
在執行時,只需指示經過優勢調整的 VLA 執行優勢較高的動作,從而得到一個比訓練數據更優的策略。
實際任務
團隊研究了三個應用場景:制作意式濃縮咖啡、折疊各種衣物以及組裝包裝盒。
Recap 的第一階段是使用離線強化學習 (RL) 對 π * 0.6 模型進行預訓練和微調,然后使用從機器人收集的額外數據,通過強化學習進一步訓練該模型。
值得注意的是,在一些難度較高的任務上,例如制作意式濃縮咖啡,我們看到了最大的改進,這些任務的吞吐量和成功率在加入機器人實際操作經驗后都提高了一倍以上。
從定性角度來看,最終的 π * 0.6 模型在學習了演示數據和機器人實戰經驗后,能夠熟練掌握各項應用。
每項任務都面臨諸多挑戰,使得高吞吐量的自主執行困難重重。即使對于目前最好的 VLA 模型來說,這些階段中的每一個階段都是具有挑戰性的,而 π * 0.6 可以以超過 90% 的成功率完成這些階段。
相關人員表示,專家提供的演示用于定義新的行為,輔導用于完善策略,而自主經驗用于完善行為,最終或許能夠使機器人達到超越人類的性能水平。
參考資料:
https://www.pi.website/blog/pistar06#where-are-we-headed