谷歌提出非監督強化學習新方法助力智能體發現多樣化可預測新技能
利用模型動力學實現基于模型的控制
DADS不僅可以發現可預測的潛在有用模型,同時允許高效地將學習到的技能應用于下游任務中去。可以利用學習到的技能動力學來預測每個技能的狀態轉移,預測的狀態轉移可以被銜接起來模擬任意技能的完整狀態軌跡,而無需在環境中執行。因此我們可以模擬不同技能的軌跡,并為給定的任務選擇最高獎勵的技能。基于模型的規劃方法具有很高的樣本效率并無需額外的訓練。相較于先前的方法是一個重要的進步,無需針對學習到的技能在環境中進行額外的訓練。


利用智能體發現的技能,就可以在無需額外實驗的情況下遍歷任意檢查點。上圖顯示了主體在檢查點間的遍歷情況。
真實實驗
為了驗證算法的有效性,研究人員針對這一算法提出了簡化版本off-DADS,通過離線學習對算法和系統上的改進,使得模型可以利用從不同策略下收集的數據來改進當前策略。特別是對于先前數據的復用將顯著提升強化學習算法的樣本效率。在改進的離線策略基礎上,研究人員從隨機初始化策略開始訓練了小四足機器人,在沒有任何環境獎勵和手工探索策略的情況下,通過DADS定義的內部獎勵實現了多種步態和方向性運動。


這種新穎的非監督學習技能發現方法可以在將來被用于更為廣泛的真實世界任務中,在最小化人類工作的情況下適應廣泛場景和任務需求。未來研究人員們將在狀態表示和技能發現間進行更為深入的研究,并探索將高級的運動規劃和底層的控制進行分離的技能探索策略。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













