免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

<strike id="4iq0c"><s id="4iq0c"></s></strike>

<strike id="4iq0c"><s id="4iq0c"></s></strike><strike id="4iq0c"><rt id="4iq0c"></rt></strike>

<ul id="4iq0c"></ul>

當前位置： OFweek 人工智能網 > 機器學習 > 正文

谷歌提出非監督強化學習新方法助力智能體發現多樣化可預測新技能

2020-06-05 11:37

利用模型動力學實現基于模型的控制

DADS不僅可以發現可預測的潛在有用模型，同時允許高效地將學習到的技能應用于下游任務中去。可以利用學習到的技能動力學來預測每個技能的狀態轉移，預測的狀態轉移可以被銜接起來模擬任意技能的完整狀態軌跡，而無需在環境中執行。因此我們可以模擬不同技能的軌跡，并為給定的任務選擇最高獎勵的技能。基于模型的規劃方法具有很高的樣本效率并無需額外的訓練。相較于先前的方法是一個重要的進步，無需針對學習到的技能在環境中進行額外的訓練。

利用智能體發現的技能，就可以在無需額外實驗的情況下遍歷任意檢查點。上圖顯示了主體在檢查點間的遍歷情況。

真實實驗

為了驗證算法的有效性，研究人員針對這一算法提出了簡化版本off－DADS，通過離線學習對算法和系統上的改進，使得模型可以利用從不同策略下收集的數據來改進當前策略。特別是對于先前數據的復用將顯著提升強化學習算法的樣本效率。在改進的離線策略基礎上，研究人員從隨機初始化策略開始訓練了小四足機器人，在沒有任何環境獎勵和手工探索策略的情況下，通過DADS定義的內部獎勵實現了多種步態和方向性運動。

這種新穎的非監督學習技能發現方法可以在將來被用于更為廣泛的真實世界任務中，在最小化人類工作的情況下適應廣泛場景和任務需求。未來研究人員們將在狀態表示和技能發現間進行更為深入的研究，并探索將高級的運動規劃和底層的控制進行分離的技能探索策略。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<strike id="4wigc"></strike>