亚洲一区二区三区国产精品无码 ,四虎国产精品永久免费网址

您的位置：首頁>關注 >

南棲仙策提出新型環(huán)境特征編碼器學習算法，有效提升環(huán)境識別的泛化能力

2024-01-29 16:04:37 來源：實況網

基于上下文的離線元強化學習（Context-based OMRL）通過構建一個上下文編碼器，將收集到的上下文數(shù)據(jù)映射到任務表征，進一步基于任務表征來自適應的在多個環(huán)境中進行決策。然而，在離線的情形下，任務表征的編碼器極大的依賴于用于訓練的離線數(shù)據(jù)的豐富程度。當數(shù)據(jù)采集有限，以至于與特定采樣策略的特點耦合時，學習的任務編碼器通常會難以獲得較好的泛化能力，進而影響元強化學習的性能。

基于此，南京大學&南棲仙策團隊合作提出了一種基于模型對抗樣本增強的環(huán)境特征編碼器學習，task Representation learning via adversarial Data Augmentation (ReDA)算法，并發(fā)表在AAMAS24會議上。這一方法可以應用于元強化學習的環(huán)境特征識別上，緩解了以往算法中環(huán)境特征和采樣策略耦合的影響，從而使得我們在樣本受限的實際場景中可以提升環(huán)境特征編碼器的泛化能力，進而提高元學習策略的表現(xiàn)，推進強化學習在現(xiàn)實世界的應用落地。

離線元強化學習環(huán)境特征耦合問題

離線元強化學習（Offline Meta Reinforcement Learning）是一種重要的機器學習技術，其結合了離線和元學習兩種方法優(yōu)勢，可以幫助智能系統(tǒng)從以往的多種環(huán)境的離線經驗中學習，以提高在新環(huán)境下的泛化能力。通過離線數(shù)據(jù)，系統(tǒng)可以更有效地利用以往的經驗，而無需實時與環(huán)境進行交互，從而提高數(shù)據(jù)利用效率。并且，由于在不同的環(huán)境下進行學習，而不僅僅是在當前環(huán)境下，也極大的提高了策略的泛化能力。

在很多實際應用中，實時與多種環(huán)境交互收集數(shù)據(jù)可能會很昂貴或不切實際，離線元強化學習為這些場景提供了解決方案。離線元強化學習可以使強化學習技術更易于應用和部署，在提高泛化能力、數(shù)據(jù)效率、穩(wěn)健性以及降低成本等方面具有重要意義，尤其是在實際應用中，如機器人控制與路徑規(guī)劃、自動駕駛系統(tǒng)、智能游戲角色、智能物流和倉儲以及工業(yè)自動化等方面具有廣泛的用途。

離線元強化學習中，主要的方法是基于上下文的離線元強化學習。該類方法將策略建模為兩部分：第一部分是環(huán)境特征提取器，可以將歷史收集到的上下文數(shù)據(jù)映射到環(huán)境特征上；第二部分是基于環(huán)境特征的條件策略，在給定的當前狀態(tài)和得到的環(huán)境特征的條件下進行決策。第一部分的任務編碼器是非常重要的，提取的環(huán)境特征將直接決定了下游的元策略的學習質量和泛化能力。

然而，以往的環(huán)境特征編碼學習需要依賴非常豐富且多樣的數(shù)據(jù)進行學習，這在很多真實的物理場景中是不現(xiàn)實甚至存在一定危險的，比如機器人等。以往的工作中，環(huán)境特征提取是基于對比學習直接在離線數(shù)據(jù)集上進行訓練的：

由于對比學習直觀上就是減小相同任務的上下文表征的距離，增大不同環(huán)境的上下文表征的距離，通常需要收集到非常豐富的離線數(shù)據(jù)集來獲得一個魯棒且可泛化的環(huán)境表征，例如CORRO[1]需要使用整個訓練期間的所有策略檢查點來收集數(shù)據(jù)，這在真實場景中是不現(xiàn)實的，顯然整個訓練流程中的數(shù)據(jù)對于現(xiàn)實任務例如機器人控制任務是很難獲取的，甚至獲取過程中存在一定的不安全因素。因為很多時候我們無法獲取如此豐富的樣本來訓練一個好的環(huán)境特征編碼器，所以我們需要去關注數(shù)據(jù)集有限時環(huán)境編碼器的學習問題。

簡單以倒立桿任務（InvertedPendulum）為例，我們的訓練數(shù)據(jù)是重力1.0下的高質量數(shù)據(jù)和重力2.0下的低質量數(shù)據(jù)，然后使用上下文數(shù)據(jù)是1.0倍重力下的低質量的數(shù)據(jù)進行測試（圖1-a），對數(shù)據(jù)集的分布進行降維可視化展示（圖1-b），發(fā)現(xiàn)測試數(shù)據(jù)到同樣環(huán)境下的訓練數(shù)據(jù)的距離，并沒有相對其他環(huán)境的訓練數(shù)據(jù)的距離更加接近（圖1-c），這樣的情況下，僅僅依賴于數(shù)據(jù)集的對比學習，由于缺少足以代表環(huán)境任務特征的樣本，將很難保證任務表征的泛化能力。

圖1. (a). 訓練數(shù)據(jù)和測試數(shù)據(jù) (b). 數(shù)據(jù)分布的可視化 (c). 測試數(shù)據(jù)到不同任務的訓練數(shù)據(jù)的相對距離

基于模型的對抗樣本增強

為了讓環(huán)境特征編碼器更好地捕捉到環(huán)境特征而非采樣策略本身的特征，我們提出了一種基于模型的對抗樣本增強的方法，產生更多的不同于數(shù)據(jù)集的數(shù)據(jù)來訓練環(huán)境特征編碼器。

首先我們基于每個任務的數(shù)據(jù)集，分別學習各個任務上的轉移模型：

在學習好可以用來交互的環(huán)境模型后，接下來我們需要面臨的問題是：1.采集什么樣的樣本來有效增強任務編碼器的能力？2.如何緩解環(huán)境模型誤差帶來的影響？

對于這兩個問題，我們引入了一個對抗采樣策略，該策略的優(yōu)化目標主要由三部分組成：

·最小辨識度的樣本：我們需要采集讓任務編碼最難區(qū)分的樣本，即該樣本到相同任務的距離和到其他任務的距離差距不大。所以我們考慮這樣的樣本需要具備的特點是，當它被加入上下文之后，會導致基于上下文的對比學習的損失函數(shù)上升。所以我們使用該損失函數(shù)變化的程度來作為優(yōu)化的獎勵信號，如果對比損失上升越大，說明該樣本的引入使得任務編碼器更加難以識別環(huán)境了。定義該樣本加入前的任務表征為z_t，加入該樣本后的任務表征為z_t+1，單步的獎勵定義為：

·模型不確定性懲罰：我們并不希望對抗策略去搜索模型中誤差過于大的區(qū)域，所以參考MOPO我們基于不確定性度量給出對樣本的懲罰。

·任務相關獎勵：我們使用了任務的獎勵函數(shù)來避免對抗策略去搜索和任務無關的樣本。

綜上所述，我們最終得到了在模型上搜索對抗樣本的對抗策略的優(yōu)化目標：

基于該對抗策略搜索到的增強樣本，我們得到了新的環(huán)境特征編碼器的優(yōu)化目標：

該目標是一個標準的強化學習的定義，所以可以使用SAC等算法求解。

整體的算法流程如下圖所示，首先基于離線數(shù)據(jù)集學習轉移模型，然后在轉移模型上獲得對抗策略，并產生對抗數(shù)據(jù)訓練任務編碼器，再基于任務編碼器訓練最終的元策略。

圖2. 算法流程

整體訓練的算法描述如下：

技術驗證

基于倒立桿的環(huán)境與數(shù)據(jù)集，我們對我們的方法進行了簡單的驗證，首先定義相對距離：

該距離描述了相同任務下訓練集和測試集的距離與不同任務下訓練集和測試集的距離的差異，如果該距離越小，說明我們的表征訓練的泛化能力越好，通過和FOCAL[2]等基礎算法進行對比，我們發(fā)現(xiàn)ReDA顯著的提升了表征的泛化能力（圖3-b），并且取得了更好的測試性能（圖3-a）。這一結果表明，我們學習到的環(huán)境表征解耦了采樣的策略特征，從而更好的泛化到了更多數(shù)據(jù)上。

圖3. 倒立桿多種方法下的表征與性能

整體性能

我們設計了兩種模式進行測試，第一種是on-policy模式，上下文的樣本來源于當前策略的采樣；另一種是off-policy模式，策略來源于數(shù)據(jù)集以外的其他樣本。這兩者都是在實際部署時最常需要使用的上下文樣本，并且都存在和訓練集存在一定的偏差。我們參考以往的工作構建了MuJoCo上的多任務數(shù)據(jù)集，包括HalfCheetah、Hopper、Walker2d、Ant在Gravity、Dof-Damping等模擬器參數(shù)變化下的多任務數(shù)據(jù)集。在訓練過程中我們只使用幾個檢查點的數(shù)據(jù)，然后使用其他檢查點的數(shù)據(jù)作為off-policy模式下的測試數(shù)據(jù)。實驗結果如下：

圖4. on-policy模式下的性能

其中[任務] [參數(shù)類型]-[數(shù)字]的格式表示使用的訓練數(shù)據(jù)集是哪個任務的哪類參數(shù)，總共使用了幾個檢查點的數(shù)據(jù)去訓練。

圖5. off-policy模式下的性能

可以看到，通過引入基于模型的方法，學習一個泛化能力更強的環(huán)境特征提取器，極大地提高了元策略的表現(xiàn)，使離線元強化學習得以在樣本受限的情況下仍然取得一個不錯的性能。

本文關注低數(shù)據(jù)情境下的離線元強化學習（OMRL），強調了環(huán)境表示學習與數(shù)據(jù)收集策略分離的重要性，并提出了對抗數(shù)據(jù)增強的實際解決方案；訓練了轉移模型和對抗性策略來增強離線數(shù)據(jù)集，以應對數(shù)據(jù)集受限的情況。希望這項研究能夠激發(fā)對數(shù)據(jù)采樣策略在元強化學習中的影響，以及OMRL測試基準標準化的進一步探索。

免責聲明：市場有風險，選擇需謹慎！此文僅供參考，不作買賣依據(jù)。

關鍵詞：

免責聲明：本網站所有信息，并不代表本站贊同其觀點和對其真實性負責，投資者據(jù)此操作，風險請自擔。

上一篇： Dbank超級比特幣礦場投產 BitGood智能算力上線

下一篇：最后一頁

亚洲国产成人久久三区,在线播放中文字幕,精品无码国产自产拍在线观看蜜 ,55大东北熟女啪啪嗷嗷叫

南棲仙策提出新型環(huán)境特征編碼器學習算法，有效提升環(huán)境識別的泛化能力

南棲仙策提出新型環(huán)境特征編碼器學習算...

Dbank超級比特幣礦場投產 BitGood智能算力上線

“領航企業(yè)”名單公布！博威合金母公司...

維視智造榮膺2023光能杯“最具影響力智...

尼得科動力系統(tǒng)研發(fā)出混合動力電動汽車...

匯川技術榮獲CMCD2023年度運動控制領域...

寶驪為意大利機械“高手”打造全新搬運車隊

優(yōu)化軸承性能：球軸承的表面質量

專訪指令集CEO 宋楊博士：堅持創(chuàng)新驅動...

京東工業(yè)發(fā)布太璞數(shù)智供應鏈解決方案 ...

中信泰富特鋼（興澄特鋼）全球特鋼行業(yè)...

全球特鋼行業(yè)首家！中信泰富特鋼入選全...

MACART馬牌機電落戶河南長垣市，攜手打...

柯馬為蜂巢傳動部署高效混動專用變速器...

尼得科儀器株式會社開發(fā)出適用于真空環(huán)...

博威合金出席第三屆中國互連技術與產業(yè)...

直擊匯川技術生態(tài)鏈雙選會南昌站｜恰同...

直擊匯川技術生態(tài)鏈雙選會南昌站｜恰同...

抵達廣東！“匯川號”為“制造之都”賦...

《中國品牌檔案》聚焦地下安全的守護者...

以“釘釘子”精神答好鄉(xiāng)村振興“必答題”

好生活在“路”上好日子甜心上

全省公安機關重拳打擊“兩卡”違法犯罪行為

南棲仙策提出新型環(huán)境特征編碼器學習算法，有效提升環(huán)境識別的泛化能力

南棲仙策提出新型環(huán)境特征編碼器學習算法，有效提升環(huán)境識別的泛化能力