強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力( 二 )


強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


該訓練方法結合了三個關鍵部分:1)指導智能體學習的課程(curriculum);2)基于模型的RL算法來訓練具有大規模注意力記憶的代理;以及,3)蒸餾以實現擴展 。
1. 開放端任務空間:XLand 2.0
XLand 2.0相比XLand 1.0擴展了生產規則的系統,其中每條規則都表達了一個額外的環境動態,從而具有更豐富、更多樣化的不同過渡功能 。
XLand 2.0是一個巨大的、平滑的、多樣化的適應問題的任務空間,不同的任務有不同的適應性要求,如實驗、工具用法或分工等 。
例如 , 在一個需要實驗的任務中,玩家可能需要識別哪些物體可以有用地結合,避免死胡同,然后優化他們結合物體的方式,就像一個玩具版的實驗化學 。
強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


每個任務可以進行一次或多次試驗,試驗之間的環境會被重置,但智能體記憶不會被重置 。
上圖中突出顯示的是兩個示例任務,即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」,展示了目標、初始物體、生產規則以及智能體需要如何與它們互動以解決任務 。
2. 元強化學習
根據黑箱元RL問題的設置,研究人員將任務空間定義為一組部分可觀察的馬爾科夫決策過程(POMDPs) 。
對于一個給定的任務,試驗的定義為從初始狀態到終端狀態的任意轉換序列 。
在XLand中,當且僅當某個時間段∈[10s, 40s]已經過去時 , 任務才會終止,每個任務都有具體規定 。環境以每秒30幀的速度變化 , 智能體每4幀觀察一次 , 因此任務長度以時間為單位,范圍為[75, 300] 。
一個episode由一個給定任務的試驗序列組成 。在試驗邊界,任務被重置到一個初始狀態 。
在領域內 , 初始狀態是確定的,除了智能體的旋轉,它是統一隨機抽樣的 。
在黑箱元RL訓練中,智能體利用與廣泛分布的任務互動的經驗來更新其神經網絡的參數,該網絡在給定的狀態觀察中智能體的行動政策分布提供參數 。
如果一個智能體擁有動態的內部狀態(記憶),那么元RL訓練通過利用重復試驗的結構,賦予該記憶以隱性的在線學習算法 。
在測試時 , 這種在線學習算法使智能體能夠適應其策略,而無需進一步更新神經網絡權重 , 也就是說,智能體的記憶不是在試驗邊界被重置,而是在episode邊界被重置 。
3. 自動課程學習(Auto-curriculum learning)
鑒于預采樣任務池的廣度和多樣性,智能體很難用均勻采樣進行有效地學習:大多數隨機采樣的任務可能會太難(或太容易),無法對智能體的學習進度有所幫助 。
相反,研究人員使用自動化的方法在智能體能力的前沿選擇相對「有趣 」(interesting)的任務,類似于人類認知發展中的「近側發展區間」(zone of proximal development) 。
具體方法為對現有技術中的no-op filtering和prioritised level replay(PLR)進行擴展,能夠極大提升智能體的性能和采樣效率,最終成為了一個新興的課程,能夠隨著時間的推移選擇越來越復雜的任務 。
4. RL智能體
學習算法
RL算法選擇Mueslie,輸入為一個歷史相關的編碼(history-dependent encoding),輸出為RNN或Transformer,AdA學習一個序列模型(LSTM)對后續多步預測價值、行動分布和獎勵 。
強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


記憶架構
在每個時間步,將像素觀察、目標、手、試驗和時間信息、生成規則、之前的行動和獎勵嵌入化并合并為一個向量 。

相關經驗推薦