強化學習也有基礎模型了！DeepMind重磅發布AdA，堪比人類的新環境適應能力( 二 )

2026-04-14 生活百科智能體

強化學習也有基礎模型了！DeepMind重磅發布AdA，堪比人類的新環境適應能力

文章插圖

該訓練方法結合了三個關鍵部分：1）指導智能體學習的課程（curriculum）；2）基于模型的RL算法來訓練具有大規模注意力記憶的代理；以及，3）蒸餾以實現擴展。
1. 開放端任務空間：XLand 2.0
XLand 2.0相比XLand 1.0擴展了生產規則的系統，其中每條規則都表達了一個額外的環境動態，從而具有更豐富、更多樣化的不同過渡功能。
XLand 2.0是一個巨大的、平滑的、多樣化的適應問題的任務空間，不同的任務有不同的適應性要求，如實驗、工具用法或分工等。
例如，在一個需要實驗的任務中，玩家可能需要識別哪些物體可以有用地結合，避免死胡同，然后優化他們結合物體的方式，就像一個玩具版的實驗化學。

強化學習也有基礎模型了！DeepMind重磅發布AdA，堪比人類的新環境適應能力

文章插圖

每個任務可以進行一次或多次試驗，試驗之間的環境會被重置，但智能體記憶不會被重置。
上圖中突出顯示的是兩個示例任務，即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」，展示了目標、初始物體、生產規則以及智能體需要如何與它們互動以解決任務。
2. 元強化學習
根據黑箱元RL問題的設置，研究人員將任務空間定義為一組部分可觀察的馬爾科夫決策過程（POMDPs）。
對于一個給定的任務，試驗的定義為從初始狀態到終端狀態的任意轉換序列。
在XLand中，當且僅當某個時間段∈[10s, 40s]已經過去時，任務才會終止，每個任務都有具體規定。環境以每秒30幀的速度變化，智能體每4幀觀察一次，因此任務長度以時間為單位，范圍為[75, 300] 。
一個episode由一個給定任務的試驗序列組成。在試驗邊界，任務被重置到一個初始狀態。
在領域內，初始狀態是確定的，除了智能體的旋轉，它是統一隨機抽樣的。
在黑箱元RL訓練中，智能體利用與廣泛分布的任務互動的經驗來更新其神經網絡的參數，該網絡在給定的狀態觀察中智能體的行動政策分布提供參數。
如果一個智能體擁有動態的內部狀態（記憶），那么元RL訓練通過利用重復試驗的結構，賦予該記憶以隱性的在線學習算法。
在測試時，這種在線學習算法使智能體能夠適應其策略，而無需進一步更新神經網絡權重，也就是說，智能體的記憶不是在試驗邊界被重置，而是在episode邊界被重置。
3. 自動課程學習（Auto-curriculum learning）
鑒于預采樣任務池的廣度和多樣性，智能體很難用均勻采樣進行有效地學習：大多數隨機采樣的任務可能會太難（或太容易），無法對智能體的學習進度有所幫助。
相反，研究人員使用自動化的方法在智能體能力的前沿選擇相對「有趣」（interesting）的任務，類似于人類認知發展中的「近側發展區間」（zone of proximal development）。
具體方法為對現有技術中的no-op filtering和prioritised level replay（PLR）進行擴展，能夠極大提升智能體的性能和采樣效率，最終成為了一個新興的課程，能夠隨著時間的推移選擇越來越復雜的任務。
4. RL智能體
學習算法
RL算法選擇Mueslie，輸入為一個歷史相關的編碼（history-dependent encoding），輸出為RNN或Transformer，AdA學習一個序列模型（LSTM）對后續多步預測價值、行動分布和獎勵。

強化學習也有基礎模型了！DeepMind重磅發布AdA，堪比人類的新環境適應能力

文章插圖

記憶架構
在每個時間步，將像素觀察、目標、手、試驗和時間信息、生成規則、之前的行動和獎勵嵌入化并合并為一個向量。

相關經驗推薦

上一篇：考研什么時候備考比較好幾月份開始準備

下一篇：8月豬價：承上啟下、蓄勢待漲 8月22豬價: 豬價暴漲后趨穩