強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力


強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖

強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖

強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


新智元報道
編輯:LRS
【新智元導讀】強化學習也要進入預訓練時代了!
基礎模型(foundation models) 在監督和自監督學習問題上展現出強大的領域適應性(adaption)和可擴展性(scalability),但強化學習領域仍然沒有基礎模型 。
最近DeepMind的Adaptive Agents團隊提出了一種 人-時間尺度(human-timescale)自適應智能體AdA(Adaptive Agent)  , 證明經過大規模訓練后的RL智能體也能具有通用上下文的學習能力,該算法可以像人一樣快速適應開放式的具身3D問題 。
強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


論文鏈接:https://arxiv.org/abs/2301.07608
在一個巨大的動態空間環境中,自適應智能體展現出即時的假設驅動的探索,能夠有效地利用獲得的知識,而且可以接受第一人稱演示作為提示(prompt) 。
研究人員認為其適應性主要來源于 三個因素 :
1. 在一個巨大的、平滑的和多樣化的任務分布中進行元強化學習;
2. 一個參數化的、基于注意力的大規模記憶結構的策略;
3. 一個有效的自動curriculum,在代理能力的前沿對任務進行優先排序 。
實驗部分展示了與網絡規模、記憶長度和訓練任務分布的豐富程度有關的特征性擴展規律;研究人員認為該結果為日益普遍和適應性強的RL智能體奠定了基??,智能体哉N帕煊蚧肪橙勻槐硐至己?。
RL基礎模型
人類 往往能夠在 幾分鐘內適應一個新的環境,這是體現人類智能的一個關鍵特性,同時也是通往通用人工智能道路上的一個重要節點 。
不管是何種層次的有界理性(bounded retionality),都存在一個任務空間,在這個空間中,智能體無法以zero-shot的方式泛化其策略;但如果智能體能夠非??焖俚貜姆答佒袑W習 , 那么就可能取得性能提升 。
為了在現實世界中以及在與人類的互動中發揮作用,人工智能體應該能夠在「幾次互動」中進行快速且靈活的適應,并且應該在可用數據量提升時繼續適應 。
具體來說,研究人員希望訓練出的智能體在測試時,只需要在一個未見過的環境中給定幾個episode的數據,就能完成一個需要試錯探索的任務,并能隨后將其解決方案完善為最佳的行為 。
元強化學習(Meta-RL) 已經被證明對快速的語境適應是有效的 , 然而,不過元RL在獎勵稀疏、任務空間巨大且多樣化的環境中作用有限 。
這項工作為訓練RL基礎模型鋪平了道路;也就是說 , 一個已經在龐大的任務分布上進行了預訓練的智能體 , 在測試時,它能以few-shot的方式適應廣泛的下游任務 。
自適應智能體(AdA)能夠在具有稀疏獎勵的巨大開放式任務空間中進行人類時間尺度適應,不需要任何提示、微調或訪問離線數據集 。
相反,AdA表現出假設驅動的探索行為,利用即時獲得的信息來完善其策略,能夠有效地獲取知識 , 在第一人稱像素觀察的部分可觀察的三維環境中,在幾分鐘內適應獎勵稀疏的任務 。
強化學習也有基礎模型了!DeepMind重磅發布AdA,堪比人類的新環境適應能力

文章插圖


自適應智能體Ada
研究人員提出了一種基于記憶的元RL通用和可擴展的方法以生成自適應智能體(AdA)
首先在XLand 2.0中訓練和測試AdA,該環境支持按程序生成不同的三維世界和多人游戲,具有豐富的動態性,需要智能體擁有足夠的適應性 。

相關經驗推薦