經過7萬小時訓練后，AI學會了玩《我的世界》 _游戲

文章插圖

文章插圖

AI擊敗末影龍指日可待。
2019年，為了研究分析AI與兒童的智力差距，一群世界頂級科研人員在卡內基梅隆大學和微軟的共同資助下舉辦了一場名為“MineRL”的比賽，以知名游戲《我的世界》為舞臺，讓接受訓練的AI在限定的時間內尋找游戲中的稀有物品——鉆石。
【經過7萬小時訓練后，AI學會了玩《我的世界》】考慮到一位普通兒童在觀看10分鐘的教學視頻后便能自主游玩《我的世界》，這項挑戰在外行來看似乎并不是很困難，但事實是，參賽的AI們在長達4天的限時挑戰里執行了超過800萬次操作之后，仍未能順利達成目標。
在這之后，MineRL競賽成了一年一度的科研項目，每年都會有不少探索AI前沿技術的學者帶著他們精心調教的AI來《我的世界》里挖鉆石。而去年的MineRL大賽更是吸引了海內外近60支隊伍參賽，超過400名研究人員同臺競技，其關注度可見一斑。
而到了最近，知名AI科技公司OpenAI終于實現了技術突破，提前殺死了比賽。根據他們于6月23日發布的論文來看，由他們訓練的AI已經做到了熟練游玩《我的世界》，挖鉆石對他們家的AI來說早已不在話下，畢竟它目前已經掌握了只有人類才能領悟的高階玩法：
為了讓AI真正做到像人類一樣“玩游戲”，OpenAI的研究人員引入了一種新穎且便捷的AI訓練法：視頻預訓練（Video PreTraining）。他們通過從相關合作方處獲取《我的世界》演示視頻以及與視頻配套的鍵盤鼠標操作記錄，并根據這些操作習慣建立逆動力學模型（inverse dynamics model）以推測模擬視頻內的鍵鼠操作邏輯，此后再反復推演全世界的《我的世界》視頻以模擬人類的游玩習慣。

文章插圖

在“被迫”觀看了7萬小時的視頻后，OpenAI旗下的AI的操作已經相當傳神：氧氣稀少時會主動浮出水面、餓肚子了會啃腐肉充饑，而在研究人員的數據微調后，AI掌握了更加進階的操作，包括搜刮隨機村莊里的寶箱，以及搭建一個簡陋的“火柴盒” 。

文章插圖

至于同行們費盡心血鉆研的挖鉆石的方法，OpenAI也通過強化學習構建了一套科學合理的計算機模型。從獲取木頭開始，到在工作臺上做出一把鉆石鎬，總計需要24000次操作，對于較為熟練的老玩家來說，完成這套流程的時長大概在20分鐘左右，而如今的AI在經歷了大規模訓練過后，收集鉆石的效率足以比肩人類。