通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類

來源:酷知科普網 1.96W

DeepMind的一項研究提出了MuZero演算法,該演算法在不具備任何底層動態知識的情況下,通過結合基於樹的搜尋和學得模型,在雅達利2600遊戲中達到了SOTA表現,在國際象棋、日本將棋和圍棋的精確規劃任務中可以匹敵AlphaZero,甚至超過了提前得知規則的圍棋版AlphaZero。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類

MuZero 演算法在國際象棋、日本將棋、圍棋和雅達利(Atari)遊戲訓練中的評估結果。橫座標表示訓練步驟數量,縱座標表示 Elo評分。黃色線代表 AlphaZero(在雅達利遊戲中代表人類表現),藍色線代表 MuZero。

基於前向搜尋的規劃演算法已經在 AI 領域取得了很大的成功。在圍棋、國際象棋、西洋跳棋、撲克等遊戲中,人類世界冠軍一次次被演算法打敗。此外,規劃演算法也已經在物流、化學合成等諸多現實世界領域中產生影響。然而,這些規劃演算法都依賴於環境的動態變化,如遊戲規則或精確的模擬器,導致它們在機器人學、工業控制、智慧助理等領域中的應用受到限制。

基於模型的強化學習旨在通過以下步驟解決這一問題:首先學習一個環境動態模型,然後根據所學模型進行規劃。一般來說,這些模型要麼著眼於重建真實的環境狀態,要麼著眼於完整觀察結果的序列。然而,之前的研究在視覺上豐富的領域還遠遠沒有達到 SOTA 水準,如雅達利 2600 遊戲。

最受歡迎的方法是基於無模型強化學習的方法,即直接從智慧體與環境的互動中估計優化策略和/或價值函式。但在那些需要精確和複雜前向搜尋的領域(如圍棋、國際象棋),這種無模型的演算法要遠遠落後於 SOTA。

研究者在57個不同的雅達利遊戲中評估了MuZero,發現該模型在雅達利2600遊戲中達到了SOTA表現。此外,他們還在不給出遊戲規則的情況下,在國際象棋、日本將棋和圍棋中對MuZero模型進行了評估,發現該模型可以匹敵AlphaZero超越人類的表現。而且,在該實驗中,其前輩AlphaZero提前獲知了規則。

MuZero 演算法概覽

MuZero 基於 AlphaZero 強大的搜尋和基於搜尋的策略迭代演算法,但又將一個學習好的模型整合到了訓練步驟中。MuZero 還將 AlphaZero 擴充套件到了一個更加廣泛的環境集合,包含單個智慧體域和中間時間步上的非零獎勵。

該演算法的主要思路是預測那些與規劃直接相關的未來行為(如下圖 1 所示)。模型將接收到的觀察結果(如圍棋棋盤影象或雅達利遊戲截圖)作為輸入,然後將其轉換為一個隱藏狀態。接下來,通過一個迴圈過程來迭代更新該隱藏狀態,該迴圈過程接收前一個隱藏狀態和假設的下一步操作。

在每一個步驟上,模型會預測策略(如玩的動作)、價值函式(如預測的贏家)以及即時獎勵。對模型進行端到端訓練的唯一目標是準確估計這三個重要的量,以匹配改進的策略估計和通過搜尋及觀察到的獎勵生成的值。

對於隱藏的狀態,沒有直接的約束和要求來捕獲重建原始觀察結果所需的資訊,大大減少了模型維護和預測的資訊量;也沒有要求隱藏狀態匹配環境中未知、真實的狀態;更沒有針對狀態語義的其他約束。

相反,隱藏狀態能夠地以任何與預測當前和未來值和策略相關的方式來表示狀態。直觀地說,智慧體可以在內部建立規則和動態,以實現最精確的規劃。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第2張

圖 1:用一個訓練好的模型進行規劃、行動和訓練。(A)MuZero 利用其模型進行規劃的方式;(B)MuZero 在環境中發生作用的方式;(C)MuZero 訓練其模型的方式。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第3張

MuZero 演算法詳解

研究者對 MuZero 演算法進行了更詳細的解讀。在每個時間步 t 上、以過往觀察結果 O_1, …, O_t 和未來行為 a_t+1, …, a_t+k 為條件、通過一個具有引數θ的模型µ_θ,為每個 k=1…K 步進行預測。該模型預測三種未來數量:策略

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第4張

 

、價值函式

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第5張

 

和即時獎勵

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第6張

 

,其中 u. 表示觀察到的正確獎勵,π表示用來選擇實時行動的策略,γ表示環境的貼現函式(discount function)。

在每個時間步 t 上,MuZero 模型由表徵函式、動態函式和預測函式聯合表徵。在本文中,研究者對動態函式進行了確切的表徵。策略和價值函式則通過預測函式

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第7張

 

並根據內部狀態 s^k 來計算,這與 AlphaZero 的聯合策略和價值網路相似。

給定這樣一個模型,則有可能在基於過往觀察結果 O_1, …, O_t 的情況下查詢基於假設的未來軌跡 a^1, …, a^k。例如,一個簡單的搜尋可以輕鬆地選擇最大化價值函式的 k 步動作序列。更普遍地說,我們或許可以將任何 MDP(馬爾科夫決策過程)規劃演算法應用於由動態函式推匯出的內部獎勵和狀態空間。

對於每個假設的時間步 k,模型的所有引數接受聯合訓練,從而在 k 個實際的時間步後,對策略、價值和獎勵與它們各自對應的目標值進行精確的匹配。與 AlphaZero 相似,提升後的策略目標通過蒙特卡洛樹(MCTS)搜尋生成。第一個目標是最小化預測策略 p^k_t 和搜尋策略π_t+k 之間的誤差;第二個目標是最小化預測值 v^k_t 和價值目標 z_t+k 之間的誤差;第三個目標是最小化預測獎勵 r^k_t 和觀察到的獎勵 u_t+k 之間的誤差。最後新增 L2 正則化項,得出以下總損失:

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第8張

 

實驗結果

在實驗中,研究者將 MuZero 演算法應用於圍棋、國際象棋和日本將棋等經典棋盤遊戲中,作為挑戰規劃問題的基準;同時又應用於雅達利遊戲環境中的 57 個遊戲,作為視覺複雜強化學習領域的基準。

下圖 2 展示了 MuZero 演算法在每個遊戲訓練中的效能。在圍棋遊戲中,儘管搜尋樹中每個節點的計算量小於 AlphaZero,但 MuZero 的效能依然略微超過 AlphaZero。這表明 MuZero 可能在搜尋樹中快取自身計算,並利用動態模型的每個附加應用來對位置產生更深的理解。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第9張

 

圖 2:MuZero 演算法分別在國際象棋、日本將棋、圍棋和雅達利遊戲訓練中的評估結果。在國際象棋、日本將棋和圍棋遊戲中,橫座標表示訓練步驟數量,縱座標表示 Elo 評分。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第10張

 

表 1:雅達利遊戲中 MuZero 與先前智慧體的對比。研究者分別展示了大規模(表上部分)和小規模(表下部分)資料設定下 MuZero 與其他智慧體的對比結果,表明 MuZero 在平均分、得分中位數、Env. Frames、訓練時間和訓練步驟五項評估指標(紅框)取得了新的 SOTA 結果。

為了瞭解 MuZero 中模型的作用,研究者還重點在圍棋和吃豆人雅達利遊戲中進行了以下幾項實驗。他們首先在圍棋的典型規劃問題上測試了規劃的可擴充套件性(下圖 3A)。此外,他們還研究了所有雅達利遊戲中規劃的可擴充套件性(下圖 3B)。接著,他們將自己基於模型的學習演算法與其他相似的無模型學習演算法進行了比較(下圖 3C)。

通用AlphaGo誕生?MuZero在多種棋類遊戲中超越人類 第11張

 

圖 3:MuZero 在圍棋、57 個雅達利遊戲、吃豆人遊戲上的評估結果。

(原文來自機器之心編輯部,論文連結:網頁連結)

熱門標籤