AlphaGo後裔AlphaZero創造奇跡,不到24小時訓練擊敗國際象棋、圍棋和日本將棋頂尖程序

來源:搜狐科技 2017-12-07 00:30:00

昨天,AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱,新的算法經過不到 24 小時的訓練後,可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程序(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。

整理 | 微胖 王藝

對於 DeepMind 來說,其最終目的遠非在棋盤遊戲中擊敗人類。他們希望可以打造出一種通用人工智能,解決更多的人類問題。雖然距離這一聖杯還很遙遠,但是這周展示的最新研究成果顯示,他們正走在正確的道路上。

在其發表的論文中,最初攻克圍棋的 AI 程序的後代自學了許多其他遊戲,均達到超人水平。經過八個小時地自我練習,擊敗最初戰勝人類圍棋冠軍的 AI 程序,再經過四個小時的訓練後,又擊敗了當前世界國際象棋冠軍程序 Stockfish。更令人驚訝的是,僅經過兩個小時的訓練後,就戰勝了世界最頂尖的日本將棋程序之一 Elmo。

AlphaZero 代表著 AI 技術一個非常關鍵的進步,那就是它不是專門為玩這些遊戲而設定的。也就是說,沒有任何人類關於這些遊戲的經驗被輸入進 AlphaZero。在每個案例中,人類隻給定 AlphaZero 基本規則,不編程其他策略或戰術。在一次次自我對弈中,程序玩得更好,步伐不斷加快,這種訓練方式也就是所謂的強化學習。

強化學習技術的應用並不鮮見,今年 10 月亮相的 AlphaGo Zero 就是這一技術的成果。但是,正如本周發布的這篇論文所說,新版 AlphaZero 是 AlphaGo Zero「更加通用」的版本,這意味著 AlphaZero 能夠被應用在更廣闊的範圍中,且無需事先過多準備。

最讚的地方是,在不到 24 小時裏,同一個計算機程序就能自學如何玩這三種棋盤遊戲,並超越人類水平。這可謂是 AI 世界的新壯舉。

DeepMind 一直夢想著能夠建造通用的人工智能,上述任務的成功完成使得 DeepMind 向這一願景又靠近了一些,但前方仍舊充滿挑戰。今年早些時候,在 DeepMind CEO Demis Hassabis 展示 AlphaGo Zero 時,他提到,在未來將有一個能夠解決更大範圍內的科學問題的新版本出現,這一新版本能夠肩負起從藥物研發到新材料合成等一係列科研問題。這些問題和遊戲不同,為了找出精確解決它們的方法,仍有大量工作擺在 DeepMind 麵前。但我們現在可以肯定的是,人工智能正在前進,AlphaGo 也不僅僅是玩棋類遊戲的 AI 了。

自動駕駛:、、、、、返回搜狐,查看更多

點擊查看原文

相關鏈接