AlphaZero
外觀
此條目需要擴充。 (2018年5月8日) |
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2018年5月8日) |
AlphaZero是DeepMind所開發的人工智能軟件[1]。
簡介
[編輯]AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到將棋與國際象棋上。AlphaZero與AlphaGo Zero不同之處在於[1]:
- AlphaZero的超參數是寫死的。
- AlphaZero現在會不斷更新類神經網絡。
- 圍棋在某些情況是對稱或是可旋轉的,AlphaGo Zero的程式利用這個特性降低計算複雜性,AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式。
- 國際象棋有已知的和局終局資料庫,所以AlphaZero利用這個終局資料庫納入計算。
與Stockfish以及elmo的比較
[編輯]AlphaZero基於蒙特卡洛樹搜尋,每秒只能搜尋8萬步(國際象棋)與4萬步(將棋),相較於Stockfish每秒可以7000萬步,以及elmo每秒可以3500萬步,AlphaZero則是利用了類神經網絡提昇了搜尋的質素[1]。
訓練
[編輯]AlphaZero使用了5,000顆第一代的TPU進行訓練。
成績
[編輯]國際象棋
[編輯]在4小時的訓練後(約自我訓練4400萬局[1]:Table S3),AlphaZero以28勝72和0敗的成績打敗Stockfish[1]:Table 1。
將棋
[編輯]在12小時的訓練後(約自我訓練2400萬局[1]:Table S3),AlphaZero以90勝2和8敗的成績打敗elmo[1]:Table 1。
圍棋
[編輯]在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1。
相關連結
[編輯]參考資料
[編輯]外部連結
[編輯]- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(頁面存檔備份,存於互聯網檔案館),AlphaZero的論文。
- Game Downloads(頁面存檔備份,存於互聯網檔案館),AlphaZero與國際象棋軟件Stockfish的對弈記錄。
- Chess.com Youtube playlist for AlphaZero vs. Stockfish(頁面存檔備份,存於互聯網檔案館)