AlphaZero
外观
此条目需要扩充。 (2018年5月8日) |
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年5月8日) |
AlphaZero是DeepMind所开发的人工智能软体[1]。
简介
[编辑]AlphaZero使用与AlphaGo Zero类似但更一般性的演算法,在不做太多改变的前提下,并将演算法从围棋延伸到将棋与国际象棋上。AlphaZero与AlphaGo Zero不同之处在于[1]:
- AlphaZero的超参数是写死的。
- AlphaZero现在会不断更新人工神经网络。
- 围棋在某些情况是对称或是可旋转的,AlphaGo Zero的程式利用这个特性降低计算复杂性,AlphaZero因为延伸到将棋与国际象棋则拿掉了这段程式。
- 西洋棋有已知的和局终局资料库,所以AlphaZero利用这个终局资料库纳入计算。
与Stockfish以及elmo的比较
[编辑]AlphaZero基于蒙特卡洛树搜索,每秒只能搜寻8万步(西洋棋)与4万步(将棋),相较于Stockfish每秒可以7000万步,以及elmo每秒可以3500万步,AlphaZero则是利用了类神经网路提升了搜寻的品质[1]。
训练
[编辑]AlphaZero使用了5,000颗第一代的TPU进行训练。
成绩
[编辑]西洋棋
[编辑]在4小时的训练后(约自我训练4400万局[1]:Table S3),AlphaZero以28胜72和0败的成绩打败Stockfish[1]:Table 1。
将棋
[编辑]在12小时的训练后(约自我训练2400万局[1]:Table S3),AlphaZero以90胜2和8败的成绩打败elmo[1]:Table 1。
围棋
[编辑]在34小时的训练后(约自我训练2100万局[1]:Table S3),AlphaZero以60胜40败的成绩打败AlphaGo Zero[1]:Table 1。
相关连结
[编辑]参考资料
[编辑]外部链接
[编辑]- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(页面存档备份,存于互联网档案馆),AlphaZero的论文。
- Game Downloads(页面存档备份,存于互联网档案馆),AlphaZero与西洋棋软体Stockfish的对弈记录。
- Chess.com Youtube playlist for AlphaZero vs. Stockfish(页面存档备份,存于互联网档案馆)