AlphaZeroで6x6オセロ
最初に
コードはここには書かないのでこのリンクを参照していただきたい。
https://github.com/AokiMasataka/AlphaZero
環境
windows10
python 3.7
tensorflow 1.12
keras 2.2.4
CPU i7 7700
メモリ 16GB
GPU GTX1070
モンテカルロやデュアルネットワークなどは、探索回数や畳み込みフィルターの枚数を減らして実装していたり、その他諸々省いていたりしているが悪しからず。
参考:
https://www.amazon.co.jp/AlphaZero-深層学習・強化学習・探索-人工知能プログラミング実践入門-布留川-英一/dp/4862464505
実装
model.py
このファイルにはデュアルネットワークのインスタンスを生成するModelクラスを入れている。
デュアルネットは、3層畳み込みレイヤーのボトルネック型のレズデュアルブロックを8層重ねPolicy、Valueの二つの出力へ続けている。
ブロックの数とフィルターの枚数はconfig.pyで変更できるのでPCスペックに応じて調整していただきたい。
game.py
今回は6x6オセロで実装しているが、将棋やチェスなどのボードゲームでもニューラルネットの入出力サイズを変更するだけで動くはず。多分…
game_c.pyx
実行速度を上げるためにcythonバージョンで書いてあり、コンパイルしてMCTS.py, main.py, self_play.pyのimportを
from game_c import Game
に書き換えることで自己対戦の速度を1.2倍くらいにできる。
config.py
アルゴリズムに影響する各種パラメーターを記述している。
学習速度が遅いと感じたら、SARCH_NUMを160から80くらいに減らすと学習がスムーズになる。
self_play.py
自己対戦によるデータ生成とモデルの評価などを行う。
なるべく同じような局面にならないように、最初の数手は完全にランダムな手を打つようにしている。
MCTS.py
選択可能なアクションなど現在の盤面の状態を入れるNodeクラスと、
そのNodeを広げて探索を行うMCTSクラスが入っている。
デュアルネットワークを使用したモンテカルロ探索の具体的な解説はhttps://postd.cc/alphago-zero-how-and-why-it-works/
こちらがわかりやすく説明してある。
main.py
Mainクラスでは学習を進めるtrainメソッドがあり、その際生成した学習データをdataフォルダに、モデルをmodelフォルダに保存する。
play.py
学習したAIと対戦することができる。playインスタンスを生成するときの引数で対戦するAIの世代の選択が可能。
GUIを練習がてら実装したが、バグが大量にあり尚且つかなり使いにくくなってしまった。
修正する予定はないです。MACで起動するとtkinterライブラリのせいで落ちてしまうので悪しからず
学習結果、学習したAIと戦った感想
自己対戦による学習データ生成→対戦データの学習→一つ前の世代との対戦(評価)の流れを一つのサイクルとし、最終的に14世代まで学習を進め、そのAIと実際に対局し評価した。
結果として5世代目で完全に歯が立たなくなり、それ以降は自分自身の実力では勝率0%なので、AIの評価ができなっかた。一応世代を進めるには一つ前の世代に52%の勝率を出さないといけないので、確実に強くはなっているはずである。
当初は、AIを実装するにあたって「自分と同じくらいの実力程度になればいいか」ぐらいに思っていたので、正直その成長速度には驚かされた。
Author And Source
この問題について(AlphaZeroで6x6オセロ), 我々は、より多くの情報をここで見つけました https://qiita.com/AokiMasataka/items/40868c7a09b8d67c3101著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .