強化学習13 Mountain_carをChainerRLでやってみる。


強化学習12まで達成していることが前提になります。
Ubuntu18.04の方でやっていきます。
先に作ったCartPoleで、CartPole-v0をMountainCar-v0に代えて実行してみました。
難易度が上がっているようです。

そのまま入れ替えてやってみましたが、なんか違う。。。。
gammaを0.99にしていますが。

サイトを見て回ると、学習量が多い。
多くするのが、コツなのだろうか?
以下のように設定しました。

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

epsilon=0.003にしました。

それなりに学習時間はかかりましたが、登れています。

2000回学習の曲線がこちら。

10000回学習の曲線がこちら。

10000回だと、85分かかってしまいます。使っていないパソコンならいいのだけれど。
モバイルで普段使っているパソコンだとどうするべきか。

30回目くらいを目標にGPUを始めようと思っています。
その準備というか調査をしているのですが、Chainerはプログラム量が極端に少ない。HDD上で8Mbくらい。tensorflowは大きくて300Mb以上。GPUとして、Radeonを使いたいのだが、chainerは動くかなあ。