FlappyBird で強化学習の練習その0: 環境編

15024 ワード

強化学習 Python JupyterLab OpenAIGym Python テキストリンク

この記事は何

せっかく Pythonで学ぶ強化学習をざっと読んだので、手を動かしてみる大作戦です。
FlappyBird という数年前に話題になったゲームがあり、それを強化学習を用いて学習していきたいと思います。
のんびり動かしてみつつ、色々やったことを記録していこうと考えています

この記事は、環境構築です。JupyterLab で動画を見るのに少し手間取ったため、残しておきます。
自分のローカルマシンである mac と、リモート環境である ubuntu で動作確認しています。

FlappyBird を Python で動かす

コマンドでインストール一発打つだけかと思ってたんですが、そんなことはなかった。
↓を使います。

gym
- ゲームを強化学習で学習できるような環境を提供する、 OpenAI によるプラットフォーム
ple (pygame learning environment)
- pygame (Python でゲーム作るライブラリ)のゲームで強化学習環境を用意してくれるやつ
gym-ple
- ple を gym のインターフェースで動かせるやつ
- 使わなくても良いけど gym ライクにやりたかったので

環境構築

※ 私の環境ではこれで動きましたが、人によっては追加でライブラリなど必要かと思います。

ubuntu

$ sudo apt-get install ffmpeg libav-tools

mac

$ brew install ffmpeg

その後

$ mkdir flappybird; cd flappybird
$ touch Pipfile
$ pipenv install --python 3.6.5
$ vi Pipfile

出来た Pipfile を開いて、必要そうなライブラリを記述。なぜか pipenv install [libname] で ple が入らなかったが、 Pipfile に書くと入った(後々使う TensorFlow や matplotlib も入れてます)。

Pipfile

[[source]]
name = "pypi"
url = "https://pypi.org/simple"
verify_ssl = true

[dev-packages]

[packages]
tensorflow = "*"
gym = "*"
jupyterlab = "*"
ipython = "*"
ple = {editable = true, git = "https://github.com/ntasfi/PyGame-Learning-Environment.git"}
pygame = "*"
gym-ple = "*"
matplotlib = "*"

[requires]
python_version = "3.6"

ライブラリをインストールする。

$ pipenv install

動作確認のサンプルコード

こんな感じにとりあえず gym を通じて動くサンプル (gym-ple からとってきて少し修正) を動かしてみます。
https://github.com/cfiken/flappybird-try/blob/master/00_environment.py

実行すると render = True だと(ローカルだと)画面が出て動きます。 render = False だと /tmp 以下に json のログと mp4 が保存されます。

import logging
import os, sys

import gym
from gym.wrappers import Monitor
import gym_ple

# random agent!
class RandomAgent(object):
    def __init__(self, action_space):
        self.action_space = action_space

    def act(self, observation, reward, done):
        return self.action_space.sample()

render = True  # 画面表示したい場合は True, そうでない場合は False にしてください

if __name__ == '__main__':
    logger = logging.getLogger()
    logger.setLevel(logging.INFO)

    env = gym.make('FlappyBird-v0' if len(sys.argv)<2 else sys.argv[1])

    if not render:
        outdir = '/tmp/random-agent-results'
        env = Monitor(env, directory=outdir, force=True)

    # This declaration must go *after* the monitor call, since the
    # monitor's seeding creates a new action_space instance with the
    # appropriate pseudorandom number generator.
    env.seed(0)
    agent = RandomAgent(env.action_space)

    episode_count = 100
    reward = 0
    done = False

    for i in range(episode_count):
        ob = env.reset()

        while True:
            action = agent.act(ob, reward, done)
            ob, reward, done, _ = env.step(action)
            if render:
                env.render()
            if done:
                break

    # Dump result info to disk
    env.close()

    logger.info("Successfully ran RandomAgent")

$ pipenv run python 00_environment.py
# render = False の場合は実行が終わるまで待ちます

render = True なら、ディスプレイにゲーム画面が表示されます。 render = False なら、 /tmp/random-agent-results 以下にログと mp4 の動画が保存されています。

JupyterLab で動かす

こちらのサイトを参考にしました。

Jupyter Notebook だとチュートリアルがあったりして楽に動くっぽいですが、JupyterLab だと下記の理由で大変みたいです。

JS をうまく使えない?
nbagg がエラーになる

最終的に HTML5 を使ってアニメーション再生することで動くようにしました。リアルタイムではなく、一度実行したものの最終エピソードを後で再生するようにしています。長いので github へのリンクで。
https://github.com/cfiken/flappybird-try/blob/master/00_environment.ipynb

スクリプト版との差分としては、

%matplotlib inline にする
from IPython.display import HTML
env.render() で取得できる frame をリストに保存しておく
animate であとから保存したリストをHTML5アニメーションにする

です。アニメーションを表示する部分は次のようにしています。

def animate(frames):
    anims = []
    fig = plt.figure()
    plt.axis('off')
    for f in frames:
        im = plt.imshow(f)
        anims.append([im])
    plt.close()
    ani = animation.ArtistAnimation(fig, anims, interval=50)
    return HTML(ani.to_html5_video())

一度 plt.close() を呼んでいるのは、途中段階の画像が表示されてしまうためです(もっと良いやり方があるかも)。

以上です。
何か間違いやもっと良い方法あればコメントなどいただけると助かります

Author And Source

この問題について(FlappyBird で強化学習の練習その0: 環境編), 我々は、より多くの情報をここで見つけました https://qiita.com/cfiken/items/af3d4489e6c6aab9e8bf

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

FlappyBird で強化学習の練習 その0: 環境編