Unityの強化学習エンジン(ML-Agents)でオリジナル課題に挑戦 (動画付き)


この記事について

Unityが提供する強化学習エンジン(ML-Agents)の使い方がある程度わかってきたので情報共有します.
 また今回の仕事はYouTube動画にまとめたので興味があればどうぞ.

対象読者

ML-Agentsを使ったUnity上での強化学習プログラミングの雰囲気が知りたい方.

プログラミング環境

OS: Window10
CPU: Corei5-8250U (4コア, 8スレッド)
Software: Unity, Anaconda Prompt

モデルと課題設定

学習させる3Dモデル (人形とか) を作成し, 課題を設定します.

3Dモデルの構築

ProBuilderとProGridを使い, 直方体パーツを並べ体を作りました.

上の図で茶色い矢印がいくつも見えますが, これが関節であって, パーツ同士を接続しています. これは関節オブジェクト (configurable joint) を各パーツ毎に定義することで可能です.

脊椎(spine)のconfigurable jointのパラメータ設定を上の図に載せています.
connected Body: 接続先のオブジェクトを指定します.
Anchor, axis: 関節の場所と, 向きを指定します. これが関節のローカル座標(x,y,z)を決定します.
x,y,z motion: 接続先のオブジェクトの相対的な動きを定義します. 今回は, 固定された関節なのでlockedです.
Angular x,y,x motions: 関節周りの回転を指定します. 一方向だけの回転だけにしたいので,xだけ許可して(limit), あとはlockedにしています.
High/Low X Angular Limit: 回転できる角度を制限します. 今回は$-60^\circ$から$60^\circ$としました.
 最後に, 丸太とステージも作成し, 3Dモデルが以下のように完成しました.

課題の設定

今回の課題は, 人形がステージ上に長く居続けることです. そのために, 報酬(reward)を以下のように設定しました:

\begin{align}
reward[t] &= 0.01, \text{ for every time step}, \\
if(fall): \\
rew&ard[t] = reward[t]  - 1 \\
end&~episode.
\end{align}

報酬は毎時間ステップ与えられます. また, ステージ上から落ちると罰が与えられ, タスク (1エピソード) が終了します. C#上で, エージェントのオブジェクトから AddReward(報酬値) を呼ぶことで報酬(罰)を与えることができます.

エージェントの並列化

一般的な学習のフレームワークでは, 取得されるデータは無相関であることが仮定されています. しかし, 強化学習では、エージェント(学習する対象)が行動しながらデータを取得するため, 得られるデータに強い相関があります. このため学習を成功させるには, データの相関を軽減する何らかの処置が必要です.
 ML-Agentsでは, (ニューラルネットワークが共有された) 複数のエージェントを並列に学習させることで相関を軽減します. チュートリアルに倣い, エージェントを9個並べて同時に学習できるようにしました.

ML-Agentsの設定

ML-Agentsのインストール方法は公式のドキュメントに沿えば問題ないと思います. ML-Agentsで学習を行うためにはUnityソフト側でいくつかのオブジェクトを作成する必要があります. チュートリアルのプログラムを自分のプログラムに改編してくのが一番の近道だと思います. やることは, HumanAcademyオブジェクトと, その子オブジェクトであるBrainオブジェクトの定義です.

また, Anaconda Prompt上で, 以下のコマンドによって学習を開始できます.

mlagents-learn config/config.yaml --run-id=Run1 --train

config.yamlは学習時間やニューラルネットワークの構造などのハイパーパラメータを設定するパラメータです.

ニューラルネットワークの入力と出力の定義

ニューラルネットワークへの入力は、エージェントが観測する量で, 自分の関節の位置やステージの位置, またそれらの速度などを割り当てました. ニューラルネットワークへの出力は、関節の目標位置としました. これらは, それぞれ以下のC#の関数を呼ぶことで定義できます.

AddVectorObs(入力値);
vectorAction[出力インデックス];

ハイパーパラメータ設定

ハイパーパラメータの最適化はニューラルネットワークを用いる場合, 一番大変なところだと思います. ベイズ最適化法とかいろんな手法が提案されていますが、まずは、似た課題の学習パラメータを用いるのが良いと思います. また, 学習率が最も重要なパラメータなので, これに限っては細かく調整した方がいいです. 今回は, チュートリアルでにある人形が走る課題Walkerからパラメータをコピーして, 学習時間と学習率だけ調整しました. 今回用いた学習パラメータは以下になります.

パラメータ 説明 値(Walker) 値(今回)
batch_size バッチサイズ 2048 2048
beta エントロピー制約の強さ 5e-3 5e-3
buffer_size ポリシー更新のステップ数 20480 20480
epsilon 方策更新の閾値 0.2 0.2
gamma Advantageの割引率 0.995 0.995
hidden_units 隠れ層のニューロン数 512 512
lambd 一般化Advantageの係数 0.95 0.95
learning rate 学習率 3e-4 5e-4
max_steps 総ステップ数 2e6 1e4
normalize 正規化するか true true
num_epoch ?? 3 3
num_layers 隠れ層の数 3 3
time_horizon ?? 1000 1000
sequence_length ?? 64 64
summary_freq サマリの出力回数 3000 3000

パラメータの詳しい説明はここにあります. ??のところはまだ理解できていません.
パラメータを変更したところはmax_stepsとlearning_rateだけです. max_stepsは学習時間に比例するので, 許容範囲ぎりぎり(~10時間)の大きさに設定しました. learning_rateはいくつか試し, 一番いいものを載せています.

結果

学習結果は以下のコマンドで見ることができます.

tensorboard --logdir=summaries

下の左図は学習率を示し、右の図はエピソードあたりの報酬値を示しています. どちらの場合も横軸は学習ステップ数です.

学習率はデフォルトの設定で線形に減少するようになっているようです. 報酬は, 学習が進むごとに大きくなっていることがわかります. また, 初期学習率の大きさによって, 最終的な報酬値が大きく異なっています. やはり学習率は重要らしいです.

まとめ

ML-Agentsを使ってオリジナルの課題を作って学習させることができました. 動画を見ていただけるとわかると思いますが、人形がバランスをうまくとっていることが観測できました. しかし, ML-Agentsの使い方は大体わかったのですが, ML-Agentsが何をしているかとか, 強化学習自体の理解が全然追いついていないです. 実際, 学習パラメータをどのように調整していいか全然検討がついていませんし, 学習率のスケジューリングは線形でいいのだろうか, とかわからないことだらけです. 今後, コードを読むなり, 参考書や論文を読むなりして勉強していきます.

参考

YouTubeにまとめた動画

・牧野 貴樹, 他, "これからの強化学習", 森北出版 (2016)

・V. Mnih, et al., "Asynchronous Methods for Deep Reinforcement Learning", PMLR 48:1928-1937 (2016)
(エージェントを並列に学習させることで学習データの相関を軽減する手法を提案した論文)
・J. Schulman, et al., "Proximal Policy Optimization Algorithms", arXiv:1707.06347 (2017)
(ML-Agentsの強化学習アルゴリズム)