DeepRacer 実験ノート　～ハイパーパラメータ試行実験実験用のRacingCar設定模索編～

11255 ワード

謝辞

本ページにたどり着いていただき、ありがとうございます。

まだまだ勉強不足で、間違っている部分があるかもしれません。
何かしら気づかれた方はご連絡いただけると有難いです。
本記事の内容について流用などされる方は、ご自身で内容の妥当性を
検証していただくことを前提で利用される様お願いさせてください。

また、とりあえず投稿することを目的に文章は書きなぐった感じになってしまっていますが、
おいおい章構成や文章自体を修正していきます。

<- 変更履歴はここをクリック

2020/03/30:新規作成

Index

サマリ
はじめに
実験する車の各パラメータについて
試行結果(各レイヤ数での結果)
結果比較:3Layerと5Layerグラフ
最後に

サマリ

投稿では、DeepRacerのハイパーパラメータの設定について
いろいろと思考、実験してみた結果を書いてみたいと思っています。

本投稿では、車のパラメータの選定 について書いてみました。

読んでいただいた方の参考になればうれしいです。

はじめに

前回実験したいことの概要を書きましたが、
今回は、実験に用いる車のパラメータを決めるためのいくつかの実験をやってみたいと思います。

実験する車の各パラメータについて

カメラのタイプ[固定する]

ノーマルのカメラ

タイムトライアルは単一カメラというルール(4. WINNER DETERMINATION: Summit Circuit Race Rules: a.)があるようなので、
ステレオじゃない方を選択します。

最高速度[固定する]

4 m/s

あまり遅いのもなんなので、
こちらは現時点でMax値の 4m/s としたいと思います。

最高ステアリング角度[固定する...が今後別の角度もちょっと実験はしてみたい]

30°

デフォルトの30°をとりあえずは採用したいと思います。

ただ、
2020年3月のVirtual Circuit(SOLA Speedway)の先頭の大カーブ(下図の赤枠当たり)で、
私のモデルだと30°はあまり利用していなかったのもあって、
30°以下にしてもいいかもと考え始めてはいますが、
いまはハイパーパラメータの実験に注力したいため30°を採用します。

CNNのレイヤ数

3 Layer CNN
5 Layer CNN

2020年から新たにでてきた観点ですが、
双方の違いを見てみたいと考えています。

ステアリング角度の種類数[固定する]

選択肢を減らした方がより高速に学習はできるのではないかと推測しています。
条件によっては5にするといったことも有効かもしれません。

速度の種類数[固定する]

こちらも
選択肢を減らした方がより高速に学習はできるのではないかと推測しています。
条件によっては2にするといったことも有効かもしれません。

ハイパーパラメータ[固定する]

今回は、Layerの違いによる差異を見てみたいので、
ハイパーパラメータはすべてデフォルトで固定して試します。

項目	値
Gradient descent batch size	64
Number of epochs	10
Learning rate	0.0003
Entropy	0.01
Discount factor	0.999
Loss type	Huber
Number of experience episodes between each policy-updating iteration	20

コース

Oval Track

単純なコースで試します。

報酬関数モデル

Exp的モデル

$\sigma$は、$\dfrac{レーン幅}{3}$を用います。
また、平均が0(＝センターラインが最も報酬が高い)として、
平均の位置(＝センターライン中央にいる居る時)での報酬関数のMax値は 1 です。

(レーン幅＝$\dfrac{1}{2}$トラック幅です。)

Exp的モデルのイメージ図

試行結果(各レイヤ数での結果)

Layter ： 3

項目	値
CNNのレイヤ数	$\color{red}{\textbf{3}}$
最高速度	4 m/s<固定>
最高Steering角度	30$^{ \circ }$<固定>
速度の種類数	3
Steering角度の種類数	7
報酬関数のMax値	1.0

Layter ： 3 での結果

Rewardのグラフと Progress をもう少し詳細化するために、
Excelで2019年のDeepRacerのような形でグラフ化してみます。

ただ、何度やっても、ログからはAWSコンソールのグラフの値の1/2の値しか算出されません。
※下記はAWSコンソールのグラフと Excelの結果との比較(緑線が報酬値のグラフ)

実際に、ログから求めた値を2倍してAWSコンソールのグラフの軸の値と合わせて、
手動でフィットするよう重ね合わせてみたのですが、ほとんどフィットしているので、
AWSコンソールのグラフはログの集計値の2倍で描かれているのはほぼほぼ間違いないかなと推測しています。

報酬値について、ログから求めた値を2倍してAWSコンソールのグラフと重ね合わせたグラフ
(黄線：ログから求めた値の線　緑線：AWSコンソールのグラフ)

今後、よく意味が分からない2倍はせずに分析していきます。

改めて、、

Iterationと報酬関数の合計値とのグラフ

IterationとProgressとのグラフ

Layter ： 5

項目	値
CNNのレイヤ数	$\color{red}{\textbf{5}}$
最高速度	4 m/s<固定>
最高Steering角度	30$^{ \circ }$<固定>
速度の種類数	3
Steering角度の種類数	7
報酬関数のMax値	1.0

Layter ： 5 での結果

Iterationと報酬関数の合計値とのグラフ

IterationとProgressとのグラフ

結果比較:3Layerと5Layerグラフ

AWSコンソール上の結果

3Layer

5Layer

3Layer,5Layerを同じスケールで比較してみます。
1回の試行だけなので、たまたま以下の様になったという観点は捨てれませんが...

Iterationと報酬関数の合計値との比較グラフ

報酬関数の合計値としては、ともにIterationに対する成長率が変わらないかなと感じます。

IterationとProgressとのグラフ

Progressとしては、ともにIterationに対する成長率は5Layerの方が多少良かったです。

最後に

今回トレーニング時間が3時間だったので、あまり差異が出なかった気もします。

3Layerに設定することによる劇的な差異が(トレーニング序盤では)見られないということで、
今後5Layerを用いて実験していきたいと思います。

次回は、Gradient descent batch sizeを変化させてみたいと思います。

DeepRacer 実験ノート

Author And Source

この問題について(DeepRacer 実験ノート　～ハイパーパラメータ試行実験実験用のRacingCar設定模索編～), 我々は、より多くの情報をここで見つけました https://qiita.com/satussy777/items/d1f239becd3003854b34

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

DeepRacer 実験ノート ～ ハイパーパラメータ試行実験 実験用のRacingCar設定模索編 ～

謝辞

Index

サマリ

はじめに

実験する車の各パラメータについて

カメラのタイプ[固定する]

最高速度[固定する]

最高ステアリング角度[固定する...が今後別の角度もちょっと実験はしてみたい]

CNNのレイヤ数

ステアリング角度の種類数[固定する]

速度の種類数[固定する]

ハイパーパラメータ[固定する]

コース

報酬関数モデル

試行結果(各レイヤ数での結果)

Layter ： 3

Layter ： 3 での結果

Iterationと報酬関数の合計値とのグラフ

IterationとProgressとのグラフ

Layter ： 5

Layter ： 5 での結果

Iterationと報酬関数の合計値とのグラフ

IterationとProgressとのグラフ

結果比較:3Layerと5Layerグラフ

AWSコンソール上の結果

Iterationと報酬関数の合計値との比較グラフ

IterationとProgressとのグラフ

最後に

DeepRacer 実験ノート

Author And Source

DeepRacer 実験ノート　～ハイパーパラメータ試行実験実験用のRacingCar設定模索編～