強化学習　文献まとめ2

3727 ワード

強化学習強化学習テキストリンク

強化学習　文献まとめ2

リレー解説強化学習の最近の発展第2回
「探索と利用のトレードオフとベイズ環境モデル」
計測と制御第52巻第2号 2013年2月号 P154~161
牧野貴樹
https://www.jstage.jst.go.jp/article/sicejl/52/2/52_154/_article/-char/ja/
をまとめた個人用めも

※この記事をまとめたのは2021年5月あたりで、強化学習について勉強し始めのときにまとめたもので、間違った内容が含まれている可能性があります

前回：https://qiita.com/he-mo/items/ec86c0b18dd193ef3aaa
次回：https://qiita.com/he-mo/items/65e0505243934423a966

多腕バンディット問題

バンディッド問題の定義とリグレットの説明
- バンディッド問題・・・腕が何個もあるルーレットマシーン、腕ごとにルーレットが当たる確率が割り当てられてる
- リグレット・・・はじめから一番いいものを選択していればいくら得したか

探索をしすぎたらリグレットが大きくなるし、探索しなさすぎたら最適な腕が見つからない

ランダム探索

要するにイプシロングリーディー

不確かなときは楽観的に: UCB アルゴリズム

その腕の良さだけでなく、どれだけ知っているかを考慮する
選んだ回数が少ない・・・分散が大きい
分散も含め一番いいものを選択（報酬の期待値＋分散の半分）

Thompson サンプリング

「ある腕の報酬の期待値が他のどの腕の報酬の期待値よりも高い」確率に従って，その腕を選択
https://cafeunder.github.io/rosenblock-chainers-blog/2018/03/08/thompson-sampling-gaussian-sicq-prior.html

その他のバンディット問題

バンディット問題にもいろいろある
- 敵対的 (adversarial) バンディット (相手が自由に設定を変えられる場合に相当し，確率的仮定が通用しない)
- 文脈つきバンディット
- 連続バンディット (腕が離散ではなく d 次元実数空間上の点で表わされる場合)

強化学習における探索コスト最小化

探索と利用のトレードオフについて
探索すべき未知の状態につながる行動も探す必要がある

楽観的初期価値法

Q学習でいう、最初に与えるQ値を大きくしておく
効率的とは言えない

サンプル複雑性: モデルベース手法

定義
- サンプル複雑性・・・行動履歴全体の中で最適なものではなかったものの数
- PAC-MDP・・・サンプル複雑性が小さく抑えられている

PAC-MDPであると認められたアルゴリズム　E3、Rmax

一定回数(m回)探索してない選択肢は探索してない物と扱い、高い価値を与える
mが非常に大きくなければならないため実用的ではない

効率的に探索するアルゴリズム　モデルベース区間推定 (MBIE, Model-based interval estimation)

各状態–行動ペアに対する報酬と遷移確率に関する信頼区間（分散）を求め，その信頼区間のなかで最大の価値となるような行動を，モデル上の計算で解く

サンプル複雑性: モデルフリー手法

q学習のようなサンプル複雑性を抑えるアルゴリズム　
Delayed Q- learning
一定回数探索してない選択肢に関しては、その時点ではQ値を更新しない
一定回数後に一気に更新する

ベイズ主義的アプローチ

事前知識を活用できたら探索回数が少なく済む
ベイジアン強化学習と呼ぶ

部分観測マルコフ決定過程

マルコフ決定過程を拡張したもので、環境を全て観測できない
環境を[θ,s]で表し、θは観測できない

ベイジアン強化学習においては、θが事前知識に対応する

手法として、以下の3つがある

共役分布表現を直接利用する方法

事前知識を直接利用、操作
BEETLE、BVRがある

環境モデルのサンプリングに基づく手法

事前知識をサンプリング
Bayesian DP、MBBE、BOSS、MC-BRLがある

モンテカルロ木探索法

θを探索木の探索であると解釈し、モンテカルロ法を用いる
UCT、FSSS、BFS3がある

Author And Source

この問題について(強化学習　文献まとめ2), 我々は、より多くの情報をここで見つけました https://qiita.com/he-mo/items/b1689b6df605936e82d3

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

JAva高支局のjstackコマンド使用

大数余を求める簡単な方法(水)

強化学習 文献まとめ2

強化学習 文献まとめ2

多腕バンディット問題

ランダム探索

不確かなときは楽観的に: UCB アルゴリズム

Thompson サンプリング

その他のバンディット問題

強化学習における探索コスト最小化

楽観的初期価値法

サンプル複雑性: モデルベース手法

PAC-MDPであると認められたアルゴリズム E3、Rmax

効率的に探索するアルゴリズム モデルベース区間推定 (MBIE, Model-based interval estimation)

サンプル複雑性: モデルフリー手法

ベイズ主義的アプローチ

共役分布表現を直接利用する方法

環境モデルのサンプリングに基づく手法

モンテカルロ木探索法

Author And Source

強化学習　文献まとめ2

強化学習　文献まとめ2

PAC-MDPであると認められたアルゴリズム　E3、Rmax

効率的に探索するアルゴリズム　モデルベース区間推定 (MBIE, Model-based interval estimation)