強化学習実践(1):簡単な紹介
3419 ワード
文書ディレクトリ監督学習から強化学習まで RLアルゴリズムにはどのようなものがありますか(私たちが実践するもの) Model-freeおよびModel-based 確率ベース(Policy-Based)およびバリューベース(Value-Based) ラウンド更新(Monte-Carlo update)と単一ステップ更新(Temporal-Difference update) 同ポリシーと異ポリシー[^1] で使用するモジュール(python) 注意:このチュートリアルはpythonのRLの実践ノートです.
監督学習から強化学習へ
監督学習ではデータとデータに対応する正しいラベルがペアになっているが,強化学習には最初はこのラベルはなく,多くの強化学習は環境で試み,その後環境から与えられたフィードバック学習である.
RLアルゴリズムにはどのようなものがありますか(どのようなものを実践しますか)
RLアルゴリズムとその変種は実は多く,ここでは煩わしいRLチュートリアルを実践しているので,煩わしいアルゴリズム以外のアルゴリズムについては議論しない.
バリューセレクションによる動作
ちょくせつせんたくきょどう
環境を想像して勉強する
Qlearning
Policy Gradients
Model based RL
Sarsa
DQN
価値によって行を選ぶという意味は、行為の価値によって特定の行為を選ぶことです.
Model-freeとModel-based
すべてのDRLアルゴリズムは、次のように抽象化できます.
generate samples
fit a model/estimate the return
imporve the policy
Model-freeのfit modelでは便利で多くの試みに行ったことがなく、rewardをimporve policyに与える段階を得ただけだ.Model-basedモデルは、実際の環境でgenerate sampleのデータを利用するだけでなく、自分のモデルで与えられたデータを使用して、Model-freeが絶えず実際の環境と相互作用できると考えられるモデル(フィット)環境を特徴付ける試みがある.Model-basedはロボットの脳の中でこの世界のモデルを構築し、この世界のいくつかの(正しくないかもしれない)動作方式を知っていて、ロボットは実際の環境と対話することができるだけでなく、自分が何をしてどんな結果を得るかを想像することでimporve policy戦略の向上段階に送ることができます.
Model-freeアルゴリズム: Q-learning Sarsa Policy Gradients
確率ベース(Policy-Based)と価値ベース(Value-Based)
Value-Based出力はすべての動作の価値であり、一般的に最高価値に基づいて動作Policy-Based出力を選択するのはすべての動作の確率であり、それぞれの動作が選択される可能性がある結論:Value-Basedは比較的に鉄定であり、Policy-Based雨露はいずれも離散動作空間に付着することができる.連続動作空間は確率に基づくアルゴリズムPolicy-Based:Policy Graients Value-Based:Q learningしか使用できない.Sarsa both Policy-Value:Actor-Critic Actor-Criticではactorが確率に基づいて動作し,criticが行う動作に対して動作の価値を与え,Policy Gradientで学習過程1を加速した.
ラウンド更新(Monte-Carlo update)とシングルステップ更新(Temporal-Difference update)
私たちは往々にして1つのゲームで1つのゴールを定義して、例えば5回の3勝、王女を救い出して、ボスを殺してあるいは実践のタイムアウトなど、ラウンドの更新はゲームが終わった後に総括して、勉強します;ワンステップ更新は遊びながら学ぶことです.
ラウンド更新: Monte-carlo learning 基礎版policy gradients シングルステップ更新: Qlearning Sarsa アップグレード版policy gradients 同ポリシーと異ポリシー1
同戦略:o n−p o l i c y on−policy on−policy;異戦略:o f−p o l i c y off−policy off−policyこれはオンライン学習、オフライン学習と2つの範疇のことである2
o n−p o l i c y on−policy on−policyは、現在のpolicyを使用するときに現在のpolicyを更新するが、o f−p o l i c y off−policy off−policyは、behaviour policy、すなわち生成sampleを生成するために使用される2つの部分を有する.もう1つはestimation policyであり、評価され最適化されているpolicyであり、behaviour policyとestimation policyは関係ない可能性がある.2
o n−p o l i c y on−policy on−policyは自分でゲームをし(自分の戦略を使う)自分で勉強し(新しい現在のpolicyと一緒に)、ドアを閉めて車を作らなければならない.o f−p o l i c y off−policy off−policy自分でプレイするかキャスターを見て(他のポリシーを使って自分のポリシーを更新する)ゲームをしたり、他人の行動基準を勉強したりすることができますが、これらの見た経験は必ずしも他人のポリシーに従って行動する必要はありません(自分のポリシーを使って行動する).
o n − p o l i c y on-policy on−policy :Sarsa、Sarsa lambda o f f − p o l i c y off-policy off−policy: Q learning、Deep-Q-Network.
必要なモジュール(python)
最後に、RLのgithubとRLの博文についてとても良いRL実践教程を添付します.
煩わしいpython RLチュートリアルでは、彼が言ったオンライン学習とオフライン学習はon-policyとoff-policyを指したいと思っています.この正確な翻訳は同戦略と異戦略であるべきで、多くの文章の中でon-policyをオンライン学習に解釈し、off-policyをオフライン学習に翻訳しますが、これは実は厳密ではありません.↩︎ ↩︎
学習を強化するoff-policy/on-policyと機械学習のオフライン学習/オンライン学習は一つの概念ですか?[J]·https://www.zhihu.com/question/312824554 ↩︎ ↩︎
監督学習から強化学習へ
監督学習ではデータとデータに対応する正しいラベルがペアになっているが,強化学習には最初はこのラベルはなく,多くの強化学習は環境で試み,その後環境から与えられたフィードバック学習である.
RLアルゴリズムにはどのようなものがありますか(どのようなものを実践しますか)
RLアルゴリズムとその変種は実は多く,ここでは煩わしいRLチュートリアルを実践しているので,煩わしいアルゴリズム以外のアルゴリズムについては議論しない.
バリューセレクションによる動作
ちょくせつせんたくきょどう
環境を想像して勉強する
Qlearning
Policy Gradients
Model based RL
Sarsa
DQN
価値によって行を選ぶという意味は、行為の価値によって特定の行為を選ぶことです.
Model-freeとModel-based
すべてのDRLアルゴリズムは、次のように抽象化できます.
generate samples
fit a model/estimate the return
imporve the policy
Model-freeのfit modelでは便利で多くの試みに行ったことがなく、rewardをimporve policyに与える段階を得ただけだ.Model-basedモデルは、実際の環境でgenerate sampleのデータを利用するだけでなく、自分のモデルで与えられたデータを使用して、Model-freeが絶えず実際の環境と相互作用できると考えられるモデル(フィット)環境を特徴付ける試みがある.Model-basedはロボットの脳の中でこの世界のモデルを構築し、この世界のいくつかの(正しくないかもしれない)動作方式を知っていて、ロボットは実際の環境と対話することができるだけでなく、自分が何をしてどんな結果を得るかを想像することでimporve policy戦略の向上段階に送ることができます.
Model-freeアルゴリズム:
確率ベース(Policy-Based)と価値ベース(Value-Based)
Value-Based出力はすべての動作の価値であり、一般的に最高価値に基づいて動作Policy-Based出力を選択するのはすべての動作の確率であり、それぞれの動作が選択される可能性がある結論:Value-Basedは比較的に鉄定であり、Policy-Based雨露はいずれも離散動作空間に付着することができる.連続動作空間は確率に基づくアルゴリズムPolicy-Based:Policy Graients Value-Based:Q learningしか使用できない.Sarsa both Policy-Value:Actor-Critic Actor-Criticではactorが確率に基づいて動作し,criticが行う動作に対して動作の価値を与え,Policy Gradientで学習過程1を加速した.
ラウンド更新(Monte-Carlo update)とシングルステップ更新(Temporal-Difference update)
私たちは往々にして1つのゲームで1つのゴールを定義して、例えば5回の3勝、王女を救い出して、ボスを殺してあるいは実践のタイムアウトなど、ラウンドの更新はゲームが終わった後に総括して、勉強します;ワンステップ更新は遊びながら学ぶことです.
ラウンド更新:
同戦略:o n−p o l i c y on−policy on−policy;異戦略:o f−p o l i c y off−policy off−policyこれはオンライン学習、オフライン学習と2つの範疇のことである2
o n−p o l i c y on−policy on−policyは、現在のpolicyを使用するときに現在のpolicyを更新するが、o f−p o l i c y off−policy off−policyは、behaviour policy、すなわち生成sampleを生成するために使用される2つの部分を有する.もう1つはestimation policyであり、評価され最適化されているpolicyであり、behaviour policyとestimation policyは関係ない可能性がある.2
o n−p o l i c y on−policy on−policyは自分でゲームをし(自分の戦略を使う)自分で勉強し(新しい現在のpolicyと一緒に)、ドアを閉めて車を作らなければならない.o f−p o l i c y off−policy off−policy自分でプレイするかキャスターを見て(他のポリシーを使って自分のポリシーを更新する)ゲームをしたり、他人の行動基準を勉強したりすることができますが、これらの見た経験は必ずしも他人のポリシーに従って行動する必要はありません(自分のポリシーを使って行動する).
o n − p o l i c y on-policy on−policy :Sarsa、Sarsa lambda o f f − p o l i c y off-policy off−policy: Q learning、Deep-Q-Network.
必要なモジュール(python)
Numpy, Pandas ( ),
Matplotlib ( ),
Tkinter ( ),
Tensorflow ( ),
OpenAI gym ( ),
最後に、RLのgithubとRLの博文についてとても良いRL実践教程を添付します.
煩わしいpython RLチュートリアルでは、彼が言ったオンライン学習とオフライン学習はon-policyとoff-policyを指したいと思っています.この正確な翻訳は同戦略と異戦略であるべきで、多くの文章の中でon-policyをオンライン学習に解釈し、off-policyをオフライン学習に翻訳しますが、これは実は厳密ではありません.↩︎ ↩︎
学習を強化するoff-policy/on-policyと機械学習のオフライン学習/オンライン学習は一つの概念ですか?[J]·https://www.zhihu.com/question/312824554 ↩︎ ↩︎