強化学習実践(1):簡単な紹介


文書ディレクトリ
  • 監督学習から強化学習まで
  • RLアルゴリズムにはどのようなものがありますか(私たちが実践するもの)
  • Model-freeおよびModel-based
  • 確率ベース(Policy-Based)およびバリューベース(Value-Based)
  • ラウンド更新(Monte-Carlo update)と単一ステップ更新(Temporal-Difference update)
  • 同ポリシーと異ポリシー[^1]
  • で使用するモジュール(python)
  • 注意:このチュートリアルはpythonのRLの実践ノートです.
    監督学習から強化学習へ
    監督学習ではデータとデータに対応する正しいラベルがペアになっているが,強化学習には最初はこのラベルはなく,多くの強化学習は環境で試み,その後環境から与えられたフィードバック学習である.
    RLアルゴリズムにはどのようなものがありますか(どのようなものを実践しますか)
    RLアルゴリズムとその変種は実は多く,ここでは煩わしいRLチュートリアルを実践しているので,煩わしいアルゴリズム以外のアルゴリズムについては議論しない.
    バリューセレクションによる動作
    ちょくせつせんたくきょどう
    環境を想像して勉強する
    Qlearning
    Policy Gradients
    Model based RL
    Sarsa
    DQN
    価値によって行を選ぶという意味は、行為の価値によって特定の行為を選ぶことです.
    Model-freeとModel-based
    すべてのDRLアルゴリズムは、次のように抽象化できます.
    generate samples
    fit a model/estimate the return
    imporve the policy
    Model-freeのfit modelでは便利で多くの試みに行ったことがなく、rewardをimporve policyに与える段階を得ただけだ.Model-basedモデルは、実際の環境でgenerate sampleのデータを利用するだけでなく、自分のモデルで与えられたデータを使用して、Model-freeが絶えず実際の環境と相互作用できると考えられるモデル(フィット)環境を特徴付ける試みがある.Model-basedはロボットの脳の中でこの世界のモデルを構築し、この世界のいくつかの(正しくないかもしれない)動作方式を知っていて、ロボットは実際の環境と対話することができるだけでなく、自分が何をしてどんな結果を得るかを想像することでimporve policy戦略の向上段階に送ることができます.
    Model-freeアルゴリズム:
  • Q-learning
  • Sarsa
  • Policy Gradients

  • 確率ベース(Policy-Based)と価値ベース(Value-Based)
    Value-Based出力はすべての動作の価値であり、一般的に最高価値に基づいて動作Policy-Based出力を選択するのはすべての動作の確率であり、それぞれの動作が選択される可能性がある結論:Value-Basedは比較的に鉄定であり、Policy-Based雨露はいずれも離散動作空間に付着することができる.連続動作空間は確率に基づくアルゴリズムPolicy-Based:Policy Graients Value-Based:Q learningしか使用できない.Sarsa both Policy-Value:Actor-Critic Actor-Criticではactorが確率に基づいて動作し,criticが行う動作に対して動作の価値を与え,Policy Gradientで学習過程1を加速した.
    ラウンド更新(Monte-Carlo update)とシングルステップ更新(Temporal-Difference update)
    私たちは往々にして1つのゲームで1つのゴールを定義して、例えば5回の3勝、王女を救い出して、ボスを殺してあるいは実践のタイムアウトなど、ラウンドの更新はゲームが終わった後に総括して、勉強します;ワンステップ更新は遊びながら学ぶことです.
    ラウンド更新:
  • Monte-carlo learning
  • 基礎版policy gradients
  • シングルステップ更新:
  • Qlearning
  • Sarsa
  • アップグレード版policy gradients
  • 同ポリシーと異ポリシー1
    同戦略:o n−p o l i c y on−policy on−policy;異戦略:o f−p o l i c y off−policy off−policyこれはオンライン学習、オフライン学習と2つの範疇のことである2
    o n−p o l i c y on−policy on−policyは、現在のpolicyを使用するときに現在のpolicyを更新するが、o f−p o l i c y off−policy off−policyは、behaviour policy、すなわち生成sampleを生成するために使用される2つの部分を有する.もう1つはestimation policyであり、評価され最適化されているpolicyであり、behaviour policyとestimation policyは関係ない可能性がある.2
    o n−p o l i c y on−policy on−policyは自分でゲームをし(自分の戦略を使う)自分で勉強し(新しい現在のpolicyと一緒に)、ドアを閉めて車を作らなければならない.o f−p o l i c y off−policy off−policy自分でプレイするかキャスターを見て(他のポリシーを使って自分のポリシーを更新する)ゲームをしたり、他人の行動基準を勉強したりすることができますが、これらの見た経験は必ずしも他人のポリシーに従って行動する必要はありません(自分のポリシーを使って行動する).
    o n − p o l i c y on-policy on−policy :Sarsa、Sarsa lambda o f f − p o l i c y off-policy off−policy: Q learning、Deep-Q-Network.
    必要なモジュール(python)
    Numpy, Pandas (  ),          
    Matplotlib (  ),               
    Tkinter (  ),               
    Tensorflow (  ),                     
    OpenAI gym (  ),             
    

    最後に、RLのgithubとRLの博文についてとても良いRL実践教程を添付します.
    煩わしいpython RLチュートリアルでは、彼が言ったオンライン学習とオフライン学習はon-policyとoff-policyを指したいと思っています.この正確な翻訳は同戦略と異戦略であるべきで、多くの文章の中でon-policyをオンライン学習に解釈し、off-policyをオフライン学習に翻訳しますが、これは実は厳密ではありません.↩︎ ↩︎
    学習を強化するoff-policy/on-policyと機械学習のオフライン学習/オンライン学習は一つの概念ですか?[J]·https://www.zhihu.com/question/312824554 ↩︎ ↩︎