強化学習の理解


1インテリジェントエージェント
2良い順序良い決定をする
3最適性
4ユーティリティ

エージェントは良い決断をするために知的である必要がある
アタリピクセルからピクセルまでゲームを学ぶ
テレビゲーム
ロボットの衣服把握
人間の知能を増幅する教育ゲーム
NLP,最適化プロセスの視覚的種類
主要な側面

  • 最適化
    良い決定または少なくとも良い戦略

  • 遅延結果
    決定についてのアイデアは現在またはすぐに良いですが
    過去

  • exploaration :エージェントはすべてをすべてのものを獲得しようとする.
    データは、決定のために報酬だけ検閲されます.
  • 方針は、PST経験を行動に写像しています
    より大きい検索スペースのためにpreprogramならば、よりよくありません
  • 良い質問なぜ事前に政策をプログラム?
    大きな検索スペース
    コードベース
    アタリ学習画像の空間から何を次の
    一般化が必要です.
  • AI計画:OGDなぜゲームは探査を必要としないか?
  • 監督: OG
    既にデータセットの形式としての経験がある
  • 教師なし:ogなしのラベルにはデータがある
  • レーザー総研

  • 模倣学習他者からの学習
    入力が良い方針デモから来ると仮定してください.
  • RLを教師付き学習に減らす
    決定を導くために世界の使用経験を調査してください
    クラスゴール終了
    不確実性下での逐次意思決定
  • インタラクティブ・クローズド・ループ
    マックス・フューチャー・報酬
  • 期待される確率過程は高い報酬を得る戦略的行動を必要とする
    即時と長期の報酬のバランス
    それは報酬が得られない長い決断を下さなければならないかもしれない
    長い間
    エージェントは、それを行うことができます報酬を最大限に選択する簡単なオプションを取得する場合
    報酬関数()は重要なものです.
    機械教育のサブデシプリン
    注意
  • + ( 0 )+
  • 定数2ポイント必要
    ○○○
    歴史、状態空間、世界州
    現実世界の小さな部分集合
    (マルコフ仮定)
    状態電流観測:S(t)
       t=inf
    
    彼の( t ) = sum ( s ( i )
    i = 0
    ^
    ヒストリー
    マルコフ全体の歴史はマルコフ
    POMD
    盗賊:行動は次の観測に影響を与えない
    MDPとPOMDPsの行動は将来のサービスに影響する
    SDPの種類:
    決定性
    確率
    RLアルゴリズム
    モデル
    ポリシー:マッピング関数状態
    確率的政策決定政策
    価値fucntionガンマ:将来の報酬に期待される割引額
    報酬:火星ローバー確率Markovモデル
    RLエージェント:
    モデルベース:モデル
    モデル無料:ポリシーと値の機能
    重要課題
    計画
    有限ホライゾン設定は、そのような定義されたパフォーマンス対策について心配しているシステム操作の時間範囲です.あなたがシステムを制御したいならば、有限時間のためにパフォーマンス処置を満たすことはTと言います、そして、問題は有限地平線です、そして、あなたがt=∞そして無限の地平問題だ.
    制御U(t)の導出問題
    , t=[0,T] システム用x˙(t)=Ax(t)+Bu(t)パフォーマンスインデックスPM=∫T0x(t)′Qx(t)+u′(t)Ru(t)dt最小化は有限地平問題である
    制御の問題
    , 
    t=[0,∞] for the system
    x˙(t)=Ax(t)+Bu(t)
    such that the performance index
    PM=∫∞0x(t)′Qx(t)+u′(t)Ru(t)dt
    
    
    最小化は無限の地平問題
    評価と管理