強化学習の理解
2143 ワード
1インテリジェントエージェント
2良い順序良い決定をする
3最適性
4ユーティリティ
エージェントは良い決断をするために知的である必要がある
アタリピクセルからピクセルまでゲームを学ぶ
テレビゲーム
ロボットの衣服把握
人間の知能を増幅する教育ゲーム
NLP,最適化プロセスの視覚的種類
主要な側面
最適化
良い決定または少なくとも良い戦略
遅延結果
決定についてのアイデアは現在またはすぐに良いですが
過去
exploaration :エージェントはすべてをすべてのものを獲得しようとする.
データは、決定のために報酬だけ検閲されます. 方針は、PST経験を行動に写像しています
より大きい検索スペースのためにpreprogramならば、よりよくありません 良い質問なぜ事前に政策をプログラム?
大きな検索スペース
コードベース
アタリ学習画像の空間から何を次の
一般化が必要です. AI計画:OGDなぜゲームは探査を必要としないか? 監督: OG
既にデータセットの形式としての経験がある 教師なし:ogなしのラベルにはデータがある レーザー総研
模倣学習他者からの学習
入力が良い方針デモから来ると仮定してください.
RLを教師付き学習に減らす
決定を導くために世界の使用経験を調査してください
クラスゴール終了
不確実性下での逐次意思決定 インタラクティブ・クローズド・ループ
マックス・フューチャー・報酬 期待される確率過程は高い報酬を得る戦略的行動を必要とする
即時と長期の報酬のバランス
それは報酬が得られない長い決断を下さなければならないかもしれない
長い間
エージェントは、それを行うことができます報酬を最大限に選択する簡単なオプションを取得する場合
報酬関数()は重要なものです.
機械教育のサブデシプリン
注意 + ( 0 )+
定数2ポイント必要
○○○
歴史、状態空間、世界州
現実世界の小さな部分集合
(マルコフ仮定)
状態電流観測:S(t)
i = 0
^
ヒストリー
マルコフ全体の歴史はマルコフ
POMD
盗賊:行動は次の観測に影響を与えない
MDPとPOMDPsの行動は将来のサービスに影響する
SDPの種類:
決定性
確率
RLアルゴリズム
モデル
ポリシー:マッピング関数状態
確率的政策決定政策
価値fucntionガンマ:将来の報酬に期待される割引額
報酬:火星ローバー確率Markovモデル
RLエージェント:
モデルベース:モデル
モデル無料:ポリシーと値の機能
重要課題
計画
有限ホライゾン設定は、そのような定義されたパフォーマンス対策について心配しているシステム操作の時間範囲です.あなたがシステムを制御したいならば、有限時間のためにパフォーマンス処置を満たすことはTと言います、そして、問題は有限地平線です、そして、あなたが
制御U(t)の導出問題
,
制御の問題
評価と管理
2良い順序良い決定をする
3最適性
4ユーティリティ
エージェントは良い決断をするために知的である必要がある
アタリピクセルからピクセルまでゲームを学ぶ
テレビゲーム
ロボットの衣服把握
人間の知能を増幅する教育ゲーム
NLP,最適化プロセスの視覚的種類
主要な側面
最適化
良い決定または少なくとも良い戦略
遅延結果
決定についてのアイデアは現在またはすぐに良いですが
過去
exploaration :エージェントはすべてをすべてのものを獲得しようとする.
データは、決定のために報酬だけ検閲されます.
より大きい検索スペースのためにpreprogramならば、よりよくありません
大きな検索スペース
コードベース
アタリ学習画像の空間から何を次の
一般化が必要です.
既にデータセットの形式としての経験がある
模倣学習他者からの学習
入力が良い方針デモから来ると仮定してください.
決定を導くために世界の使用経験を調査してください
クラスゴール終了
不確実性下での逐次意思決定
マックス・フューチャー・報酬
即時と長期の報酬のバランス
それは報酬が得られない長い決断を下さなければならないかもしれない
長い間
エージェントは、それを行うことができます報酬を最大限に選択する簡単なオプションを取得する場合
報酬関数()は重要なものです.
機械教育のサブデシプリン
注意
○○○
歴史、状態空間、世界州
現実世界の小さな部分集合
(マルコフ仮定)
状態電流観測:S(t)
t=inf
彼の( t ) = sum ( s ( i )i = 0
^
ヒストリー
マルコフ全体の歴史はマルコフ
POMD
盗賊:行動は次の観測に影響を与えない
MDPとPOMDPsの行動は将来のサービスに影響する
SDPの種類:
決定性
確率
RLアルゴリズム
モデル
ポリシー:マッピング関数状態
確率的政策決定政策
価値fucntionガンマ:将来の報酬に期待される割引額
報酬:火星ローバー確率Markovモデル
RLエージェント:
モデルベース:モデル
モデル無料:ポリシーと値の機能
重要課題
計画
有限ホライゾン設定は、そのような定義されたパフォーマンス対策について心配しているシステム操作の時間範囲です.あなたがシステムを制御したいならば、有限時間のためにパフォーマンス処置を満たすことはTと言います、そして、問題は有限地平線です、そして、あなたが
t=∞
そして無限の地平問題だ.制御U(t)の導出問題
,
t=[0,T]
システム用x˙(t)=Ax(t)+Bu(t)
パフォーマンスインデックスPM=∫T0x(t)′Qx(t)+u′(t)Ru(t)dt
最小化は有限地平問題である制御の問題
,
t=[0,∞] for the system
x˙(t)=Ax(t)+Bu(t)
such that the performance index
PM=∫∞0x(t)′Qx(t)+u′(t)Ru(t)dt
最小化は無限の地平問題評価と管理
Reference
この問題について(強化学習の理解), 我々は、より多くの情報をここで見つけました https://dev.to/darkdebo/understanding-of-reinforcement-learning-first-lecture-stanford-cs243-course-2edfテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol