Next-Frame Video Prediction with Convolutional LSTMs


Intro


Convolutional LSTM Network(Xingjian, 2015)


連続期間中に収集されたデータは、テーブル列に特性化されます.この場合、興味深い方法は次のとおりです.
RNN(Recurrent Neural Network)のLong Short Term Memory(LSTM)ベースを使用します.
これらのモデルは、以前の非表示状態のシーケンスを次のステップに渡します.したがって,ネットワークは今回見たデータ情報を保持し,これらの情報を用いて決定する.

Convolutional LSTMは全く異なる方法を提供する.LSTM内部製品そのものにコンテンツを入れることです.Convolutional LSTMで修正されたキー方程式は次のとおりです.

入力、状態、出力は3 Dステートマシンで、次に入力とユニットのすべての状態をボリューム化する可視化です.
  • 進化LSTMに基づく符号化予測モデル
  • 単一LSTMからなる部分を用いて複数のConvolutional LSTMを積層
    その結果,LSTMユニット自体は空間と時間の意味を同時に抽出できる.
  • 予測モデルは、前のスタックのConvolutional LSTMユニットの出力を最終出力としない.
    各人は異なるレベルのConvolutional LSTMの状態を受け入れ、それを接続し、結果は1 x 1 Convolutionレイヤに掛けられる.これは、初期出力を同じ次元に調整しながら、異なるレベルのセル状態を同時に考慮できるためである.
  • その他の予測フレームワークの評価インデックスマップ



    もちろん,時間が遠ければ遠いほど予測が不正確になり,すべての評価においてROVERモデルとFC−LSTMモデルに先行する.
    (相関性:相関分析、CSI、FAR、PODは降水に関する指標であり、通過)
    ここで、相関とは、デジタル画像の相関を指す.
    「デジタル画像関連技術(Digital Image Correlation,DIC)とは、構造物の変形前の画像と変形後の画像を撮影し比較することによって、構造物の変形を計算する方法をいう.」
    本題に入ります...
    次のフレームのビデオ予測のための進化LSTMをどのように構築し訓練しますか?
    Convolutional LSTMアーキテクチャは、LSTM層内の畳み込み再帰cell timeによってシーケンス処理(クロック列処理)およびコンピュータビジュアルをもたらす.
    次の例では、「next-frame予測」のConvolutional LSTMモデルについて説明します.
    http://www.cs.toronto.edu/~nitish/unsupervised_video

    Setup



    DataSet Construction(データ構成)


    この例ではMoving MNISTデータセットを使用してダウンロードします.
    訓練と検証の3つのグループに分けて,前処理を行った.
  • Convolutional LSTMの機能と効果を示すために、本明細書ではMoving MNISTデータセットを使用する.
  • 次のフレームを予測するために、前のfnと呼ばれるフレームを用いてf(n+1)の新しいフレームを予測する.
    このような予測をモデルに与えるためには、データを処理し、入出力(フレームxn)を移動させる必要がある.新しいフレームを予測するためにデータを入力します.

    Data Visualization


    これらのデータは、間もなく到来するフレームを予測するためのフレームのシーケンスから構成される.

    Model Construction


    ConvLSTM 2 Dレイヤーを使用してConvolutional LSTMモデルを構築し、形状の予測と非形状の入力を返します.

    Model Training


    With our model and data constructed, we can now train the model.
    モデルと構造化データを使用してモデルを学習します.

    Frame Prediction Visualiz


    モデルを構築し、訓練することによって、新しいビデオに基づいていくつかの例示的なフレーム予測を行うことができる.

    Finally

    				   Truth  Prediction

    Expand Thinking


    Convolutional LSTMを用いたいくつかの研究
  • 天気予測(気象予測モデル)
  • 室内行動認識
  • **コンピュータビジョンとモード識別の問題
  • Ref)
  • 深さ学習に基づく気象予測モデル研究https://mikigom.github.io/jekyll/update/2017/06/13/deep-learning-forecast-research-1.html2

  • Appendix


    RNN


    https://velog.io/@cosmicdev/RNN

    LSTM


    Long-Short-Term Memory

    RNNは,関連情報と使用情報の点間の距離が遠い場合,逆属性勾配が徐々に減少し,学習能力が大幅に低下する.これを消失勾配問題と呼ぶ.
    これを克服するため,「LSTM」を用いてRNNのhidden stateにcell-stateを追加する構造が提案されている.
    下図のように、

    cellstateはコンベアの役割を果たし,stateが長時間経過しても勾配が良好に伝播できるという利点がある.
  • をまとめると、従来のRNNの欠点を補うのがLSTMである.LSTMのコアはセル状態
    Cell Stateはコンベアのようなもので,小さな線形相互作用のみを適用し,チェーン全体を運転し続ける.情報をそのままにするのは簡単です.
    LSTMは,非表示層のメモリセルに入力,忘却,出力ゲートを追加することで不要な記憶を消去し,記憶すべき内容を特定する.