ニューラルネットワークの基礎知識を蓄積する

2206 ワード

why CNN?
  • 私jioは1つのものを学ばなければならない时、ずっと绝えず自分にこのものが何の役に立つかを闻いて、どのように使うべきで、このようにやっと学习が终わった后に脳はまだ一面の空白(申し訳ありませんが、私は多くの本を読んだ后ですべてこのような感じhhh)
  • じゃあなぜNNを使うの?これまでの機械学習の方法は、例えばSVM、ベイズ分類器などがよくなかったのでしょうか.今のビッグデータ時代に...申し訳ありませんが、今はまだ知識が足りないような気がします.勉強が終わったら、少し自分の意見を言ってもいいかもしれません.
  • CNNの基礎知識1つのCNNは、ボリューム層、プール化層、全接続層などのいくつかの部分
  • を含むだろう.
  • ボリューム層:入力データをボリュームコア(filter)で特徴抽出し、filterは指定ウィンドウサイズのスキャナ
  • と見なすことができる.
  • プール化層:データのコア特徴を抽出する方法であり、元のデータの圧縮を実現しただけでなく、モデル計算に参加するパラメータを大幅に減少させ、計算効率を高め、emmmm、ボリューム層と何の違いもないようだ
  • 全接続層:主に入力画像をボリューム化とプール化操作後に抽出する特徴を圧縮し、モデルの分類機能を完成する.これがNNの最初の構造
  • である.
  • 詳細については、
  • を参照してください.
    入力画像が32*32*3(高さ、幅、チャネル数の3つのパラメータ)である場合、ボリュームコアを3*3*3 or 5*5*3 or 7*7*3 orと定義することができますが、高さと幅は入力画像の高さと幅よりも一般的に小さく、ボリュームコアの深さが入力画像のチャネル数に等しいことに特に注意してください.
    ボリュームコアのステップ長(stride)は、ボリュームコアウィンドウが通過する画像上の画素点数を表し、一般に1または2 の値をとる.
    境界埋め込み(Padding)とは、入力画像の最外層に指定された層数の値を加えてすべて0の画素境界を指し、2つのパラメータSame,Validを設定することができる.1番目はPadding、2番目は加算しません.一般的な値は1または2 です.
    重要:ボリューム共通式:W o u t p u t = ( W i n p u t − W f i l t e r + 2 p )/s + 1 W_{output}=(W_{input}-W_{filter}+2p)/s+1 Woutput​=(Winput​−Wfilter​+2p)/s+1
    H o u t p u t = ( H i n p u t − H f i l t e r + 2 p )/s + 1 H_{output}=(H_{input}-H_{filter}+2 p)/s+1 Houtput=(Hinput−Hfilter+2 p)/s+1ボリューム層のコード例:
    torch.nn.Conv2d(1, 64, kernel_size = 3, stride = 1, padding = 1)
    

    5つのパラメータは、入力チャネル数(ボリュームコアの深さ、入力ピクチャチャネル数と一致)、出力チャネル数(ボリューム回数)、ボリュームコアサイズ、ボリュームコア移動ステップ、Padding値を表します.
    一般的に使用されるプール化レイヤには、平均プール化レイヤと最大プール化レイヤがあり、スライドウィンドウを定義する必要がありますが、このウィンドウは重要な特徴を抽出するためにのみ使用され、パラメータはありません.
    一般的に定義プール化ウィンドウのサイズは1*1または2*2であり、プール化レイヤの深さと特徴図の深さは一致し、一般的に定義スライドウィンドウのステップ長は2 である.
    プール化層の入出力チャネル数が一致するプール化汎用式W o u t p u t = ( W i n p u t − W f i l t e r )/s + 1 W_{output}=(W_{input}-W_{filter})/s+1 Woutput​=(Winput​−Wfilter​)/s+1
    H o u t p u t = ( H i n p u t − H f i l t e r )/s + 1 H_{output}=(H_{input}-H_{filter})/s+1 Houtput=(Hinput−Hfilter)/s+1プール化層のコード例:
    torch.nn.MaxPool2d(stride = 2, kernel_size = 2)
    

    全接続層は主に入力,重みパラメータ,活性化関数の3つの部分からなり,入力はボリューム層とプール化層を経たコア特徴であり,活性化関数を経て最終的な分類結果を得た.
    フル接続レイヤのコード例:
    torch.nn.Linear(14*14*128, 1024)