Boostcamper's TIL (7)
4395 ワード
2021/08/12
学習の内容
DL Basic
CNN
Convolution
従来のCNNモードはConvolution層の後に全接続層を確立する.
# 10개의 클래스로 라벨링된 이미지 데이터를 분류하는 모델
import torch
import torch.nn as nn
import torch.nn.functional as F
#...
conv1 = nn.Conv2d(in_channels=3, out_channels=8, kernel_size=3, padding=1)
conv2 = nn.Conv2d(in_channels=8, out_channels=16, kernel_size=3, padding=1)
fc1 = nn.Linear(8*8*16, 64)
fc2 = nn.Linear(64, 32)
fc3 = nn.Linear(32, 10)
#...
conv 1の出力は、次のconv 2の入力チャネルと同じです.第1のconv 1を通過するときに使用されるデータが3つのチャネル(RGB)を有する28 x 28画像であると仮定すると、出力は8つの特徴マッピングを有する.計算パラメータの場合は、3 x 3 x 3 x 8=216(filter W)x(filter H)x(input channel)x(output channel)
Stride, Padding
Modern CNN
最近,ILSVVRCにおいて良好な結果が得られるモデルはますます深くなり,完全に接続された層は消えつつある.
AlexNet
最良のCNNモデルの基礎モデルとして、Relu関数の使用、データ増強、Dropoutなどは現在当然の適用アルゴリズムであるが、当時はそうではなかった.
VGG
3 x 3フィルタを使用しました.
AlexNet
には11 x 11フィルタが使用され、過大なフィルタサイズパラメータが大きくなり、VGG
には3 x 3フィルタが使用されることがコアとなる.GoogLeNet
Inceptionブロックを使用しました.Inputデータは複数のパスにわたって移動でき,Inceptionブロックを用いてパラメータ数を大幅に減らすことができる.
ResNet
Layerが一定値以上になると,最終的には学習がなくなる現象が現れ,skip connectionを用いてLayerを深める方法が提案されている.
DenseNet
各後ろのfeature mapを接続するアイデアを使用します.
Computer Vision Application
コンピュータの視覚応用分野には様々なタスクが存在している.
Semantic Segmentation:ピクセルを分類する問題.最後に全接続層に接続せずに畳み込みます.出力はホットマップのようです.これを畳み込む.
Detection : R-CNN, SPPNet, Fast R-CNN, Faster R-CNN, YOLO
の最後の部分
Reference
この問題について(Boostcamper's TIL (7)), 我々は、より多くの情報をここで見つけました https://velog.io/@choihj94/Boostcampers-TIL-7テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol