Boostcamp Pstage Day 2(3,4強)

2586 ワード

Dataset


データ処理段階において、与えられたバニラデータをモデルに変換するのに好ましいデータはデータセットである.

Pre-processing


実際のデータは競合データとは異なり,通常は注釈のあるデータであり,測定値の欠如などの理由で使用しにくい.したがって,適切な前処理プロセスはData Science Pipelineにおいて非常に重要なプロセスである.

Bounding Box


自動車を学ぶ過程であれば、自動車以外の部分は実際には不要な情報、騒音です.

Resize


計算の効率のために、写真を適当な大きさに変えることができます.

Example : APTOS Blindness Detection


写真の明るさやコントラストを調整することで、学習の性能を向上させることができます.

Generalization


Train/Validation


トレーニングセットの一部を個別に分離し、検証セットとして使用します.
非アクティブデータによる学習

Data Augmentation


与えられたデータが持つ可能性のあるCase、Stateの多様性
輝度、ぼかし、上下反転など、データのドメインで発生する可能性が考えられます.

- torchvision.transforms

  • RandomCrop, Flip
  • Component関数を用いて多様な画像データ増強を行うことができる.
  • - Albumentation



    でも、


    いつも良い結果をもたらすわけではない.これは多くのツールの1つにすぎませんが、実際には無条件に適用されるプライマリ・キーもありません.
    テーマを深く観察することによって,どのような方法を採用すれば多様性を持つことができるかを実験で証明した.

    Data Generation


    Data Feeding


    給餌=対象の状態に応じて適当な量を与える.
  • モデルの処理速度とデータ生成速度を考慮することが望ましい.
  • たとえば、Transformsオブジェクトに画像変換を適用する場合、ResizeとRandomRotationの順序を変更するだけで、多くの時間差が生じる可能性があります.

    Dataset

    from torch.utils.data import Dataset
    
    __init__ # MyDataset 클래스가 처음 선언 되었을 때 호출
    __getitem__ # MyDataset의 데이터 중 index 위치의 아이템을 리턴
    __len__ # MyDataset 아이템의 전체 길이
    

    DataLoader

    torch.utils.data.DataLoader(train_set,
    	batch_size = batch_size,
    	num_workers = num_workers,
    	drop_last = True)