ML Data Lifecycle in Production - week4
4874 ワード
Advanced Labeling
Semi-supervised Learning
Feature spaceでクラスタ化または構造化することで、タグ付けされたデータのラベルクラスをタグ付けされていないデータに関連付ける
Label Propagation-グラフィックベース
データ・サブセットにラベルが付いています
Active Learning
データのバランスがとれていない場合は、学習グループで「希少」クラス(最も役立つラベル)を選択すると便利です.標準的なサンプリング方法が精度の向上に役立たない場合は、使用できます.semi-はアクティブ学習にも含まれていると考えられる
モデルの学習に最も役立つラベル化の例を選択
Weak Supervision
1つ以上のsource情報を使用してラベルを作成します.
各ノイズ源間の関係を決定するために,各モニタリング源の信頼性モデルの生成を学習することによって学習した.
1)true labelを知らない未タグデータで始まる
2)弱い監督源をいくつか混入
*経験豊富な方法(?)
Snorkel
Data Augmentation
既存のデータを概略的にフラグメント変換することによって、大量のデータを生成し、モデルのパフォーマンスを改善し、新しい有効な例を作成し、特徴空間のオーバーライド率を改善します.
# ex
def augment(x, height, width, num_channels):
x = tf.image.resize_with_crop_or_pad(x, height + 8, width + 8)
x = tf.image.random_crop(x, [height, width, num_channels])
x = tf.image.random_flip_left_right(x)
return x
その他の高度なテクノロジーPreprocessing Different Data Types
Time series data
イベント発生時刻を記録するデータポイントのリスト
ウィンドウポリシー
ex.6時間過去データを用いて1時間予測したモデルのウィンドウ
Sensors & Signals
信号:センサーが収集したリアルタイムデータ(タイムスタンプ)「クロック列データ」
ex.加速度計データ-スマートフォン(センサー)から収集した移動者信号
Human Activity Recognition (HAR)
人間の活動をよりよく識別するためには、センサデータを適切に分割する必要がある(ウィンドウポリシーと同様)
1.分割
Reference
この問題について(ML Data Lifecycle in Production - week4), 我々は、より多くの情報をここで見つけました https://velog.io/@jayleenym/ML-Data-Lifecycle-in-Production-week4テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol