ML Data Lifecycle in Production - week4



Advanced Labeling



Semi-supervised Learning


Feature spaceでクラスタ化または構造化することで、タグ付けされたデータのラベルクラスをタグ付けされていないデータに関連付ける

Label Propagation-グラフィックベース


データ・サブセットにラベルが付いています
  • タグを有するデータとタグを持たないデータとの類似性又はコミュニティ構造に基づくタグ割り当て
  • による.
  • のほかにも、
  • という多くの技術があります.

    Active Learning


    データのバランスがとれていない場合は、学習グループで「希少」クラス(最も役立つラベル)を選択すると便利です.標準的なサンプリング方法が精度の向上に役立たない場合は、使用できます.semi-はアクティブ学習にも含まれていると考えられる
    モデルの学習に最も役立つラベル化の例を選択
  • Margin Sampling:境界に最も近い、最も不確定な点を選択→新しい境界を描画→次に最も不確定な点を選択→...
  • クラスタサンプリング:フィーチャー空間で複数のクラスタメソッドを使用して異なるポイントセット
  • を選択します.
  • Query by Committee:複数のモデルを訓練し、一致しないキーが最も高いデータポイント
  • を選択
  • Region-based sampling : (new!) high levelではinputspaceをいくつかの領域に分割し、これらの領域でactive learning
  • を実行する

    Weak Supervision


    1つ以上のsource情報を使用してラベルを作成します.
  • subject matter experts
  • はこのような経験的方法論を構成する
  • に最もよく用いられる.
  • カバーセット&カバーセットの真ラベル確率期待値(ノイズあり?=正しい確率あり)
  • ラベルリングのヒントリスト(?)を自動化できます.
  • 結果labelは我々が知っている決定的なlabelよりも
  • ノイズを有する.
  • とマークされていないデータに対して1つ以上の帯域ノイズ分布を構成する
    各ノイズ源間の関係を決定するために,各モニタリング源の信頼性モデルの生成を学習することによって学習した.
  • に道を教える
    1)true labelを知らない未タグデータで始まる
    2)弱い監督源をいくつか混入
    *経験豊富な方法(?)

    Snorkel

  • タグ付けされていないデータ+タグ関数=高ノイズタグ
  • を生成する.
  • モデルを生成し、de-noise&重要度を重みとして他のタグ機能
  • を付与する.
  • de-トレーニングノイズラベル付き判別モデル
  • Data Augmentation


    既存のデータを概略的にフラグメント変換することによって、大量のデータを生成し、モデルのパフォーマンスを改善し、新しい有効な例を作成し、特徴空間のオーバーライド率を改善します.
  • しかし、誤った答えや望ましくないノイズが発生する可能性がある
  • .
  • と適合度を下げ、モデルの汎用性を向上!
  • # ex
    def augment(x, height, width, num_channels):
       x = tf.image.resize_with_crop_or_pad(x, height + 8, width + 8)
       x = tf.image.random_crop(x, [height, width, num_channels])
       x = tf.image.random_flip_left_right(x)
       return x
    その他の高度なテクノロジー
  • 非地図データ強化ex.UDA、GAN半監督学習
  • ポリシーに基づくデータ強化ex.AutoAugment
  • Preprocessing Different Data Types


    Time series data


    イベント発生時刻を記録するデータポイントのリスト
  • 過去のデータを利用して未来
  • を正確に予測する.
  • データを印刷する周期性と季節性

    ウィンドウポリシー


    ex.6時間過去データを用いて1時間予測したモデルのウィンドウ
  • Sampling
  • 1時間で6回記録しましたが、あまり差はありませんでしたか?1時間に1人の代表だけを選んで
  • を行います.

    Sensors & Signals


    信号:センサーが収集したリアルタイムデータ(タイムスタンプ)「クロック列データ」
    ex.加速度計データ-スマートフォン(センサー)から収集した移動者信号

    Human Activity Recognition (HAR)


    人間の活動をよりよく識別するためには、センサデータを適切に分割する必要がある(ウィンドウポリシーと同様)

    1.分割
  • セグメントに基づく特徴抽出、分類、検証等
  • を行う.
  • の長さはコンテキストおよびサンプリングレートによって変化するが、主に1〜10秒
  • である.
  • 変換
  • モデリングには変換が必要です
  • Spectrograms:信号を周波数および時間関数として表す.スパン数拠点間の強度差を良く反映した.
  • 標準化&符号化、マルチチャネル、フーリエ変換等