ML Data Lifecycle in Production - week4

4874 ワード

mlops Robert Crowe Coursera テキストリンク

Advanced Labeling

Semi-supervised Learning

Feature spaceでクラスタ化または構造化することで、タグ付けされたデータのラベルクラスをタグ付けされていないデータに関連付ける

Label Propagation-グラフィックベース

データ・サブセットにラベルが付いています

タグを有するデータとタグを持たないデータとの類似性又はコミュニティ構造に基づくタグ割り当て

による.

のほかにも、

という多くの技術があります.

Active Learning

データのバランスがとれていない場合は、学習グループで「希少」クラス(最も役立つラベル)を選択すると便利です.標準的なサンプリング方法が精度の向上に役立たない場合は、使用できます.semi-はアクティブ学習にも含まれていると考えられる
モデルの学習に最も役立つラベル化の例を選択

Margin Sampling:境界に最も近い、最も不確定な点を選択→新しい境界を描画→次に最も不確定な点を選択→...

クラスタサンプリング:フィーチャー空間で複数のクラスタメソッドを使用して異なるポイントセット

を選択します.

Query by Committee:複数のモデルを訓練し、一致しないキーが最も高いデータポイント

を選択

Region-based sampling : (new!) high levelではinputspaceをいくつかの領域に分割し、これらの領域でactive learning

を実行する

Weak Supervision

1つ以上のsource情報を使用してラベルを作成します.

subject matter experts

はこのような経験的方法論を構成する

に最もよく用いられる.

カバーセット&カバーセットの真ラベル確率期待値(ノイズあり?=正しい確率あり)

ラベルリングのヒントリスト(?)を自動化できます.

結果labelは我々が知っている決定的なlabelよりも

ノイズを有する.

とマークされていないデータに対して1つ以上の帯域ノイズ分布を構成する
各ノイズ源間の関係を決定するために,各モニタリング源の信頼性モデルの生成を学習することによって学習した.

に道を教える
1)true labelを知らない未タグデータで始まる
2)弱い監督源をいくつか混入
*経験豊富な方法(?)

Snorkel

タグ付けされていないデータ+タグ関数=高ノイズタグ

を生成する.

モデルを生成し、de-noise&重要度を重みとして他のタグ機能

を付与する.

de-トレーニングノイズラベル付き判別モデル

Data Augmentation

既存のデータを概略的にフラグメント変換することによって、大量のデータを生成し、モデルのパフォーマンスを改善し、新しい有効な例を作成し、特徴空間のオーバーライド率を改善します.

しかし、誤った答えや望ましくないノイズが発生する可能性がある

と適合度を下げ、モデルの汎用性を向上!

# ex
def augment(x, height, width, num_channels):
   x = tf.image.resize_with_crop_or_pad(x, height + 8, width + 8)
   x = tf.image.random_crop(x, [height, width, num_channels])
   x = tf.image.random_flip_left_right(x)
   return x

その他の高度なテクノロジー

非地図データ強化ex.UDA、GAN半監督学習

ポリシーに基づくデータ強化ex.AutoAugment

Preprocessing Different Data Types

Time series data

イベント発生時刻を記録するデータポイントのリスト

過去のデータを利用して未来

を正確に予測する.

データを印刷する周期性と季節性

ウィンドウポリシー

ex.6時間過去データを用いて1時間予測したモデルのウィンドウ

Sampling

1時間で6回記録しましたが、あまり差はありませんでしたか?1時間に1人の代表だけを選んで

を行います.

Sensors & Signals

信号:センサーが収集したリアルタイムデータ(タイムスタンプ)「クロック列データ」
ex.加速度計データ-スマートフォン(センサー)から収集した移動者信号

Human Activity Recognition (HAR)

人間の活動をよりよく識別するためには、センサデータを適切に分割する必要がある(ウィンドウポリシーと同様)

1.分割

セグメントに基づく特徴抽出、分類、検証等

を行う.

の長さはコンテキストおよびサンプリングレートによって変化するが、主に1〜10秒

である.

変換

モデリングには変換が必要です

Spectrograms:信号を周波数および時間関数として表す.スパン数拠点間の強度差を良く反映した.

標準化&符号化、マルチチャネル、フーリエ変換等

Reference

この問題について(ML Data Lifecycle in Production - week4), 我々は、より多くの情報をここで見つけました https://velog.io/@jayleenym/ML-Data-Lifecycle-in-Production-week4

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

22031 React State管理

プログラミング経験0から始め１年かけてウェブサイトを作ってみた話