Tensorflow Data Validationの概要

3024 ワード

この文章は私が過去に書いたブログから持ってきたものです.

TFDV Overview


TFDVはTFXのデータ検証ツールです.
今使っているのですが、AzureのMLStudioのDesignerがデータを分析したようです?いいえ、実はそれより簡単だと思います.
これに関連する解決策は非常に多く,従ってTFXと組み合わせて使用効率が高い.
特にTFDVは、TFXでApache Beamとして作成されてパイプラインを構築するので、容易にマージできます.
これらの機能について簡単に説明します.
  • データの統計を作成する
  • シナリオ
  • の作成
  • モード手動調整
  • アーキテクチャと既存データの比較
  • では、これらの機能はどのようにTFXと結合されているのでしょうか.
    前の記事で述べたように,TFXの配管配置は以下のようになっている.

    したがって、TFDVは、schemaGen、StatisticsGen、ExampleValidatorなどの機能をパイプ内で効率的に実行することができる.
    したがって、トレーニングとサービスを別々に考えると、トレーニングのデータは私たちがもともと持っていたもので、サービスのデータは新しいものだと仮定することができます.
    これは実際の状況とあまり変わらず、信頼性のある状況であるはずです.TFDVの書き込み順序は次のとおりです.

    For Training

  • データの統計を作成する
  • 統計データを用いて特徴スキーム
  • を生成する.
  • 可視化後手動調整
  • For Serving

  • の新しいデータの統計とシナリオ
  • の作成
  • トレーニングプログラムと可視化後の
  • の比較
  • 既存データの異常を検証
  • TFDVインストール


    実験室でTFDVを実行する前に、pipをアップグレードする必要があります.そのため、次のコマンドを使用してアップグレードします.
    !pip install pip-upgrade
    そしてここはちょっと重要なので運行時間を再開しなければなりませんpip...を適用する必要があるため、次のコマンドでテンソルストリームデータ検証をインストールし、インポートしてバージョンを検証します.
    !pip install -q tensorflow-data-validation
    
    import tensorflow_data_validation as tfdv
    tfdv.version.__version__

    統計の確認


    インストールが完了すると、さまざまな統計データを表示し、次のコードで統計データを作成して表示できます.
    # 통계량 생성
    train_stats = tfdv.generate_statistics_from_csv(data_location = {INPUT_DIR})
    # 시각화
    tfdv.visualize_statictics(train_stats)
    これにより、次の画像のように統計データを効率的に表示できます.これは、1つの画面で2つのデータを同時に表示できる良いヒントです.

    シナリオの確認


    統計データを確認した後、次のコードでアーキテクチャを確認します.
    # 스키마 생성
    schema = tfdv.infer_schema(statistics = train_stats)
    # 스키마 시각화
    tfdv.display_schema(schema = schema)
    そしてモードをカスタマイズしてget featureメソッドを使いましょう!

    新しいデータの検証


    次のコードは、既存のモードと新しい統計データの間で検証できます.異常を見出す特徴がある
    anomalies = tfdv.validate_statistics(statistics = eval_stats, schema = schema)
    tfdv.display_anomalies(anomalies)
    そしてその後、他の人は既存の方法論の拡張にすぎないので、核心的な内容だけを議論しました...
    よく使うようになってからも積極的にTFXを勉強します

    Reference

  • https://zzsza.github.io/mlops/2019/05/12/tensorflow-data-validation-basic/
  • https://towardsdatascience.com/hands-on-tensorflow-data-validation-61e552f123d7
  • https://www.tensorflow.org/tfx/guide/understanding_tfx_pipelines?hl=ko
  • "Building Machine Learning Pipelines", Hannes Hapke