Tensorflow Data Validationの概要
3024 ワード
この文章は私が過去に書いたブログから持ってきたものです.
TFDVはTFXのデータ検証ツールです.
今使っているのですが、AzureのMLStudioのDesignerがデータを分析したようです?いいえ、実はそれより簡単だと思います.
これに関連する解決策は非常に多く,従ってTFXと組み合わせて使用効率が高い.
特にTFDVは、TFXでApache Beamとして作成されてパイプラインを構築するので、容易にマージできます.
これらの機能について簡単に説明します.データの統計を作成する シナリオ の作成モード手動調整 アーキテクチャと既存データの比較 では、これらの機能はどのようにTFXと結合されているのでしょうか.
前の記事で述べたように,TFXの配管配置は以下のようになっている.
したがって、TFDVは、schemaGen、StatisticsGen、ExampleValidatorなどの機能をパイプ内で効率的に実行することができる.
したがって、トレーニングとサービスを別々に考えると、トレーニングのデータは私たちがもともと持っていたもので、サービスのデータは新しいものだと仮定することができます.
これは実際の状況とあまり変わらず、信頼性のある状況であるはずです.TFDVの書き込み順序は次のとおりです.
データの統計を作成する 統計データを用いて特徴スキーム を生成する.可視化後手動調整 の新しいデータの統計とシナリオ の作成トレーニングプログラムと可視化後の の比較既存データの異常を検証
実験室でTFDVを実行する前に、pipをアップグレードする必要があります.そのため、次のコマンドを使用してアップグレードします.
インストールが完了すると、さまざまな統計データを表示し、次のコードで統計データを作成して表示できます.
統計データを確認した後、次のコードでアーキテクチャを確認します.
次のコードは、既存のモードと新しい統計データの間で検証できます.異常を見出す特徴がある
よく使うようになってからも積極的にTFXを勉強します
https://zzsza.github.io/mlops/2019/05/12/tensorflow-data-validation-basic/ https://towardsdatascience.com/hands-on-tensorflow-data-validation-61e552f123d7 https://www.tensorflow.org/tfx/guide/understanding_tfx_pipelines?hl=ko "Building Machine Learning Pipelines", Hannes Hapke
TFDV Overview
TFDVはTFXのデータ検証ツールです.
今使っているのですが、AzureのMLStudioのDesignerがデータを分析したようです?いいえ、実はそれより簡単だと思います.
これに関連する解決策は非常に多く,従ってTFXと組み合わせて使用効率が高い.
特にTFDVは、TFXでApache Beamとして作成されてパイプラインを構築するので、容易にマージできます.
これらの機能について簡単に説明します.
前の記事で述べたように,TFXの配管配置は以下のようになっている.
したがって、TFDVは、schemaGen、StatisticsGen、ExampleValidatorなどの機能をパイプ内で効率的に実行することができる.
したがって、トレーニングとサービスを別々に考えると、トレーニングのデータは私たちがもともと持っていたもので、サービスのデータは新しいものだと仮定することができます.
これは実際の状況とあまり変わらず、信頼性のある状況であるはずです.TFDVの書き込み順序は次のとおりです.
For Training
For Serving
TFDVインストール
実験室でTFDVを実行する前に、pipをアップグレードする必要があります.そのため、次のコマンドを使用してアップグレードします.
!pip install pip-upgrade
そしてここはちょっと重要なので運行時間を再開しなければなりませんpip...を適用する必要があるため、次のコマンドでテンソルストリームデータ検証をインストールし、インポートしてバージョンを検証します.!pip install -q tensorflow-data-validation
import tensorflow_data_validation as tfdv
tfdv.version.__version__
統計の確認
インストールが完了すると、さまざまな統計データを表示し、次のコードで統計データを作成して表示できます.
# 통계량 생성
train_stats = tfdv.generate_statistics_from_csv(data_location = {INPUT_DIR})
# 시각화
tfdv.visualize_statictics(train_stats)
これにより、次の画像のように統計データを効率的に表示できます.これは、1つの画面で2つのデータを同時に表示できる良いヒントです.シナリオの確認
統計データを確認した後、次のコードでアーキテクチャを確認します.
# 스키마 생성
schema = tfdv.infer_schema(statistics = train_stats)
# 스키마 시각화
tfdv.display_schema(schema = schema)
そしてモードをカスタマイズしてget featureメソッドを使いましょう!新しいデータの検証
次のコードは、既存のモードと新しい統計データの間で検証できます.異常を見出す特徴がある
anomalies = tfdv.validate_statistics(statistics = eval_stats, schema = schema)
tfdv.display_anomalies(anomalies)
そしてその後、他の人は既存の方法論の拡張にすぎないので、核心的な内容だけを議論しました...よく使うようになってからも積極的にTFXを勉強します
Reference
Reference
この問題について(Tensorflow Data Validationの概要), 我々は、より多くの情報をここで見つけました https://velog.io/@djm0727/Tensorflow-Data-Validation-간단-설명テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol