4種類の異常値を検出する一般的な技術の概要


要旨:異常値検出の一般的な4つの方法を紹介した.それぞれNumeric Outlier、Z-Score、DBSCAN、Isolation Forestである.
機械学習アルゴリズムを訓練したり、統計技術を適用したりする場合、エラー値や異常値は深刻な問題であり、通常、測定誤差や異常システム条件の結果をもたらすため、下位システムを記述する特徴を持たない.実際には,次の解析を行う前に異常値除去処理を行うことが望ましい.
場合によっては、異常値はシステム全体のローカル異常に関する情報を提供することができる.従って、異常値の検出は、このエンジニアリングではデータセットに関する追加情報を提供することができるため、価値のあるプロセスである.
現在、異常値を検出し、データセットから削除するかどうかを自主的に選択できる技術がたくさんあります.このブログでは,KNIME解析プラットフォームで最もよく用いられる4つの異常値検出技術を示す.
データセットと異常値検出の問題
本明細書で試験および比較に用いられる群外値検出技術のデータセットは、2007年から2012年までの米国内のフライトの情報、例えば出発時間、到着時間、離陸空港、目的地空港、放送時間、出発遅延、フライト遅延、フライト番号などを含む航空会社のデータセットに由来する.一部のカラムには例外値が含まれる場合があります.
元のデータセットから、2007年と2008年にシカゴのオヘール空港(ORD)を出発した1500便のサンプルをランダムに抽出した.
選択したクラスタ外値検出技術がどのように動作するかを示すために、空港の平均到着遅延の異常値を見つけることに専念し、これらの異常値は、所与の空港着陸のすべてのフライトで計算される.異常な平均到着遅延時間を示す空港を探しています.
四種類の異常値検出技術
数値異常値|Numeric Outlier
デジタル異常値法は一次元の特徴空間で最も簡単な非パラメータ異常値検出法であり,異常値はIQR(InterQuartile Range)によって計算される.
第1、第3、4分位数(Q 1、Q 3)を算出し、異常値は4分位数範囲外のデータ点x iである.
四分位数乗数k=1.5を用い,範囲制限は典型的な上下ヒゲの箱図である.この技術はKNIME Analytics Platformに内蔵されたワークフローにおけるNumeric Outliersノードを用いて実現される(図1参照).
Z-score
Z−scoreは1次元または低次元の特徴空間におけるパラメータ異常検出法である.この技術は,データがGauss分布であり,異常値が分布末尾のデータ点であるため,データの平均値から遠ざかると仮定する.距離の遠近は、数式を用いて計算された正規化データ点z iの設定閾値Zthrに依存する.
xiはデータポイントですμすべての点xiの平均値であり、δすべての点xiの標準偏差です.
その後、標準化処理を行った後、異常値も標準化処理を行い、その絶対値はZthrより大きい.
Zthr値は、一般に2.5、3.0、3.5に設定されます.この技術はKNIMEワークフローのラインフィルタノードを用いて実現される(図1参照).
DBSCAN
この技術はDBSCANクラスタリング法に基づいており,DBSCANは1次元または多次元の特徴空間における非パラメータであり,密度に基づくクラスタ外値検出法である.
DBSCANクラスタリング技術では、すべてのデータ点がコアポイント(Core Points)、境界ポイント(Border Points)、またはノイズポイント(Noise Points)として定義される.
  • コアポイントは、距離ℇ内で少なくとも最小の点数(minPTs)を含むデータポイントである.
  • 境界点はコア点の距離ℇ内近接点であるが、含まれる点数は最小含まれる点数(minPTs)より小さい.
  • 他のすべてのデータ点はノイズ点であり、異常値としても識別される.

  • したがって、異常検出は、所望の最小包含点数、距離ℇ、および選択された距離メトリック、例えばユークリッドまたはマンハッタン距離に依存する.この技術は、図1のKNIMEワークフローにおけるDBSCANノードを用いて実現される.
    孤立森林|Isolation Forest
    この方法は1次元または多次元の特徴空間における大きなデータセットの非パラメータ法であり,その中の1つの重要な概念は孤立数である.
    孤立数は、データポイントを孤立させるために必要な分割数です.この分割数は、次の手順で決定します.
  • ランダムに分離する点「a」を選択する.
  • は、最小値と最大値との間のランダムデータ点「b」を選択し、「a」とは異なる.
  • 「b」の値が「a」の値を下回ると、「b」の値は新しい下限となる.
  • 「b」の値が「a」の値より大きい場合、「b」の値は新しい上限となる.
  • は、上限と下限の間に「a」以外のデータ点が存在する限り、このプロセスを繰り返す.

  • 孤立非異常値に比べて、異常値を孤立させるためにより少ない分裂が必要であり、すなわち、異常値は非異常点に比べてより低い孤立数を有する.したがって、データ点の孤立数がしきい値を下回る場合、データ点は異常値として定義される.
    しきい値は、データ内の異常値の推定パーセントに基づいて定義され、これは異常値検出アルゴリズムの開始点である.孤立森林技術画像の解釈については,ここで詳細を見つけることができる.
    この技術はPython Scriptに数行のPythonコードを用いることで実現できる.
    from sklearn.ensemble import IsolationForest
    import pandas as pd
    
    clf = IsolationForest(max_samples=100, random_state=42)
    table = pd.concat([input_table['Mean(ArrDelay)']], axis=1)
    clf.fit(table)
    output_table = pd.DataFrame(clf.predict(table))```python
    

    Python ScriptノードはKNIME Python Integrationの一部であり、PythonコードをKNIMEワークフローに記述/インポートできます.
    KNIMEワークフローでの実装
    KNIME Analytics Platformはデータ科学用のオープンソースソフトウェアで、データの取り込みとデータの混合、データの可視化のすべてのデータ需要、機械学習アルゴリズムからデータ応用、レポートから導入などをカバーしています.プログラミングを可視化するためのグラフィックユーザインタフェースに基づいて、非常に直感的で使いやすく、学習時間を大幅に削減します.
    さらに、異なるデータフォーマット、データ型、データソース、データプラットフォーム、およびRおよびPythonなどの外部ツールに対してオープンに設計され、テキスト、画像、またはグラフィックなどの非構造化データを分析するための多くの拡張子も含まれる.
    KNIME Analytics Platformの計算ユニットは「ノード」という小さなカラーブロックです.パイプ内のノードを次々と組み立て、データ処理アプリケーションを実現します.パイプは「ワークフロー」とも呼ばれます.
    これらのすべての特性に鑑みて、本明細書では、上述した4つの異常値検出技術を実現するために、これを選択する.図1に異常値検出技術のワークフローを示す.ワークフロー:
  • 1.Read data metanodeのデータサンプルを読み込みます.
  • 2.データの前処理を行い、Preprocメタノード内の各空港の平均到着遅延を計算する.
  • 3.次の密度遅延というメタノードでは、データを標準化し、標準化平均到達遅延の密度を標準正規分布の密度と比較する.
  • 4.4つの選択された技術を使用して異常値を検出します.
  • 5.KNIMEとOpen Street Mapsの統合を使用して、米国地図の異常値空港をMapVizメタノードに表示します.

  • 検出された異常値
    図2〜図5において、異なる技術によって検出された異常値空港が見られる.を選択します.青い円は異常行動のない空港を表し、赤いブロックは異常行動のある空港を表す.平均到着遅延時間定義の大きさを記します.
    一部の空港は、スポッカン国際空港(GEG)、イリノイ大学ウィラード空港(CMI)、コロンビアメトロポリタン空港(CAE)の4つの技術で異常値として決定されてきた.スポッカン国際空港(GEG)は最大の異常値を有し,平均到達時間は非常に長い(180分).しかし、他のいくつかの空港は、ルイスアムストロングニューオーリンズ国際空港(MSY)のようないくつかの技術によってのみ識別することができ、孤立した森林とDBSCAN技術によってのみ発見される.
    この特定の問題に対して、Z−Score技術は、最小数の異常値のみを識別することができ、DBSCAN技術は、最大数の異常値空港を識別することができる.DBSCAN法(MinPts=3/ℇ=1.5,ユークリッド距離測定)と孤立森林技術(異常値の推定率10%)のみが早期到達方向に異常値を発見した.
    まとめ
    本論文では,2007年から2008年までのすべての米国空港の平均到着遅延の4つの異なる群外値検出技術を1次元空間で記述し,実施した.研究した4つの技術はそれぞれNumeric Outlier,Z‐Score,DBSCANおよびIsolation Forest法である.これらのいくつかは、1次元特性空間、いくつかは低次元空間、いくつかは高次元空間、いくつかの技術は、次元のガウス分布を標準化し、検査する必要がある.距離測定が必要なものもあれば、平均値と標準偏差を計算する必要があるものもあります.3つの空港があり、すべての異常値検出技術で異常値と識別できます.しかし、DBSCANや孤立森林のような一部の技術だけが、平均便が予定の到着時間より早く到着した空港に分布する左尾の異常値を識別することができる.従って、具体的な問題に応じて適切な検出技術を選択すべきである.
    リファレンス
  • Santoyo, Sergio. (2017, September 12). A Brief Overview of Outlier Detection Techniques;

  • 著者:【方向】
    原文を読む
    本文は雲栖コミュニティのオリジナル内容で、許可を得ずに転載してはならない.