データクリーンアップで欠落した値を処理する方法は?

1343 ワード

感想
最近机械の学习のテーマをする时、たまに1つのデータの発掘のテーマを飞び出して、私に手が回らないで、见たところ私の今の学芸は精巧ではありませんて、努力しなければなりません.
problem
データクリーンアップで欠落した値を処理する方法は?
A   
B     
C     
D     

A B C D
analysisは,調査,符号化,入力誤差のため,データに無効値や欠落値が存在する可能性があり,適切な処理が必要である.一般的な処理方法は、推定、全例削除、変数削除、ペア削除です.
見積り(estimation).最も簡単な方法は、無効な値と欠落した値の代わりに、ある変数のサンプル平均値、中位数または衆数を使用することです.この方法は簡単であるが,データに既存の情報を十分に考慮していないため,誤差が大きい可能性がある.もう1つの方法は,調査対象の他の問題に対する答えに基づいて,変数間の相関解析や論理推論により推定することである.例えば、ある製品の所有状況が家庭の収入と関係がある可能性があり、調査対象の家庭の収入からこの製品を所有する可能性を推定することができる.
全例削除(casewise deletion)は、欠落した値を含むサンプルを除去するものです.多くのアンケートに欠落値が存在する可能性があるため,この手法の結果,有効サンプル量が大幅に減少し,収集したデータを十分に利用できない可能性がある.したがって、キー変数が欠落している場合や、無効な値や欠落した値を含むサンプルの比重が小さい場合にのみ適しています.
変数削除(variable deletion).ある変数の無効な値と欠落した値が多く、その変数が研究された問題にとって特に重要ではない場合は、その変数を削除することを考慮することができます.この方法は解析用の変数数を減少させたが,サンプル量は変化しなかった.
ペア削除(pairwise deletion)は、無効な値と欠落した値を特殊なコード(通常は9、99、999など)で表し、データセットのすべての変数とサンプルを保持します.しかし、具体的な計算では完全な答えのあるサンプルしか採用されていないため、異なる分析は関連する変数によって有効なサンプル量が異なる.これは、データセットの利用可能な情報を最大限に保持する保守的な処理方法です.
異なる処理方法を用いると、特に欠落値の出現がランダムでなく、変数間が明らかに相関している場合、分析結果に影響を及ぼす可能性がある.したがって,調査では無効値と欠落値をできるだけ避け,データの完全性を保証しなければならない.
参考文献
[1].牛客网https://www.nowcoder.com/test/question/done?tid=13551897&qid=14291#summary