Day1_EDA,Pre-processing
EDA(Exploratory Data Analysis)
メソッド別に分類
ターゲットデータによる分類
カテゴリ別の組合せ
Uni-Graphic
HistogramまたはPie chart、Stem-leaf plot、Boxplot、QQ plotなどを使用します.
価格が多すぎる場合は、Binning、Tabulationなどをご利用いただけます
Uni-Nongraphic
Sample Dataの配布に注目
デジタルデータで最もよく使われるのはsummary statisticsです
検査センタ(Mean、Median、Mod)、Spread(Variance、SD、IQR、Range)、Modality(Peak)、Shape(Tail、Skewness、Kartosis)、Outliers等
カテゴリデータの出現、頻度、テーブルの決定
Multi-Graphic
Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap
Numeric & Numeric : Scatter Plot
Multi-Nongraphic
主な目標は関係の表示です.
Cross-Tabulation
Cross-Statistics (Correlation, Covariance)
などなど.
PandasベースEDA
Missing Data(検出データ)
DataFrame(データ構造検査)
Vis(可視化時)
視覚化時のハングルクラック現象の解決方法
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
差出人を受け取る.import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
フォントをデータプリプロセッシング
Cleaning
ノイズの除去または不一致の修復プロセス
欠落した値、入力エラー、または一致しないデータの削除/訂正
データがありません
Reference
この問題について(Day1_EDA,Pre-processing), 我々は、より多くの情報をここで見つけました https://velog.io/@v55ads/Day1EDAPre-processingテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol