Day1_EDA,Pre-processing


EDA(Exploratory Data Analysis)

  • データ分析方法の1つで、可視化、統計数字確認などの方法でデータを把握する.
  • メソッド別に分類

  • グラフィックス:グラフまたは画像を使用してデータを表示する方法.
  • 非グラフィックス:グラフィックス要素は使用されず、主にSummary Statisticsでデータを表示します.
  • ターゲットデータによる分類

  • Uni-variate
  • 多変数:変数間の関係に注目

    カテゴリ別の組合せ


  • Uni-Graphic
    HistogramまたはPie chart、Stem-leaf plot、Boxplot、QQ plotなどを使用します.
    価格が多すぎる場合は、Binning、Tabulationなどをご利用いただけます

  • Uni-Nongraphic
    Sample Dataの配布に注目
    デジタルデータで最もよく使われるのはsummary statisticsです
    検査センタ(Mean、Median、Mod)、Spread(Variance、SD、IQR、Range)、Modality(Peak)、Shape(Tail、Skewness、Kartosis)、Outliers等
    カテゴリデータの出現、頻度、テーブルの決定

  • Multi-Graphic
    Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap
    Numeric & Numeric : Scatter Plot

  • Multi-Nongraphic
    主な目標は関係の表示です.
    Cross-Tabulation
    Cross-Statistics (Correlation, Covariance)
    などなど.
  • PandasベースEDA


    Missing Data(検出データ)

  • isna
  • isnull
  • notna
  • notnull
  • dropna
  • fillna
  • DataFrame(データ構造検査)

  • index
  • columns
  • dtypes
  • info
  • select_dtypes
  • loc
  • iloc
  • insert
  • head
  • tail
  • apply
  • aggregate
  • drop
  • rename
  • replace
  • nsmallest
  • nlargest
  • sort_values
  • sort_index
  • value_counts
  • describe
  • shape
  • Vis(可視化時)

  • plot
  • plot.bar
  • plot.barh
  • plot.box
  • plot.hist
  • 視覚化時のハングルクラック現象の解決方法

    !sudo apt-get install -y fonts-nanum
    !sudo fc-cache -fv
    !rm ~/.cache/matplotlib -rf
    差出人を受け取る.
    import matplotlib.pyplot as plt
    plt.rc('font', family='NanumBarunGothic')
    フォントを

    データプリプロセッシング



    Cleaning


    ノイズの除去または不一致の修復プロセス
    欠落した値、入力エラー、または一致しないデータの削除/訂正

    データがありません

  • Ignore tuple(測定値付きデータ削除)
  • 手動ファイル(手動入力)
  • Global Constant ("Unknown")
  • 推定
  • +ブログを書くのは初めてなので難しい…時間も長いです.次からはコアだけ書く方向に行くようです.