[TIL] EDA


💗きょう習ったこと


Excelファイルテーブルで読み込む

  • Excelファイル読み込みxls = pd.ExcelFile('file_name_or_fath')
  • チェック
  • sheetname
    ❗の名前で呼ぶ必要がありますが、書き置きは可能ですxls.sheet_names
  • と確認する.
  • ページでデータフレームに格納
  • .
    df1 = pd.read_excel(xls, 'sheet_name1') 
    df2 = pd.read_excel(xls, 'sheet_name2')

    韓国語フォント破裂現象

  • 分体ゴシック式取付
  • !sudo apt-get install -y fonts-nanum
    !sudo fc-cache -fv
    !rm ~/.cache/matplotlib -rf
  • 運転時に
  • を再起動する.
  • matplotlibのフォントNanumは
  • に指定されています.
    import matplotlib.pyplot as plt
    
    plt.rc('font', family='NanumBarunGothic') 
    
    

    警告メッセージの削除

    import warnings warnings.filterwarnings("ignore")

    ビジュアル化


    Q-Q plotの作成


    import statsmodels.api as sm例えばSeriesなら?アレイへの変換が重要data= np.array(df['column'])こうしてArrayに変えて
    fig = sm.qqplot(data)
    plt.show()
    📎 How to interpret a QQ plot

    cross-tabulation


    クロス集計表の作成
    import seaborn as sns table = pd.crosstab(df['column1'], df['column2'])

    カテゴリボックスの印刷


    import seaborn as sns sns.catplot(data=df, x='종류', y='표시할려는 값', kind = 'box')ここの種類はユニーク()