Tidy Data


💡 Tidy Data

  • Tidydataは一言で簡潔なデータです.
    データ分析を行うには、十分なデータが必要であり、これには多くの時間がかかります.
  • ▼Tidy Dataの条件


    「各変数列、各観測値が行をなすデータ」
  • 角変数は列です.
  • 角観測点は行である.
  • ユニットには値があります.
  • 各観測単位の形態構成表.

  • 📖 Pythonの例


    .melt()


    :wideデータをクリーンデータに変換する方法
    .melt()公式文書
    次のDataframeはwide dataです.オブザーバーの「プロジェクト名」がコラムにあるからだ.
    # Dataframe는 df라는 변수에 주어진 상태
    
    # tidy data로 변환하
    df_tidy = df.melt(id_vars='종목명', value_vars=['매출액', '자본총계', 'EPS(원)'])
    df_tidy = df_tidy.rename(columns = {'variable:'Feature'})    # column 이름 변경
    
    def toint(a):              # str인 value를 int 로 변환시켜주는 함수
    	a = int(a.replace(',',' ')
        return a
        
    df_tidy['vlaue'] = df_tidy['value'].apply(toint)     # value columns에 toint 함수 적용
    df_tidy
    

    .pivot_table()


    : .整列したデータを広いデータに変換する方法で,その概念は溶融体()とは逆である.