データ分析プロセス、データのインポート


💡Data Analysis Process


データ分析は次の手順に従います.
実際、データエンジニアはデータ分析段階で80%以上の人が収集と加工(前処理)の過程で比重を占めている.つまり、これは非常に重要で必要なプロセスです.
全体の過程を頭に入れ、今後の学習でどのような過程が行われたかを確認する必要がある.

出典:朝食

データの読み込み


データセットに関する情報は、
  • Descriptionで確認します.
  • 行および列数
  • 列に見出し(「データ名」)があるかどうか
  • 接合測定値
  • あり
  • 元データ形態確認(予想される形態ではないかもしれない)
  • Pythonでのロード方法
    import pandas as pd
    
    # text, csv 파일을 불러오는 방법
    df = pandas.read_csv('파일명.csv')
    # excel 파일 불러오는 방법
    df = pandas.read_excel('파일명.xlsx')
    
    '''
    ✨기본적으로 csv파일은 comma로 데이터 값이 구분되기 때문에 구분자 설정이 필요없다.
    하지만 comma가 아닌 다른것으로 구분자가 설정되어 있는 경우 데이터를 그냥 불러오면 오류가 생긴다.
    이런 경우에는  sep='\t', sep='|' 와 같이 구분자롤 설정해야한다.
    df = pandas.read_csv('파일명.csv', sep='\t')
    '''
    
    '''
    ✨불러오고자 하는 파일의 encoding이 python encoding과 맞지 않아도 오류가 발생한다.
    이런 경우는 encoding='utf8' 혹은 encoding='cp949'를 설정해주면 된다.
    '''
    パンダ公式ファイル