pandaライブラリの利用


📎 pandas-docs
📎 10 minutes to pandas
📎 top 25 pands tricksコード
pandasライブラリはPythonプログラミング言語に基づいて構築された高速で使いやすいソフトウェアライブラリであり、データ分析に関連する様々な機能を提供しています.
1.データセットの読み込みと検証
import pandas as pd
import numpy as ns

df = pd.read_csv('서울시 코로나19 확진자 현황.csv', encoding='utf-8') #read_csv: txt,csv 파일 읽기
df.head() #상위 n개의 항목을 출력

df = ns.transpose(df) #행과 열 위치 바꾸기

df.columns = df.iloc[0] #첫번째 row를 column name으로 설정
df = df[1:]

df.isnull() #결측치 확인(유사한 코드: isna, notna, notnull)
df.isnull().sum() #결측치 수 확인
df = df.fillna(0) #결측치 0으로 대체
df = df.dropna() #결측치 행 삭제

x.loc[:,'열 배열'] #2차원 배열 DataFrame 열조회

df.to_csv('df.csv', mode='w') #csv 파일로 내보내기
df_csv = pd.read_csv('df.csv')
🔎 자세히보기
[loc vs iloc]
loc : Access a group of rows and columns by label(s) or a boolean array(묵시적 인덱스)
ex) x.loc['b':'d']
iloc : Purely integer-location based indexing for selection by position(명시적 인덱스)
ex) x.iloc[1:4]
2. EDA
import seaborn as sns

df = sns.load_dataset('penguins')
df = df[['species','sex']] #column 중 species, sex 변수로만 데이터셋 구성
pd.crosstab(df['species'], df['sex']) #Cross-tabulation
df.dtypes #데이터 프레임의 데이터 타입 확인
df.shape #데이터 프레임의 dimension 확인
3. Feature Engineering
#string to int
def toInt(String):
  return int(string.replace('-', ''))
df['확진일'] = df['확진일'].apply(toInt) #함수호출
4. Data Manipulation
#df1과 df2 합치기
df = pd.concat([df1, df2], axis = 1) # axis = 0: 위아래로 합치기, 1: 좌우로 합치기
df = df1.merge(df2, how = 'left')
5.可視化ライブラリ
import matplotlib.pyplot as plt

df.plot.bar(); #마지막에 ';'를 붙이면, <matplotlib.axes.~~ 내용 제거
plt.show()

#한글깨짐현상 해결방법
!sudo apt-get install -y fonts-nanum #나눔폰트 설치
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf


import matplotlib.pyplot as plt 
plt.rc('font', family='NanumBarunGothic') #matplotlib의 폰트를 Nanum 폰트로 지정
plt.rc('axes', unicode_minus=False)

%config InlineBackend.figure_format='retina' #matplotlib 화질 설정