Datawhaleに従ってデータ分析を始める2

5042 ワード

Datawhaleに従ってデータ分析を始める2
文書ディレクトリ

Datawhaleに従ってデータ分析2

データ洗浄及び特徴処理

欠落値を表示

処理欠落値

データ洗浄及び特徴処理
基本操作を把握した上で,データ洗浄およびデータの特徴処理,データ再構成およびデータ可視化を行う必要がある.
欠落した値の表示

#        
df.isnull().any()
#         
df.Age.isnull().sum()

欠落した値の処理
dropna関数dropna関数:欠落値のある行fillna関数を除去する:欠落値を0に記入する

df.dropna().head(10)
df.fillna(0).head(10)

欠落した値を特定の値に直接変更します.

df[df['Age']==None]=0

思考:空き値の場合、np.nanはNoneよりいいです.なぜなら、NoneはPythonが持参したもので、python objectのタイプです.したがって、Noneは計算に参加できません.objectタイプの演算はintタイプの演算よりずっと遅い.np.nanは浮動小数点タイプであり,計算に関与できる.しかし、計算結果は常にNaNです.
重複データの処理duplicatesメソッド

df.drop_duplicates().head(10)

データの離散化処理(Ageを例に)

df['Ageband'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])
df.head()

正規表現を使用して名前の情報を抽出

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
df.head()

面接問題-まとめ

UVa 10596-Morning Walk向図のオーラ戻り路があります