Datawhaleに従ってデータ分析を始める2
Datawhaleに従ってデータ分析を始める2
文書ディレクトリ Datawhaleに従ってデータ分析2 データ洗浄及び特徴処理 欠落値を表示 処理欠落値 データ洗浄及び特徴処理
基本操作を把握した上で,データ洗浄およびデータの特徴処理,データ再構成およびデータ可視化を行う必要がある.
欠落した値の表示
欠落した値の処理
dropna関数dropna関数:欠落値のある行fillna関数を除去する:欠落値を0に記入する
欠落した値を特定の値に直接変更します.
思考:空き値の場合、np.nanはNoneよりいいです.なぜなら、NoneはPythonが持参したもので、python objectのタイプです.したがって、Noneは計算に参加できません.objectタイプの演算はintタイプの演算よりずっと遅い.np.nanは浮動小数点タイプであり,計算に関与できる.しかし、計算結果は常にNaNです.
重複データの処理duplicatesメソッド
データの離散化処理(Ageを例に)
正規表現を使用して名前の情報を抽出
文書ディレクトリ
基本操作を把握した上で,データ洗浄およびデータの特徴処理,データ再構成およびデータ可視化を行う必要がある.
欠落した値の表示
#
df.isnull().any()
#
df.Age.isnull().sum()
欠落した値の処理
dropna関数dropna関数:欠落値のある行fillna関数を除去する:欠落値を0に記入する
df.dropna().head(10)
df.fillna(0).head(10)
欠落した値を特定の値に直接変更します.
df[df['Age']==None]=0
思考:空き値の場合、np.nanはNoneよりいいです.なぜなら、NoneはPythonが持参したもので、python objectのタイプです.したがって、Noneは計算に参加できません.objectタイプの演算はintタイプの演算よりずっと遅い.np.nanは浮動小数点タイプであり,計算に関与できる.しかし、計算結果は常にNaNです.
重複データの処理duplicatesメソッド
df.drop_duplicates().head(10)
データの離散化処理(Ageを例に)
df['Ageband'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])
df.head()
正規表現を使用して名前の情報を抽出
df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
df.head()