Datawhaleに従ってデータ分析を始める2


Datawhaleに従ってデータ分析を始める2
文書ディレクトリ
  • Datawhaleに従ってデータ分析2
  • データ洗浄及び特徴処理
  • 欠落値を表示
  • 処理欠落値
  • データ洗浄及び特徴処理
    基本操作を把握した上で,データ洗浄およびデータの特徴処理,データ再構成およびデータ可視化を行う必要がある.
    欠落した値の表示
    #        
    df.isnull().any()
    #         
    df.Age.isnull().sum()
    

    欠落した値の処理
    dropna関数dropna関数:欠落値のある行fillna関数を除去する:欠落値を0に記入する
    df.dropna().head(10)
    df.fillna(0).head(10)
    

    欠落した値を特定の値に直接変更します.
    df[df['Age']==None]=0
    

    思考:空き値の場合、np.nanはNoneよりいいです.なぜなら、NoneはPythonが持参したもので、python objectのタイプです.したがって、Noneは計算に参加できません.objectタイプの演算はintタイプの演算よりずっと遅い.np.nanは浮動小数点タイプであり,計算に関与できる.しかし、計算結果は常にNaNです.
    重複データの処理duplicatesメソッド
    df.drop_duplicates().head(10)
    

    データの離散化処理(Ageを例に)
    df['Ageband'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])
    df.head()
    

    正規表現を使用して名前の情報を抽出
    df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)
    df.head()