[機械学習講座]4データ解析用Python(5)

8405 ワード


データFrame Booleanとしてデータを選択

import pandas as pd
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('../train.csv')
train_data.head()

boolean selectionでrowを選択
  • numpyと同様に条件を満たす行
  • のみを選択する.
    30代でファーストクラスに乗る人を選びます
    class_ = train_data['Pclass'] == 1
    age_ = (train_data['Age'] >= 30) & (train_data['Age'] < 40)
    
    train_data[class_ & age_]

    列の追加または削除


    新しい列の追加
  • []を使用して
  • を追加
  • insert関数を使用して、必要な場所
  • に追加します.
    train_data['Age_double'] = train_data['Age'] * 2
    train_data.head()
    train_data['Age_tripple'] = train_data['Age_double'] + train_data['Age']
    train_data.head()
    train_data.insert(3, 'Fare10', train_data['Fare'] / 10)
    train_data.head()

    列の削除
  • drop関数を使用して削除
  • リストを使用して、複数のコピー
  • を削除します.
    train_data.drop('Age_tripple', axis=1)
    train_data.head()
    train_data.drop('Age_double', axis=1)
    train_data.head()
    train_data.drop(['Age_double', 'Age_tripple'], axis=1, inplace=True)

    DataFrame列間の相関の計算

    import pandas as pd
    import matplotlib.pyplot as plt
    %matplotlib inline 
    # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
    train_data = pd.read_csv('./train.csv')
    train_data.head()

    変数(列)間の相関
    相関係数(−1と1の間の結果)を
  • corr関数で計算した.
  • 連続(デジタル)データのみを演算する
  • は因果関係
  • を意味するものではない.
    train_data.corr()
    plt.matshow(train_data.corr())

    機械学習とデータ分析A-Z多機能一体機オンラインパッケージ.👉 https://bit.ly/3cB3C8y