DAY 32

6312 ワード

Warm-up



データ統計


モデルを解析または作成する前に、データを変換またはマッピングして使いやすくします.
  • データの前処理、洗浄および混用は、EDA(コンテキスト依存)
  • を含む.

    Preview

    from IPython.display import display
    import pandas as pd
    
    def preview():
        for filename in glob('*.csv'):
            df = pd.read_csv(filename)
            print(filename, df.shape)
            display(df.head())
            print('\n')

    isdisjoint()


    :同じ値がない場合はTrue、値がある場合はFalseを返します.
    >>>mySet = set("ever")
    >>>mySet2 = set("tomo")
     
    >>>print(mySet.isdisjoint(mySet2))
    --------------------------------------
    True

    set()

  • setは数学の中の集合
  • である.
    順序
  • はなく、セットに一意の値があります.
  • 可変オブジェクト
    set詳細表示
  • ソース

    重複する例があるかどうかを確認

    len(df.feature1.unique()) == len(df)

    最も頻繁な値(最も頻繁に発生するデータ)

    df['feature 이름'].mode()

    N232


    value counts()データフレームに出力

     df['Item ID'].value_counts().rename_axis('unique_values').reset_index(name='counts')
    リファレンス

    もっと知りたい


    Leature Noteで
    最後の3)バナナの購入回数と4)最近何日前にバナナを購入しましたか?理解するコード