データ科学の初認識pandas


インストール:
     pip install pandas

インポート:
    import pandas as pd
    from pandas import Series,DataFrame

#Series
データ型:Series,DataFrame
Series:numpyの1次元配列に似ています
初期化:
方法1:
    data = [1,2,3,4,5]    #     
    series_data = Series(data)  #       ,     0  

方式2:
    indexes = ['name','shuxue','yuwen','huaxue','yingyu']
    series_data =Series(['lizhen',1,2,3,4],index=indexes)  #         ,         ,               

方式3:
    data = {'huaxue': 3, 'name': 'lizhen', 'shuxue': 1, 'yingyu': 4, 'yuwen': 2}
    series_from_dict = Series(data)

索引の表示:series_data.index
インデックスに基づいて値を変更:series_data.'shuxue' = 3
すべてのデータを表示:series_data.values
データ名の設定:series_data.index.name = 'type'
インデックスに基づいてカラムの値を検索する:series_data['yuwen']
複数のインデックスの値を取得:series_data[['yingyu','yuwen']]
指定したフォーマット(dict,clipboard,csv,json,string,sql):
    series_from_dict.to_dict()
2つのSeriesを加算:
同じインデックスを持つと加算できます.インデックスが異なる場合、加算結果はNaNです.
値が整数の場合のみ意味があります
インデックスが存在するかどうかを判断します.
    index_name in series_data#はTrueまたはFalseを返します
#DataFrame類似表またはスプレッドシート
初期化時に等長リストまたはnumpy配列からなる辞書が入力され、インデックスが自動的に増加し、すべての列が整列します.
方法1:
   data = {'state': ['Ohio','Ohio','Ohio'],
    'year': [2000,2001,2002],
    'pop': [1.5,1.7,3.6]
    }
    frame = DataFrame(data)  #

方式2:
    data = {'state': ['Ohio','Ohio','Ohio'],
    'year': [2000,2001,2002],
    'pop': [1.5,1.7,3.6]
    }
    frame = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three'])  
    #      column     
    #        ,   NaN

方式3:
    data = {'Nevada': {2001:2.4,2002:2.9},
    'Ohio':{2000:1.5,2001s:1.7,2002:2.4},
    }
    frame = DataFrame(data)
    #  key   column name,   key    index name,   key    ,   column  NaN  

インデックスの名前を設定:frame.idnex.name = 'self_index_name'
列の名前を設定:frame.columns.name = 'self_columns_name'
すべての値を表示:frame.values
すべてのカラム名を表示:frame.columns
指定したカラムの値:frame[column_name]またはframeを表示します.column_name
前のN行の値を表示する:frame.head(n)
表示後N行値:frame.tail(n)
指定したインデックス行の値を表示します:frame.ix[[index_name1[,index_name2]]]
指定したカラムの値を変更:frame['column_name']='new_value'
注意:指定した値が単一の値の場合、すべてのローで自動的にブロードキャストされます.
複数の値を指定する場合は、frameの行の長さと等しくする必要があります.
指定した値はSeriesです.Seriesのインデックスはframeのインデックス名と同じでなければなりません.インデックス名が異なり、デフォルトではNaNが挿入されます.
不要な列の削除:del frame['column_name']
注意:インデックスの名前は変更できません