データ科学の初認識pandas
インストール:
インポート:
#Series
データ型:Series,DataFrame
Series:numpyの1次元配列に似ています
初期化:
方法1:
方式2:
方式3:
索引の表示:series_data.index
インデックスに基づいて値を変更:series_data.'shuxue' = 3
すべてのデータを表示:series_data.values
データ名の設定:series_data.index.name = 'type'
インデックスに基づいてカラムの値を検索する:series_data['yuwen']
複数のインデックスの値を取得:series_data[['yingyu','yuwen']]
指定したフォーマット(dict,clipboard,csv,json,string,sql):
series_from_dict.to_dict()
2つのSeriesを加算:
同じインデックスを持つと加算できます.インデックスが異なる場合、加算結果はNaNです.
値が整数の場合のみ意味があります
インデックスが存在するかどうかを判断します.
index_name in series_data#はTrueまたはFalseを返します
#DataFrame類似表またはスプレッドシート
初期化時に等長リストまたはnumpy配列からなる辞書が入力され、インデックスが自動的に増加し、すべての列が整列します.
方法1:
方式2:
方式3:
インデックスの名前を設定:frame.idnex.name = 'self_index_name'
列の名前を設定:frame.columns.name = 'self_columns_name'
すべての値を表示:frame.values
すべてのカラム名を表示:frame.columns
指定したカラムの値:frame[column_name]またはframeを表示します.column_name
前のN行の値を表示する:frame.head(n)
表示後N行値:frame.tail(n)
指定したインデックス行の値を表示します:frame.ix[[index_name1[,index_name2]]]
指定したカラムの値を変更:frame['column_name']='new_value'
注意:指定した値が単一の値の場合、すべてのローで自動的にブロードキャストされます.
複数の値を指定する場合は、frameの行の長さと等しくする必要があります.
指定した値はSeriesです.Seriesのインデックスはframeのインデックス名と同じでなければなりません.インデックス名が異なり、デフォルトではNaNが挿入されます.
不要な列の削除:del frame['column_name']
注意:インデックスの名前は変更できません
pip install pandas
インポート:
import pandas as pd
from pandas import Series,DataFrame
#Series
データ型:Series,DataFrame
Series:numpyの1次元配列に似ています
初期化:
方法1:
data = [1,2,3,4,5] #
series_data = Series(data) # , 0
方式2:
indexes = ['name','shuxue','yuwen','huaxue','yingyu']
series_data =Series(['lizhen',1,2,3,4],index=indexes) # , ,
方式3:
data = {'huaxue': 3, 'name': 'lizhen', 'shuxue': 1, 'yingyu': 4, 'yuwen': 2}
series_from_dict = Series(data)
索引の表示:series_data.index
インデックスに基づいて値を変更:series_data.'shuxue' = 3
すべてのデータを表示:series_data.values
データ名の設定:series_data.index.name = 'type'
インデックスに基づいてカラムの値を検索する:series_data['yuwen']
複数のインデックスの値を取得:series_data[['yingyu','yuwen']]
指定したフォーマット(dict,clipboard,csv,json,string,sql):
series_from_dict.to_dict()
2つのSeriesを加算:
同じインデックスを持つと加算できます.インデックスが異なる場合、加算結果はNaNです.
値が整数の場合のみ意味があります
インデックスが存在するかどうかを判断します.
index_name in series_data#はTrueまたはFalseを返します
#DataFrame類似表またはスプレッドシート
初期化時に等長リストまたはnumpy配列からなる辞書が入力され、インデックスが自動的に増加し、すべての列が整列します.
方法1:
data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data) #
方式2:
data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three'])
# column
# , NaN
方式3:
data = {'Nevada': {2001:2.4,2002:2.9},
'Ohio':{2000:1.5,2001s:1.7,2002:2.4},
}
frame = DataFrame(data)
# key column name, key index name, key , column NaN
インデックスの名前を設定:frame.idnex.name = 'self_index_name'
列の名前を設定:frame.columns.name = 'self_columns_name'
すべての値を表示:frame.values
すべてのカラム名を表示:frame.columns
指定したカラムの値:frame[column_name]またはframeを表示します.column_name
前のN行の値を表示する:frame.head(n)
表示後N行値:frame.tail(n)
指定したインデックス行の値を表示します:frame.ix[[index_name1[,index_name2]]]
指定したカラムの値を変更:frame['column_name']='new_value'
注意:指定した値が単一の値の場合、すべてのローで自動的にブロードキャストされます.
複数の値を指定する場合は、frameの行の長さと等しくする必要があります.
指定した値はSeriesです.Seriesのインデックスはframeのインデックス名と同じでなければなりません.インデックス名が異なり、デフォルトではNaNが挿入されます.
不要な列の削除:del frame['column_name']
注意:インデックスの名前は変更できません