pands DataFrame行列インデックスと値の取得方法
3459 ワード
pands DataFrameは二次元ですから、列索引もあれば、行索引もあります。
前のページでは、列の索引のみを紹介しています。
行の索引と列の索引を自分で指定する場合は、indexとcolumnパラメータが使用できます。
このデータは5つの駅の10日間の乗客データです。
生成したデータはテーブル形式で表示されます。
1.ある列を取得する:直接[key]
一つの総合栗:
ライダーシップからdfは最初の日に一番多くの交通量がある駅を探して、この駅に戻ってくる日の平均的な客流と、すべての駅に戻る日の平均的な客流を比較します。
前のページでは、列の索引のみを紹介しています。
import pandas as pd
df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]})
print df
# :
A B
0 0 3
1 1 4
2 2 5
行の索引は自動的に0,1,2を生成します。行の索引と列の索引を自分で指定する場合は、indexとcolumnパラメータが使用できます。
このデータは5つの駅の10日間の乗客データです。
ridership_df = pd.DataFrame(
data=[[ 0, 0, 2, 5, 0],
[1478, 3877, 3674, 2328, 2539],
[1613, 4088, 3991, 6461, 2691],
[1560, 3392, 3826, 4787, 2613],
[1608, 4802, 3932, 4477, 2705],
[1576, 3933, 3909, 4979, 2685],
[ 95, 229, 255, 496, 201],
[ 2, 0, 1, 27, 0],
[1438, 3785, 3589, 4174, 2215],
[1342, 4043, 4009, 4665, 3033]],
index=['05-01-11', '05-02-11', '05-03-11', '05-04-11', '05-05-11',
'05-06-11', '05-07-11', '05-08-11', '05-09-11', '05-10-11'],
columns=['R003', 'R004', 'R005', 'R006', 'R007']
)
dataパラメータはnumpy二次元配列であり、 indexパラメータは行インデックス、columnパラメータは列インデックスです。生成したデータはテーブル形式で表示されます。
R003 R004 R005 R006 R007
05-01-11 0 0 2 5 0
05-02-11 1478 3877 3674 2328 2539
05-03-11 1613 4088 3991 6461 2691
05-04-11 1560 3392 3826 4787 2613
05-05-11 1608 4802 3932 4477 2705
05-06-11 1576 3933 3909 4979 2685
05-07-11 95 229 255 496 201
05-08-11 2 0 1 27 0
05-09-11 1438 3785 3589 4174 2215
05-10-11 1342 4043 4009 4665 3033
DataFrameの値はどうやって取得しますか?1.ある列を取得する:直接[key]
print(ridership_df['R003'])
# :
05-01-11 0
05-02-11 1478
05-03-11 1613
05-04-11 1560
05-05-11 1608
05-06-11 1576
05-07-11 95
05-08-11 2
05-09-11 1438
05-10-11 1342
Name: R003, dtype: int64
2.ある行を取得する: .loc['key']
print(ridership_df.loc['05-01-11'])
#
print(ridership_df.iloc[0])
# :
R003 0
R004 0
R005 2
R006 5
R007 0
Name: 05-01-11, dtype: int64
3.ある行の列の値を取得します。
print(ridership_df.loc['05-05-11','R003'])
#
print(ridership_df.iloc[4,0])
# :
1608
4.元のnumpy二次元配列を取得する:
print(ridership_df.values)
# :
[[ 0 0 2 5 0]
[1478 3877 3674 2328 2539]
[1613 4088 3991 6461 2691]
[1560 3392 3826 4787 2613]
[1608 4802 3932 4477 2705]
[1576 3933 3909 4979 2685]
[ 95 229 255 496 201]
[ 2 0 1 27 0]
[1438 3785 3589 4174 2215]
[1342 4043 4009 4665 3033]]
*この過程で、データフォーマットが一致しないと、変換されます。一つの総合栗:
ライダーシップからdfは最初の日に一番多くの交通量がある駅を探して、この駅に戻ってくる日の平均的な客流と、すべての駅に戻る日の平均的な客流を比較します。
def mean_riders_for_max_station(ridership):
max_index = ridership.iloc[0].argmax()
mean_for_max = ridership[max_index].mean()
overall_mean = ridership.values.mean()
return (overall_mean, mean_for_max)
print mean_riders_for_max_station(ridership_df)
# :
(2342.6, 3239.9)
以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。