pandas 統計量


import pandas as pd
import numpy as np
df = pd.DataFrame({
    "category1" : ["A","A","A","B","B","B"],
    "column1" : np.array([5,4,6,9,11,13])
})

統計量

df.describe()

column1はcategoryでAとBに別れているが区別なく統計量が出るのは不便。

groupby関数

category A,B で区別して統計量を得る。

# category1でgroupを作る
group = df.groupby("category1")
# groupごとに関数処理する
print(group.mean()) # 平均

print(group.std(ddof = 1)) # 標準偏差

group.describe() # groupごとに統計量の一括表示

地道に取り出す

# Aを取り出す
df_A = df[df["category1"] == "A"]
# mean関数に通す
df_A["column1"].mean()

groupby便利。