pandasのデータ集計メモ

4427 ワード

DataScience pandas Python3 pandas テキストリンク

はじめに

最近Kaggleを始めたのですが,pandasで出来ることの便利さと多さ,それに付随してたまにメソッドを忘れてしまう問題が発生したのでメモ次いでにirisデータでデータをいじりまとめてみることにした。

読み込み

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns=iris.feature_names)

行,列指定

pandasのdataframeではスライスがしようできないのでilocメソッドなとを使用する

iris.iloc[1,2]#1行目の2列目
iris.iloc[:,2]#2列目

ある列の値からフラグ付け

irisのsepal lengthが5.0cm以上の時にフラグを付けたい場合はapplyとlambdaを利用する

iris["sepal_len_flag"] = iris["sepal length (cm)"].apply(lambda x:1 if 5 < x  else 0)

groupごとに集計をする

groupbyによってグループごとの統計量を取得できる]

iris.groupby("sepal_len_flag")["sepal width (cm)"].mean()#sepallenflagごとのsepalwidthの平均を取得する

グループごと,カラムごとに別々の統計処理を行う

groupbyの後ろにaggとつけ引数に辞書形式で指定することで,カラムごとに個別の処理を書けることができる

iris.groupby("sepal_len_flag").agg({"sepal length (cm)":"mean","sepal width (cm)":["max","min"]})

ある行の最大値のインデックスをとる

idxmaxメソッドによって最大値のインデックスが返される

iris["sepal length (cm)"].idxmax()"sepal lengthの最大値のインデックスを返す

Author And Source

この問題について(pandasのデータ集計メモ), 我々は、より多くの情報をここで見つけました https://qiita.com/hukuhuku11111a1/items/a2f4348cfcc5910d2213

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

Python学習のファイル

tableリストでctrl,shiftを組み合わせて複数行の選択を実現