【データサイエンス備忘録】 DataFrame型の中身の確認 【python】


head()関数

データの先頭5行を確認する。

DataFrameが代入された変数.head()
括弧内に数字を指定することで、指定した行数だけデータを表示することも可能。
DataFrameが代入された変数.head(10)とするとデータの先頭10行が表示される。

shape

読み込んだデータの行数と列数を調べる。

DataFrameが代入された変数.shape
行数だけを取り出したい場合はshape[0]、列数だけを取り出したい場合はshape[1]と記述する。

info()関数

DataFrameの各カラムのデータ型を確認する。

DataFrameが代入された変数.info()

describe()関数

数値型データの基本統計量の確認する。
pandasで読み込んだDataFrameのデータに対し、数値型データの基本統計量を表示するにはdescribe関数が便利である。

DataFrameを代入した変数.describe()

なお、出力結果の説明は以下のとおりである。

  • count:データの個数
  • mean:平均値
  • std:標準偏差
  • min:最小値
  • 25%:第一四分位数
  • 50%:第二四分位数(中央値)
  • 75%:第三四分位数
  • max:最大値

例えば、中央値より平均値が大きい場合は、データの分布は値が小さい方向に偏っている可能性がある等、慣れてくると、基本統計量を見るだけでデータ分布をイメージすることができるようになる。

文字列型データの基本統計量の確認
文字列型(object型)の変数の場合は、describe関数のオプションに(include=['O'])を指定することで確認できる。

※ゼロではなく、大文字のオーである。

DataFrameを代入した変数.describe(include=['O'])

出力結果の説明は以下のとおりである。

  • count : データの個数
  • unique : ユニークな要素の個数
  • top : 最も多く出現する要素(最頻値)
  • freq : topで返された要素の出現回数

dtypes

データの型を確認する。

DataFrameが代入された変数.dtypes

データ内の各列の値の型を参照することができる。