【データサイエンス備忘録】 DataFrame型の中身の確認 【python】
head()関数
データの先頭5行を確認する。
DataFrameが代入された変数.head()
括弧内に数字を指定することで、指定した行数だけデータを表示することも可能。
DataFrameが代入された変数.head(10)
とするとデータの先頭10行が表示される。
shape
読み込んだデータの行数と列数を調べる。
DataFrameが代入された変数.shape
行数だけを取り出したい場合はshape[0]、列数だけを取り出したい場合はshape[1]と記述する。
info()関数
DataFrameの各カラムのデータ型を確認する。
DataFrameが代入された変数.info()
describe()関数
数値型データの基本統計量の確認する。
pandasで読み込んだDataFrameのデータに対し、数値型データの基本統計量を表示するにはdescribe
関数が便利である。
DataFrameを代入した変数.describe()
なお、出力結果の説明は以下のとおりである。
- count:データの個数
- mean:平均値
- std:標準偏差
- min:最小値
- 25%:第一四分位数
- 50%:第二四分位数(中央値)
- 75%:第三四分位数
- max:最大値
例えば、中央値より平均値が大きい場合は、データの分布は値が小さい方向に偏っている可能性がある等、慣れてくると、基本統計量を見るだけでデータ分布をイメージすることができるようになる。
文字列型データの基本統計量の確認
文字列型(object型)の変数の場合は、describe
関数のオプションに(include=['O'])を指定することで確認できる。
※ゼロではなく、大文字のオーである。
DataFrameを代入した変数.describe(include=['O'])
出力結果の説明は以下のとおりである。
- count : データの個数
- unique : ユニークな要素の個数
- top : 最も多く出現する要素(最頻値)
- freq : topで返された要素の出現回数
dtypes
データの型を確認する。
DataFrameが代入された変数.dtypes
データ内の各列の値の型を参照することができる。
Author And Source
この問題について(【データサイエンス備忘録】 DataFrame型の中身の確認 【python】), 我々は、より多くの情報をここで見つけました https://qiita.com/insilicomab/items/eeaca3e3409a74bd2209著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .