【Pandas】基礎1(DataFrame, Series)


はじめに

機械学習や深層学習が人気の昨今、
データを加工し、前処理を行う機会が非常に多くなってきた。

データ処理方法は様々存在するが、そのデータ処理ツールの一つとしてpythonのpandasが存在する。

そこで、今回は公式のpandasのintro記事を参考に
pandasの基礎にDaraFrame、Seriesについて記していく。

そもそもPandasはどのようなデータを扱うのに適しているのか?

表形式のデータを扱うのに非常に適している。
例えば、エクセルやSQLといったデータだ。

pandasを利用することでデータの検索やデータの処理などを行うことができる。

DataFrame

pandasが使えるデータテーブルのことである。

下の図のように、行(rows)列(columns)で構成されている。

pythonでの記述方法

手動でdataframeを作成するには、pythonのdictonaryを使用する。

dictonaryのキーがDataFrameの列のheadとして、 dictonaryのリストがDataFrameの行となる。

df = pd.DataFrame({
        "Name": ["Braund, Mr. Owen Harris",
                 "Allen, Mr. William Henry",
                 "Bonnell, Miss. Elizabeth"],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"]}
     )

出力結果

Series

SeriesとはDataFrameの各列のことを言う。

イメージは以下の通り

pythonでの記述方法

例として、上記のDataFrameから'Name'を取得してみる。

series = df['Name']

もしくは、手動で作成することもできる。

series2 = pd.Series(["Braund, Mr. Owen Harris",
                     "Allen, Mr. William Henry",
                     "Bonnell, Miss. Elizabeth"],
                     name = 'Name'
          )

出力結果

まとめ

  • DataFrame
    • pandasで扱うデータのテーブル
  • Series
    • DataFrameの各列のこと

参考