Pandasの概要とSeriesとは何かについて説明します no.1


こんにちは。

まゆみです。

今回の記事ではデータ分析などに便利なライブラリーPandasについて書いていきます

Pandasはとても便利なライブラリーなので、1記事に書く分量を小分けにしながら、シリーズで記事を書いていこうと思います。

今回の記事は第1回目の記事になります

この記事を読めば

  • Pandasライブラリーの概要
  • PandasのSeriesとは?(DataFrameとの違い)
  • ライブラリーのインポートの仕方(エイリアスとは?)
  • PythonのデータをSeriesにしてみる

以上のことが分かります

IDEはjupyter notebook を使っていきますね。

Pandasでできることの1例

Pandasでできることを言葉で説明する前に、どんなことができるのか実際に実行して見てみましょう。

例えば、PandasにはCSVファイルを読み込むという機能があります。

しかもただ読み込むだけではなく、綺麗にフォーマットした状態にして表示してくれます。

下記のようなCSVファイルを作りました。(データ内容は私が勝手に書いた架空の物なのでよろしくお願いします<(_ _)>)

ちょっと見にくいCSVファイルがPandasライブラリーを使うと

下記のようになります

CSVファイルの1行目をちゃんとコラム名として勝手に認識してくれて、綺麗に見やすくフォーマットしてくれました。

Pandasがデータ分析に必須のアイテムであることがうなずけますね。

PandasのSeriesとは?

Pandas のSeries について書く前に、Pandasの基本となるデータストラクチャーについて書いていきます。


引用元:pandas ドキュメント

Pandasでは、SeriesとDataFrame が基本となるデータストラクチャーとして使われています。

DataFrame = データ全体

Serieds = 縦の線で区切られた1つ1つのコラム

と認識すれば大丈夫です。

エクセルシートで例えれば、1ページ全体がDataFrameで、縦の列がSeries です。

DataFrame とSeries では使えるメソッドなども変わってくるので、これらの違いはきちんと把握しておいてくださいね。

Pandasをimport する

import pandas as pd

いつもと同じようにライブラリーをインポートしてください。

インポートの方法には色々ありますが、今回は『エイリアス』と呼ばれる方法でインポートしました。

エイリアスとは別名やニックネームという意味です。

例えば、pandas ライブラリーを使うたびに

pandas.(メソッド名)

と書くより

pd.(メソッド名)

と書く方が、手間が省けるという利点があります。

『pd という名前でpandas をインポートする』ということですね。

pd にあたる部分はあなたの好きにつけても大丈夫なのですが、(例えば 『import pandas as pizza』など) やはり『pd』と習慣に従って書いた方が、他の人があなたのコードを見た時にも何をしているのか分かりやすいと思います。

PythonのリストをpandasのSeriesで表示する

pandasのSeries とはエクセルシートで言うところの縦の1列だということは先ほどお伝えしました。

エクセルシートの1つ1つのセルに数字でもテキストでも書けるように、pandas のSeries も数字でもテキストでも扱うことができます。

pythonの2つのリストから(1つは、文字列でできたリストでもう1つは数値でできたリスト)それぞれ、Seriesを作ってみました。

それぞれのコードの結果の一番下に書かれているdtypeはdata type の略です。

object は文字列で作ったSeries であり、intは数値で作ったSeries ということになります。

Pythonの辞書もSeries で表せるの?

先ほどは、Pythonのリストを見やすいSeriesの形で表示させました。

もしPythonの辞書型のデータをkey とvalue を隣り合わせに表示してくれたら便利ですよね?

はい、そのような事もPandas には可能です。

先ほどと同じ手順で

pd.Series(Pythonの辞書型データ)

とすれば、

key の横にそのkey に対応するvalue を表示する形で表示されます

PandasのSeries に書き換えたデータは

dict_series = pd.Series(dictionary)

というように変数に代入することももちろんできます。

まとめ

今回の記事では、

Pandas ライブラリーの概要と、その根幹となるデータストラクチャーであるSeries について少し書かせていただきました。

次回の記事では、Seriesのデータに使えるアトリビュートについて解説していこうと思います。

どうぞ、お楽しみにっ!