Python統計テクニック集 ~Pythonで抗う統計解析~


これは、Open and Reproducible Science Advent Calendar 2019:13日目の記事です。

記事の目的

統計解析といえばRです。
しかし私のようにPythonだけでなんでもやりたい人もいます。
そんな人に向けて、Pythonで統計解析を行う上で便利なライブラリやテクニックをご紹介します。
同じテーマの記事や書籍も多々ありますが、他ではあまり紹介されていないものを中心にまとめるつもりです。
各ライブラリ・テクニックの詳細についてはなるべく別記事を紹介する方針です。

対象:Pythonを使ったことはあるけれどガチではない人

Jupyter Notebook / Lab

様々な記事で紹介されているド定番ですが、一応ご紹介します。

なぜ私たちはSPSSのようなGUIベースでなく、PythonやRのようなプログラムベースの統計ソフトを使うのか。
それは高価だから結果の再現性を確保するためです。
雑に言い換えれば、ある結果がどのような操作・解析から得られたのかを後から確認できるようにするためです。

Jupyter Notebookは、実行結果を逐一確認しながらプログラムを書くためのツールです。
RでいうところのR Markdown、MATLABでいうところのライブスクリプトです。
それぞれの解析結果がどういったプログラムによって導かれたのかを振り返ることが容易になります。
Pythonでデータ解析を行うなら必須とも言えるツールでしょう。
詳細は、このあたりの記事がわかりやすいかなと思います。

Jupyter Lab は、Jupyter Notebookの進化版です。
2019年6月、ついにver1.0が公開されました。
Notebookと比べて決定的な違いはないと思いますが、様々な点で使い勝手が上がっています。
詳細については、このあたりの記事がおススメです。

個人的には、ルーラー機能が気に入っています。
Pythonでは「一行の長さを79文字以内にするとイイヨ」という規約(PEP8)があります。
必ずこの規約を守らなくてはならないわけではありませんが、一行の長さを適切に守ると後から読み直しやすいです。
ルーラー機能を使うと、どこまでが79文字かすぐわかります。

Notebookでも拡張機能を入れれば表示できましたが(参照)、Labでは設定をいじるだけで実装できます(参照

関数に切り分ける

上述の通り、主な解析コードは Jupyter Notebook / Lab で.ipynbファイル上に書くのがおススメです。
しかし、ややこしいコードは適宜関数として切り分けて別の.pyファイルに書き込みましょう。
.ipynbからはそれをimportして使うのみにすると、可読性がグッと上がります。

自分で関数を作ったり、それをimportできるようにする方法についてはこちらの記事をご覧ください。

ところが、.pyファイルの更新を.ipynbに反映させるためには一度 Restart Kernel させてやる必要があります。
変数がいったんすべてリセットされてしまうのでなかなか面倒です。
それを防ぐためには、下記のコードを.ipynbの頭に入れてやりましょう。

%reload_ext autoreload
%autoreload 2

これで、Restart Kernelをしなくても.pyファイルの変更が即時反映されます。

Docstringを残す

Docstringとは、あるフォーマットに則って書かれた、関数の使い方についてのメモです。

自分の書いた解析スクリプトを一年後くらいに読んでみると、内容がまるでちんぷんかんぷんだったりします。
時間をかければ解読することもできるでしょうが、Docstringを残しておくとラクに振り返ることができます。
書き方についてはこの記事を読めばバッチリです。

コメントを残す…?

Docstring以外にも、コメントを適宜残して解析の内容が後からすぐわかるようにしましょう。
…と、よく言われますが、議論があるようです(参照)。
つまるところ、コメントを残さなくても変数名や関数名から内容がすんなりわかればそれがベストということのようです。

私見:
少なくとも.ipynbは、コメント等を残さなくてもすんなりコードが読めるようにしましょう(見出しはつけましょう)。
後から見返した時すんなり読み解けないなと思ったら、関数として切り分けてコメントやDocstringを残しましょう。

Gitを(少なくとも程々に)使う

Pythonに限らない話ですが…

Gitは、ソースコードのバージョンを管理するためのシステムです。
GitといえばGitHubというサイトが有名ですね。
これは(乱暴に言えば)Gitで管理されているデータを保存するためのクラウドストレージのようなものです。
適切にGitを使うことによって、過去の時点におけるソースコードを確認することができます。

GitおよびGitHubの使い方は、このあたりの記事がわかりやすかったです。

Gitを使ってこまめに変更履歴を記録していくことは、プログラマにとって必須の技術のようです。
…が、私のようなモノグサ人間には逐次記録を残していくことが中々しんどいです。
せめて、研究室・勉強会・学会大会・論文等で解析結果を発表したときだけでも履歴を記録するようにしましょう。
それらの発表で使われた解析結果が、どういったコードによって得られたのかを振り返ることができます。

breakpoint() を使ったデバッグ

プログラムのエラーを直すときには、エラーの原因を探ることが第一歩になります。
そんなとき、そのエラー周辺の変数の中身を確認したり、コードの流れをワンステップづつ確認させてくれるのがデバッグ機能です。
Pythonのデバッグ機能の使い方は、こちらの記事をご確認ください。
ただし、この記事等で紹介されている方法は、Jupyter Notebookからは使えません。
下記のように書き換えてください(参照)。

# import pdb; pdb.set_trace() <- これの代わりに
from IPython.core.debugger import Pdb; Pdb().set_trace()    # <- これ

もしPython3.7以降のバージョンを使っているなら ↓ でもOKです。(参照)

# import pdb; pdb.set_trace() <- これの代わりに
# from IPython.core.debugger import Pdb; Pdb().set_trace() <- これでもなく
breakpoint()    # <- たったこれだけ

breakpoint()、超便利です。

変数を別ファイルから読み込む

自身で定義した関数を別の.pyファイルからimportできることは知っていましたが、
変数(定数)の定義もできることを最近まで知りませんでした。
やり方はこちらの記事をご覧ください。
大量のパラメータなどをずらっと羅列して記述する場合等は、この方法を使うと後から見やすいですね。

Googleスプレッドシートを読み込む

アンケートを実施するために、Googleフォームを利用している人も多いでしょう。
Googleスプレッドシートに蓄えられたデータを解析するときは普通、一旦.csvとしてダウンロードしてからそれを読み込むかと思います。
しかしoauth2clientというライブラリを使えば、スプレッドシートを直接Pythonに読み込ませることができます。
逐一途中経過を解析したいけど、いちいちファイルダウンロードするのが面倒な人におすすめです。

やり方はこちらでご紹介されています。

↓みたいな感じで関数にしておくと便利です。

import pandas as pd
from oauth2client.service_account import ServiceAccountCredentials
import gspread


def fetch_spread_sheet(spreadsheet_name, worksheet_num, json_path):
    """
    指定したGoogleスプレッドシートをDataFrame型として読み込む

    Parameters
    ----------
    worksheet_name: str
        読み込むスプレッドシートの名前
    worksheet_num: int
        スプレッドシートのうち、読み込むワークシートの番号
    json_path: str
        GoogleDrive API managerからDLしてきたjsonファイルのパス
    """
    scopes = ['https://www.googleapis.com/auth/drive']
    credentials = ServiceAccountCredentials.from_json_keyfile_name(
        json_path, scopes=scopes)
    gc = gspread.authorize(credentials)
    workbook = gc.open(spreadsheet_name)
    sheet = workbook.get_worksheet(worksheet_num)
    return pd.DataFrame(sheet.get_all_values())

統計ライブラリ Pingouin

Pingouin(パングワン、フランス語でペンギンのこと)は、Pythonで使える統計パッケージです(公式サイト)。
2018年4月に初公開された、新しめのパッケージですね。

Pythonの統計パッケージといえばStatsModelsscipy.statsがあります。
これらに対してPingouinのウリは、“シンプルかつ徹底的”なところです。
例えばscipy.statsttest_indを使うと、t検定を行ってt値とp値を返してくれます。
これに対してpingouin.ttestは、t値、p値、自由度、エフェクトサイズ、95%信頼区間、検定力、Bayse Factorまでいっぺんに返してくれます。

pingouinの機能一覧は公式サイトから確認しましょう。
他のライブラリではできなかったり、ややこしかったりする関数が揃っています。