scikit-learnのMultiLabelBinarizerで個々の購入データを表にまとめる


データ元

個々の購入データ(変換前)

各行はユーザID、各列はユーザの購入したアイテムを表している。列数は最も購入アイテムの多いユーザの購入数になる。そのため、空欄にはNaNが入っている。

つくりたいテーブル(変換後)

各列を特定のアイテムに固定して、それぞれのユーザが購入したかを1/0で表す

やりかた

scikit-learn の MultiLabelBinarizerを用いる。変換前のデータフレームをdfとする。変換後の出力はdf_transとする。

from sklearn.preprocessing import MultiLabelBinarizer

df = df.fillna("none")

mlb = MultiLabelBinarizer()
result = mlb.fit_transform(df.values)
df_trans = pd.DataFrame(result, columns = mlb.classes_).drop('none', axis=1)

データフレーム中にNaNが入っているとMultiLabelBinarizerでエラーが発生するので適当な文字列に変換しておく(重複しなければ別にnoneじゃなくてもよい)

MultiLabelBinarizerオブジェクトを生成しfit_transformメソッドを呼び出す。引数にはdf.valuesとしてnumpy.array形式で指定する。

列名(アイテム名)はmlb.classes_で取り出せる。

最後にdropメソッドでnoneを削除すれば、変換後のテーブルを得る。