PyCaret のクリエイターが明かした秘密とは？

9100 ワード

前処理 Python PyCaret 特徴量エンジニアリング Python テキストリンク

※2021/09/25：「PyCaretで「Titanicデータセット」の前処理を実行して出力してみた」にy_trainの出力についても追記

「あなたがPyCaretで間違えている5つのこと」

これは towardsdatascience.com に掲載されたPyCaretクリエイターによる記事（Nov.2020）です。

　
すこし記事の内容から離れますが、
わたしは、PyCaretで実行した前処理の結果を確認したり、書き出したりする方法を探していました。

「いろんな前処理ができるようになるんだ！」と意気込んではおりますが、まだまだヒヨッコなので、前処理の初手はPyCaretの力を借り、データ理解を助けてくれるであろうデシジョンツリーの描画、とにかくここまではチャチャっとやりたいからです。
※データ理解が効率的にできるかは、これにかかってる？！

少し話が逸れましたが、
なんと、冒頭の記事のなかに私の望みが載っているではありませんか！ということで、その内容を紹介させていただくものです。

「PyCaretで間違えている5つのこと」とは？

記事にある5つのことととうのは以下です。

👉compare_modelsは思っている以上にやるよ！

👉scikit-learnのモデルだけに限定されている？

👉pull( )関数って知ってます？

👉PyCaretはブラックボックスだと思ってるんじゃない？

👉実験のログを取っていないでしょ？

私の望みは、4つ目の「👉PyCaretはブラックボックスだと思ってるんじゃない？」です。
「👉compare_modelsは思っている以上にやるよ！」にも興味を持ちましたので、この2つだけを取り上げたいと思います。
※他も気になる方は、ソースを確認してくださいね。

👉compare_modelsは思っている以上にやるよ！

compare_models では、ライブラリ内のモデルを交差検証（クロスバリデーション）含め自動で比較が行われます。
compare_modelsの結果は、Ver.2.0から best_modelの結果だけではなく、上位何位までのモデルの結果を返すかが設定できるようになりました。
これは n_select = で設定でき、デフォルトは 1 となっています。

例えば、TOP3（上位3つのモデル）を設定する場合、n_select=3 とすることで、TOP3のモデルの結果を得ることができます。例えば、以下のようになります。

これらのモデルを使用して、診断プロットを作成したり、必要に応じて予測に使用することができます。例えば、以下のようになります。

👉 PyCaretはブラックボックスだと思ってるんじゃない？

「すべての前処理は舞台裏で行われているからアクセスできない。setupの結果を確認することなんてできないんだ」
・・・これは真実ではありません。

PyCaretにはget_configとset_configという2つの関数があり、トレーニングセットからモデルのコンディションまで、すべてのバックグラウンドにアクセスして変更することができます。
help(get_config)を呼び出すと、どの変数にアクセスできるかを確認できます。

help(get_config)

例えば、X_train変換データセットにアクセスするには、次のように記述します。

get_config('X_train')

環境変数の変更は、set_configを使用します。pull、get_config、set_configの3つの関数を使えば、かなり高度なワークフローを作ることができます。
例えば、1つのホールドアウトセットに依存するのではなく、ホールドアウトセットをN回サンプリングして、平均化したパフォーマンス基準を評価することができます。

import numpy as np
Xtest = get_config('X_test')
ytest = get_config('y_test')

AUC = []

for i in np.random.randint(0,1000,size=10):
    Xtest_sampled = Xtest.sample(n = 100, random_state = i)
    ytest_sampled = ytest[Xtest_sampled.index]
    set_config('X_test', Xtest_sampled)
    set_config('y_test', ytest_sampled)
    predict_model(dt);
    AUC.append(pull()['AUC'][0])

>>> print(AUC)

[Output]: [0.8182, 0.7483, 0.7812, 0.7887, 0.7799, 0.7967, 0.7812, 0.7209, 0.7958, 0.7404]

>>> print(np.array(AUC).mean())

[Output]: 0.77513

PyCaretで「Titanicデータセット」の前処理を実行して出力してみた

前処理（setup）結果の出力とcsvへのエクスポートを実際にやってみました。

実行環境はGoogle colabです

■ タイタニックのデータセットについて

以下サイト（Kaggle）の「train.csv」を使わせていただいた。

タイタニックデータセットの項目と内容

項目内容

PassengerId 乗客ユニークID

Survived 生存フラグ（0=死亡,1=生存）

Pclass チケットクラス（1=上級,2=中級,3=下級）

Name 乗客名

Sex 性別（male=男性,female＝女性）

Age 年齢

SibSp 同乗している兄弟,配偶者の数

parch 同乗している親,子供の数

ticket チケット番号

fare 料金

cabin 客室番号

Embarked 出港地（C=Cherbourg,Q=Queenstown,S=Southampton）

項目	内容
PassengerId	乗客ユニークID
Survived	生存フラグ（0=死亡,1=生存）
Pclass	チケットクラス（1=上級,2=中級,3=下級）
Name	乗客名
Sex	性別（male=男性,female＝女性）
Age	年齢
SibSp	同乗している兄弟,配偶者の数
parch	同乗している親,子供の数
ticket	チケット番号
fare	料金
cabin	客室番号
Embarked	出港地（C=Cherbourg,Q=Queenstown,S=Southampton）

前処理前のデータ

PyCaretで実行したsetup

from pycaret.classification import setup

clf = setup(data=train_data, target="Survived", session_id=123,  # 環境の初期化
            numeric_imputation="mean", categorical_imputation="mode",
            ignore_features = ['Name'],
            ordinal_features = {'Pclass':['3','2','1']}
            )

以下の実行が必要でした（X_trainというデータフレーム格納）

from pycaret.datasets import get_data
from pycaret.classification import *
X_train = get_config('X_train')

X_trainを確認

X_train

csvエクスポート

X_train.to_csv("setup.csv", index=False)

※2021/09/25追記
y_trainもgetしないといけませんね。y_train = get_config('y_train') も追加して
train = pd.concat([X_train,y_train],axis=1) などとしてから、train.to_csv("setup.csv", index=False) とすればいけると思います。

よかったぁ。できたぁ。
前処理後の結果をみると、もう少し前処理指示をしっかり与えた方がよさそうにも思えますが、これは楽ちんですね。

私は、デシジョンツリーが好きで、特に dtreeviz にはまっています。デシジョンツリーは欠損値にも対応・・・とよく聞くのですが、 dtreeviz は欠損値あると描けないんですよね・・・私が何か間違ってるのかなぁ。

参考サイト

PyCaret：PyCaretは、機械学習のワークフローを自動化する、オープンソースの機械学習ライブラリです。機械学習の実験サイクルを高速化し、生産性を向上させるエンドツーエンドの機械学習・モデル管理ツールです。
他のオープンソースの機械学習ライブラリと比較して、数百行のコードを数語のみで置き換えることができますので、実験は指数関数的に速く、効率的になります。

Author And Source

この問題について(PyCaret のクリエイターが明かした秘密とは？), 我々は、より多くの情報をここで見つけました https://qiita.com/hima2b4/items/e43ffca5f7438008f718

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .