KubeFlow上で機械学習の環境を用意し、MLFlowでモデルを保存する


[更新] KubeFlow 1.0のCONFIG_URIに対応しました。

0. 目標


KubeFlowは、機械学習の開発・運用の環境を提供するOSSです。
KubeCon NA 2019でも多くのセッションで取り上げられました。Jupyterを必要なだけ起動したり、パイプラインを実行できたりします。v0.6.2では、複数ユーザをサポートできるようになりました。今年前半でv1.0が提供される予定で、開発が目下進められています。
また、MLFlow modelsも、機械学習モデルの保存という観点では、保存形式の一つとして非常に強力なツールと思います。

今回は、以下の2つをやってみたいと思います。

  • KubeFlowを構築。その上に、まずユーザAとユーザBそれぞれにJupyterを起動。
  • ユーザAがMLFlow modelsを使って、学習済みモデルを保存。それを、ユーザBのJupyterに共有し復元

1. KubeFlowの構築

KubeFlowの環境がすでに用意されている場合には、この章を読み飛ばして、2.MLFlowの章に移ってください。

必要な環境

前提となるリソース量が結構大きいです。

リソース
CPU 4コア
Memory 12GB
ディスク 50GB

前提となるkindによるKubernetes環境の構築

KubeFlowがサポートするバージョンのKubernetesクラスタを用意します。
KubeFlow 0.7.1(最新の1.0も)がサポートするのは最新のKubernetesではなく、少し前の1.15です。
kindでは、以下のように1.15.7というノードイメージを指定してクラスタを構築します。

kind create cluster --image kindest/node:v1.15.xx

バージョンは都度書き換えてください。2020/6/23現在、v1.15.11が最新ですが、以下のサイトで最新のイメージを検索して利用することをおすすめします。
https://hub.docker.com/r/kindest/node/tags?page=1

kindについて詳しくは、"kindで軽量テスト用Kubernetesクラスタを作る&運用する時のTIPS"を参照してください。

kfctlを使ったKubeFlowのインストール

Kubernetes上に、コマンドツールkfctl v1.0rcを使って、kubeflow v0.7.1をインストールします。

失敗編

最初にドキュメントに記載されていた以下を試して見ましたが、私の環境 (Macbook) でこちらのバージョンを使用した際にはあとに出てくるkfctl applyで失敗しました。

wget https://github.com/kubeflow/kubeflow/releases/download/v0.7.0/kfctl_v0.7.0_darwin.tar.gz
tar zxf kfctl_v0.7.0_darwin.tar.gz
mv kfctl-darwin kfctl
chmod +x kfctl

成功編

実はkfctlの本家はこちらに移っていました。こちらの最新版であるv1.0-rcを利用します。

ダウンロードしたファイルを展開し、kfctlを生成します。

以下Macの場合 (Linuxは上記URLにあるamd64にファイル名を変える)

mkdir $HOME/kubeflow
cd $HOME/kubeflow
curl -LO https://github.com/kubeflow/kfctl/releases/download/v1.0.1/kfctl_v1.0.1-0-gf3edb9b_darwin.tar.gz
tar zxf kfctl_v1.0.1-0-gf3edb9b_darwin.tar.gz
chmod +x kfctl
sudo mv kfctl /usr/local/bin/kfctl

kfctlが使用する環境変数の作成

以下のkubeflow.shを作成します。
先ほどダウンロードしたkfctlにパスを通し、kubeflowに必要なファイル群を貯めるディレクトリなどの設定を記載します。
ポイントは、KF_DIRにkubeflowが自動で生成するkubernetes用設定ファイルを格納する場所(これから作成する空ディレクトリのパス)を設定することです。

kubeflow.sh
export BASE_DIR=$HOME/kubeflow
export PATH=$PATH:$BASE_DIR
export KF_NAME=mykubeflow
export KF_DIR=${BASE_DIR}/${KF_NAME}
export CONFIG_URI="https://raw.githubusercontent.com/kubeflow/manifests/v1.0-branch/kfdef/kfctl_k8s_istio.v1.0.1.yaml"

構築するKubeFlowの構成(認証機能あり、なし)や、構築場所(AWS、Azure、GCP、既存Kubernetes)によってCONFIG_URIを変えます。

CONFIG_URIのリストは公式ドキュメントに記載されています。

以下のコマンドで、上記設定を読み込みます。

source kubeflow.sh

KubeFlowのデプロイ

mkdir -p ${KF_DIR}
cd ${KF_DIR}
kfctl apply -V -f ${CONFIG_URI}

このあと、KubeFlowに必要なIstioやさまざまなツールのコンテナイメージがダウンロードされるまでに相当の時間がかかります。

すべてのコンテナが起動したら、無事インストール終了です。

kubectl get po --all-namespaces

ログイン & Jupyterの起動

kubectl port-forward -n istio-system svc/istio-ingressgateway 80:80 --address 0.0.0.0

http://localhostにアクセスします。
Jupyterを起動するには、以下のように画面遷移します。

初期画面→notebook serversをクリック +NEW SERVERから以下のように名前やイメージを指定して起動
NotebookのCONNECTを選択 Jupyter notebookの画面

複数のJupyterで同じフォルダを共有する設定

複数のJupyterを起動すると、通常はまったく別のフォルダが見えます。これは、それぞれのJupyterがコンテナとして起動しており、コンテナはもともと隔離するための技術なのでそういうふうになってしまいます。

KubeFlowでは、複数のJupyterで同一フォルダを共有することができ、設定はかんたんです。

同じフォルダを見られるようにするには、2つ目のJupyter作成時のWorkspace VolumeExisting設定をします。これは、既存のフォルダを選択するという意味です。1つ目のJupyter作成時にすでにフォルダができているので、それを指定すればそのフォルダが共有されるようになります。

フォルダ使いまわし設定
(ユーザBのJupyter作成時)
起動したNotebookに既存ディスクがマウントされる

同じフォルダをみている二人べつべつのJupyter

ユーザAのJupyter ユーザBのJupyter

2. MLFlow modelsの保存と復元

(ユーザA) MNISTデータセットを学習したCNNモデルを作る

こちらを参考に、Notebookに貼り付けるだけです。ただし、起動したてのNotebookのコンテナは、何もインストールされていません。なので、pipコマンドで必要なライブラリをインストールしてから実行します。

pip install mlflow --user
pip install keras --user

上記はJupyter notebook上で以下のように!をつけてからコマンドを入力することでも実行できますし、Jupyterでterminalを作ってからそこに打ち込んでも構いません。

!pip install mlflow --user
!pip install keras --user

(ユーザA) MLFlow modelを使って保存する

Notebookが動作している間は、メモリ上にモデルを保持しています。modelという変数です。このモデルは、一度Notebookを終了すると消えてしまい、再度作り直すためにはもう一度学習し直さなければなりません。時間もかかるしコストもかかります。

この学習済みモデルを一度ファイルに書き出し、いつでも復元するための仕掛けを提供するのが、MLFlow modelです。
MLFlow modelは、save_modelでファイルに保存し、load_modelでファイルから復元します。

さきほどの学習済みモデルmodelsave_modelで保存します。

import mlflow.keras
path = "./model"
mlflow.keras.save_model(model, path)

実行すると、./modelというフォルダが新規作成され、中身に以下のようなファイルが作成されます。

Notebookはこちらにあります。

(ユーザB) load_modelを使って復元する

つぎに、それをユーザBのJupyter上にload_modelを使って復元します。

前述のユーザAとユーザBのJupyterのフォルダ共有設定が終わっているとします。すると、ユーザBには、ユーザAが保存したモデルが./modelフォルダに見えます。

そこでこれを利用するLoadModelというNotebookを作成し、以下のようにモデルを復元し、そのevaluate関数を呼び出して推論を実行します。

import mlflow.keras
path = "./model"
model = mlflow.keras.load_model(path)

score = model.evaluate(x_test, y_test, verbose=0)

Notebookは、こちらにおいてあります。

モデルの復元と推論の実行
ユーザBの推論時のフォルダ構成
(./modelLoadModel.ipynbを使用)
ユーザAのフォルダ構成
(./modelSaveModel.ipynbを使用)

これにより、無事./model内のファイルから学習済みモデルが復元されて、推論ができたことがわかります。

まとめ

KubeFlowは、ユーザごとの環境をかんたんに作り、フォルダの共有などもできるので、開発・運用が楽になります。
MLFlow modelsは、さまざまな機械学習フレームワークのモデルに対応していて、保存・復元を実現します。モデル共有に適していますね。ただし、モデルだけ共有しても完結しないことも多い(再チューニングなど)ので、一般的な運用ではソースコード(モデルを生成したNotebook自体)を一緒に共有する必要があると思います。

この後、完成したモデルを本番系にデプロイさせるのは、次の機会にしたいと思います。