OracleのAutoMLを使ってみる


1. 本記事について

2020年2月よりOracle Cloud上でAutoMLが利用できるようになっています。
本記事では、以下の内容について記述します。
・OracleのAutoMLを利用した機械学習モデルの構築、評価までの手順 (実施時間目安:2~3h)
・他AutoMLサービスとの性能比較

※AutoMLとは?
機械学習におけるアルゴリズム選択、ハイパーパラメータのチューニング、モデル評価の一連のタスクを自動化するサービス

2. 学習用の題材について

GoogleやMicrosoftが提供する主要なAutoMLサービスの比較を行ってくださっている
Qiita記事が既に存在するため、対象の記事から以下の2ケースをピックアップして実施し、
OracleのAutoMLと比較ができるようにします。
AutoMLがすごいと聞いたので色々使って比べてみた
ローン審査(2クラス分類)
サッカー選手のポジション判定(多クラス分類)

3. Oracle Cloud アカウント登録

本記事では割愛します。
参考となる記事を記載しておきます。
【OCI】oracle cloud -アカウントの登録編-
Oracle Cloud Free Tierにアカウントを登録してみる(2020年1月版)

※要クレジットカード情報
※無料トライアル枠があります

4. クラウド環境構築

4.1 コンパートメント作成

コンパートメントとは、Oracle Cloud上のネットワークやサーバーリソースを
論理的に区分して管理するための概念です。
※作成することで課金は発生しません
以下のページがわかりやすいです。
コンパートメント – Oracle Cloud Infrastructure特有の概念

・左上タブから[アイデンティティ]⇒[コンパートメント]を選択

・[コンパートメントの作成]を選択

・任意の名前、説明を入力し、[コンパートメントの作成]を選択

4.2 ネットワークリソース作成

AWSでのVPCにあたるリソースを作成します。
※作成することで課金は発生しません。

・左上タブから[ネットワーキング]を選択

・[インターネット接続性を持つVCNの作成]の下の[VCNウィザートの起動]を選択

・任意のVCN名を入力し、先ほど作成したコンパートメントを選択、[次]を選択
※各CIDRブロックはデフォルトで入力されている値のままでも可

・[作成]を選択

・完了画面

4.3 ポリシー作成(権限設定)

現在Oracle Cloudの管理コンソールにログインしているユーザに対し、
AutoMLを利用するためのサービスであるData Science Cloudに対する権限を付与します。
※設定することで課金は発生しません。
・左上タブから[アイデンティティ]⇒[ポリシー]を選択

・[ポリシーの作成]を選択

・任意の名前、説明を入力し、作成したコンパートメントを選択
・ポリシー・ビルダー欄にある[カスタマイズ(拡張)]を選択

・出てきたウィンドウに以下のステートメントを入力し、[作成]を選択

allow group Administrators to manage data-science-family in compartment automl-test
allow group Administrators to use virtual-network-family in compartment automl-test 
allow service datascience to use virtual-network-family in compartment automl-test

4.4 機械学習環境構築

Data Science Cloudサービスを使用すると、
AutoMLを実行するための各種機械学習ライブラリがインストール済の
インスタンス(サーバー)を構築できます。
※インスタンスのシェイプ、起動時間に応じて課金が発生します。

・左上タブから[データ・サイエンス]⇒[プロジェクト]を選択

・[プロジェクトの作成]を選択

・任意の名前を入力し、[作成]を選択

・プロジェクト作成完了画面から、[ノートブック・セッションの作成]を選択

・任意の名前を入力し、学習用に使うインスタンスシェイプとストレージサイズを入力
- VM Standard E2.2 ※2CPU
- 50GB
・[作成]を選択

・作成完了画面から、[開く]を選択

・Oracle Cloudへのログイン認証画面へ遷移するので、ユーザ名とパスワードでログイン

・Jupyter Notebook画面
※Scikit-learnなどの機械学習向けライブラリはインストール済の状態で起動します

5. 学習タスクの実施

ローン審査(2クラス分類)から実施します。

5.1 データロード

以下からcsvデータをダウンロードします。
データセット: ローン審査(2クラス分類)

・Jupyter Notebookの[↑]アイコンを選択し、csvファイルをアップロードします

・Python 3のNotebookを開きます

・各種ライブラリの読み込み

%matplotlib inline
%load_ext autoreload
%autoreload 2
import csv
import pandas as pd
import logging
from ads.dataset.factory import DatasetFactory
from ads.automl.provider import OracleAutoMLProvider
from ads.automl.driver import AutoML

・csvをデータフレームに読み込み

credit_df = pd.read_csv('credit.csv')

・データフレーム変換
※AutoML関連のライブラリを呼び出すための"ADS"と呼ばれるOracleのフォーマットに変換しています。

credit_ads = DatasetFactory.open(credit_df).set_target('Credit')

5.2 データセットの確認

・以下のコマンド1つでデータセットの統計値と分布が表示されます。

credit_ads.show_in_notebook()




5.3 特徴量エンジニアリング

Data Science Cloudでは、欠損値を補完したり、不均衡データをサンプリングによって調整したり、といった特徴量エンジニアリングの作業を自動化できます。
今回は陽性のラベルとして"Good"(ローン審査をパス)を設定する点だけ推奨されています。

・推奨事項の確認

credit_ads.suggest_recommendations()


・推奨事項の適用

credit_ads.set_positive_class("Good", missing_value=False)

5.4 AutoMLの実行

・学習データとテストデータに分割(比率9:1)

train, test = credit_ads.train_test_split(test_size=0.1)

・AutoMLの実行

## n_jobs...CPU数を指定 -1で学習に全てのCPUリソースを使用
## score_metric...最も優先する評価指標を指定
ml_engine = OracleAutoMLProvider(n_jobs=-1, loglevel=logging.ERROR)
oracle_automl = AutoML(train, provider=ml_engine)
automl_model1, baseline = oracle_automl.train(score_metric='accuracy')

・実行が完了するとサマリ画面が表示されます
※アルゴリズムはAdaBoostClassifierが選択されたようです

5.5 精度評価

・構築した学習モデルの各評価指標を確認します。
各評価指標の意味

from ads.common.model import ADSModel
from ads.evaluations.evaluator import ADSEvaluator
from ads.common.data import MLData

evaluator = ADSEvaluator(test, models=[automl_model1], training_data=train, positive_class='Good')
evaluator.metrics


※サッカー選手のポジション判定(多クラス分類)についても同様の手順で学習させます。
csvデータは以下からダウンロードします。
データセット: サッカー選手のポジション判定(多クラス分類)
※予測対象のカラムが"Credit"⇒"Position"に変更となる点に注意してください。

6. 他AutoMLとの性能比較

・ローン審査(2クラス分類) ※2CPUで学習
精度についてはほとんど変わらず、トレーニング時間は最短となりました。

ツール F値 適合率 再現率 ROC AUC トレーニング時間(min) トレーニング費用(¥)
Google/AutoML Tables 0.805 0.861 0.756 0.850 40 1,415.5
IBM/AutoAI 0.832 0.834 0.831 0.888 5 92.0
Microsoft/AutomatedML 0.805 0.805 0.805 0.880 20.0 24.3
Sony/Prediction One 0.847 0.800 0.899 0.886 0.85 0.0
H2O Driverless AI 0.8513 0.809 0.898 0.851 12.3 ---
Oracle/AutoML 0.8571 0.8716 0.8431 0.8809 0.66 12

・サッカー選手のポジション判定(多クラス分類) ※16CPUで学習
こちらも精度はそこまで大きく変わらずですが、トレーニング時間が最短。

ツール F値 適合率 再現率 ROC AUC トレーニング時間(h) トレーニング費用(¥)
Google/AutoML Tables 0.574 0.774 0.456 0.972 5.53 11,655
IBM/AutoAI 0.585 0.585 0.585 --- 17 19,040
Microsoft/AutomatedML 0.493 0.493 0.493 0.918 55.8(打ち切り) 4,068
Sony/Prediction One 0.437 0.526 0.374 --- 0.78 0
H2O Driverless AI 0.613 0.602 0.625 0.967 1.67 ---
Oracle/AutoML 0.5828 0.5828 0.5828 --- 0.67 127

7. まとめ

今回は2ケースのみの検証ですが、精度についてはそこまで大きな差は出ないという結果でした。
OracleのAutoMLについて注目すべき点としては、他のクラウド型のAutoMLサービスと比較して学習にかかる時間と費用が大幅に少ないという点でしょうか。
PaaS型のサービスにもかかわらず非常に安いです。

なお、Oracle以外は2020年1月時点の結果を拝借しているため、現時点では同じ検証でも結果が異なる可能性があります。

8. 参考

Data Science Cloud マニュアル
Oracle AutoML マニュアル