Alibaba Cloud Container ServiceでRAPIDSを使って画像検索を高速化する方法


この記事では、NVIDIAが発表したGPUアクセラレーションライブラリ「RAPIDS」を使って、Alibaba Cloud Container Service上で画像検索の高速化を行う方法を紹介します。

著Biran

はじめに

アルゴリズム、データ、コンピューティングパワーは、AIの3大要素です。コンピューティングパワーがなければ、AIを実現することはできません。NVIDIA GPUのコンピューティングパワーは、AIモデルのトレーニングを加速するための最良の選択となりますが、高価です。Alibaba Cloud Container Service、Elastic Container Instance(ECI)、Arenaで構成されるソリューションは、NVIDIA GPUのコンピューティングパワーを活用するための、簡単で効果的、かつコスト効率の高い方法を提供します。

ディープラーニングは、NVIDIA GPUに言及する際に誰もが最初に思い浮かべるものです。従来の機械学習やデータ分析の手法では、GPUを使うことはほとんどありません。実はNVIDIAには、データサイエンスや機械学習のためにNVIDIAが立ち上げたGPUアクセラレーションライブラリであるRAPIDSという優れたプロジェクトがあります。RAPIDSの詳細については、RAPIDSの公式サイトをご覧ください。このプロジェクトは、従来のアルゴリズムにGPUによる高速化をもたらすことを目的としており、Pandasやscikit-learnと同様の操作性やユーザーエクスペリエンスを提供します。RAPIDSには、Pandasに相当するcuDF、scikit-learnに相当するcuML、グラフデータを処理するcuGraphの3つのモジュールがあります。その親和性の高さから、RAPIDSと深層学習フレームワークを組み合わせ、cuDFを使ってGPUによるデータ処理を高速化し、TensorFlowやPyTorchといった深層学習モデルフレームワークを使ってタスクを実行することができます。

この記事では、TensorFlowとRAPIDSを使ってAlibaba Cloud Container Service上で画像による検索を行い、ECIを使ってGPUリソースを申請する方法を紹介します。GPUリソースは数秒で準備され、不要になったら解放されます。つまり、事前にGPUインスタンスを用意する必要はありません。また、Kubernetesのインフラを扱う必要もありません。Arenaコマンドを実行して、GPUを含むRAPIDS環境を構築・実行し、GPUインフラを管理します。

操作手順

ステップ1:クラスターの準備

まずはじめに、マネージドKubernetesクラスターを準備します。マネージドKubernetesクラスターは、Alibaba Cloudのリソース上で稼働するノードを管理し、Alibaba CloudがO&M(運用・保守)コストを負担します。一方、このクラスターでは、仮想Kubeletノードを作成します。

すでにコンテナサービス用のKubernetesクラスターが作成されている場合は、マネージドKubernetesクラスターを選択します。

システムコンポーネントコンテナを実行する必要があるため、ノードには少なくとも1つのワーカーノードが含まれている必要があります。

1) バーチャルノードのインストールの詳細については、「Virtual Nodes Documentation」を参照してください。

2) virtual-kubelet-autoscalerを設定します。クラスタ内のGPUリソースが不足している場合は、virtual-kubelet-autoscalerを使用して、GPUを使用しているECIコンテナグループを削除します。

ステップ2:Arenaを実行してRAPIDSサービスを作成

1) 以下のコマンドを使用してArenaをインストールします。

$ wget http://kubeflow.oss-cn-beijing.aliyuncs.com/arena-installer-0.3.0-b556a36-linux-amd64.tar.gz
$ tar -xvf arena*.tar.gz
$ cd arena-installer
$ ./install.sh

2) 次に、Arenaコマンドを実行してクラスタのGPUリソースを確認します。次のスニペットが示すように、このユーザーのクラスターには1つのリアルノードがあり、GPUリソースは含まれていません。また、物理的には存在しないため課金されない仮想ノードが存在します。このノードは,無制限の GPU リソースを提供しており,スケーリングも可能です。

$ arena top node
arena top node
NAME                       IPADDRESS      ROLE    STATUS  GPU(Total)  GPU(Allocated)
cn-shanghai.192.168.1.248  192.168.1.248  <none>  ready   0           0
virtual-kubelet            172.20.2.18    agent   ready   1000        0
-----------------------------------------------------------------------------------------
Allocated/Total GPUs In Cluster:
0/1000 (0%)

3) RAPIDS タスクを投入する前に、必要な準備を行い、作成プロセスの高速化とアクセス操作の簡略化を図ります。

3.1 LoadBalancer にアクセスする方法を設定する。なお、この方法は簡略化のためにのみ使用しています。本番環境への外部 IP アドレスからのアクセスを禁止することを推奨します。

$ find /charts/ -name "*.yaml" | xargs sed -i "s/NodePort/LoadBalancer/g"

3.2 次に、以下の手順で起動速度を高速化します。

3.2.1 GPUコンテナイメージは通常、非常に大きなサイズです。例えば,今回の実験で使用したRAPIDSコンテナ・イメージは14.7GBの容量があります。一般的に、起動時間は約10分です。しかし,イメージキャッシング機能を使えば,この時間を20秒に短縮することができます。

docker images | grep rapids
registry.cn-shanghai.aliyuncs.com/tensorflow-samples/rapids-samples                0.8.2-cuda10.0-runtime-ubuntu16.04   4597a0334d41        12 days ago         14.7GB

3.2.2 サーバーレスKubernetesでは、ImageCache CRDを作成するだけで、画像キャッシング機能を直接利用できます。

$ cat > imagecache.yaml << EOF
apiVersion: eci.alibabacloud.com/v1
kind: ImageCache
metadata:
  name: imagecache-rapids
spec:
  images:
  - registry.cn-shanghai.aliyuncs.com/tensorflow-samples/rapids-samples:0.8.2-cuda10.0-runtime-ubuntu16.04
  imageCacheSize:
   50
EOF

$ kubectl create -f imagecache.yaml

3.2.3 送信後、しばらく待ってみましょう。ImageCache の状態を確認します。CACHEID は、以前のタスクをサブミットする際に指定された snapshot-id を使用している可能性があります。

$ kubectl get imagecache
NAME                AGE    CACHEID                    PHASE   PROGRESS
imagecache-rapids   3d9h   imc-uf6dxdji7txxxxx        Ready   100%

4) RAPIDSの開発環境を以下のように提出します。

$ arena serve custom \
     --name=rapids \
     --selector=type=virtual-kubelet \
     --toleration=all \
     --annotation=k8s.aliyun.com/eci-image-snapshot-id=imc-uf6dxdji7txxxxx \
     --annotation=k8s.aliyun.com/eci-instance-type=ecs.gn5i-c8g1.2xlarge \
     --gpus=1 \
     -e=PASSWORD=mypassw0rd \
     --restful-port=80 \
     --image=registry.cn-shanghai.aliyuncs.com/tensorflow-samples/rapids-samples:0.8.2-cuda10.0-runtime-ubuntu16.04
configmap/rapids-201912011815-custom-serving created
configmap/rapids-201912011815-custom-serving labeled
service/rapids-201912011815 created
deployment.extensions/rapids-201912011815-custom-serving created

前述のコードスニペットで使用されているコマンドを簡単に見てみましょう。

  • --selector=type=virtual-kubelet: 仮想ノードを使用してポッドを起動することを示します。
  • --annotation=k8s.aliyun.com/eci-instance-type=ecs.gn5i-c8g1.2xlarge: ECI コンテナグループのタイプを指定します。
  • ecs.gn5i-c8g1.2xlarge:ECIコンテナグループのタイプを指定します。Alibaba CloudのP4モデルを指します。詳細な仕様については、関連ドキュメントを参照してください。
  • --annotation=k8s.aliyun.com/eci-image-snapshot-id=imc-uf6dxdji7txxxxx: 手順 3.2.3 の CACHEID を指定します。
  • -e=PASSWORD=mypassw0rd: E=PASSWORD=mypassw0rd:環境変数PASSWORDを設定してRAPIDSノートにアクセスすることを示します。
  • -gpus=1: 申請したGPUの数を示しています。

5) ENDPOINT_ADDRESSとPORTSの組み合わせであるアクセスアドレスを表示します。この例では、106.15.173.2:80です。同時に、このタスクが32秒でRunning状態に切り替わることも確認してください。

$ arena serve list
NAME    TYPE    VERSION       DESIRED  AVAILABLE  ENDPOINT_ADDRESS  PORTS
rapids  CUSTOM  201911181827  1        1          105.13.58.3      restful:80

$ arena serve get rapids
 arena serve get rapids
NAME:             rapids
NAMESPACE:        default
VERSION:          201912011815
DESIRED:          1
AVAILABLE:        1
SERVING TYPE:     CUSTOM
ENDPOINT ADDRESS: 106.15.173.2
ENDPOINT PORTS:   restful:80
AGE:              32s

INSTANCE                                           STATUS   AGE  READY  RESTARTS  NODE
rapids-201912011815-custom-serving-6b54d5cd-swcwz  Running  32s  1/1    0         N/A

6) クラスタのGPU使用率を再度確認します。GPUリソースがすでに使用されていることに注意してください。

$ arena top node
NAME                       IPADDRESS      ROLE    STATUS  GPU(Total)  GPU(Allocated)
cn-shanghai.192.168.1.248  192.168.1.248  <none>  ready   0           0
virtual-kubelet            172.20.2.20    agent   ready   1000        1
-----------------------------------------------------------------------------------------
Allocated/Total GPUs In Cluster:
1/1000 (0%)

7) このGPUを使用しているポッドを問い合わせるには、元のコマンドに「-d」を追加して、特定のポッド名を表示します。

$ arena top node -d


NAME:       cn-shanghai.192.168.1.248
IPADDRESS:  192.168.1.248
ROLE:       <none>

Total GPUs In Node cn-shanghai.192.168.1.248:      0
Allocated GPUs In Node cn-shanghai.192.168.1.248:  0 (0%)
-----------------------------------------------------------------------------------------

NAME:       virtual-kubelet
IPADDRESS:  172.20.2.20
ROLE:       agent

NAMESPACE  NAME                                                GPU REQUESTS
default    rapids-201912011815-custom-serving-6b54d5cd-swcwz  1

Total GPUs In Node virtual-kubelet:      1000
Allocated GPUs In Node virtual-kubelet:  1 (0%)
-----------------------------------------------------------------------------------------


Allocated/Total GPUs In Cluster:  1/1000 (0%)

8) 手順4のアクセスアドレスとポートを使って、ローカルブラウザでアドレスにアクセスします。http://{ENDPOINT ADDRESS}:{ENDPOINT PORT}と入力します。この例では、アドレスは http://105.13.58.3:80 です。

注:Chromeブラウザの使用をお勧めします。

9) 前述のコマンドで設定したログオンパスワードを入力して、「Log in」ボタンをクリックします。この例では、パスワードはmypassw0rdです。

ステップ3: 画像検索デモの実行

1) デモが置かれているcumlディレクトリに移動します。
2) cuml_knn.ipynbファイルをダブルクリックします。
3) スタートアイコンをクリックします。

注:1回クリックすると1つのセルが実行されます。デモが完全に実行されるまでクリックしてください。より詳しい説明は、次の「デモの実行プロセス」を参照してください。

デモ実行プロセス
画像検索のデモは、以下の3つのステップで構成されています。デモ結果では、GPUアクセラレーションによるRAPIDS cuml KNNと、CPUのみを使用するscikit-learn KNNの性能の違いを示しています。

1) データセットの処理

1.1) データセットのダウンロードと圧縮解除

本デモでは、STL-10データセットに、96×96×3のサイズで10万枚のラベルのない画像を入れています。画像の特徴を抽出するために他のデータセットを使用しますが、これらのデータセットは同じサイズの画像を使用するようにしてください。

download_and_extract(data_dir)メソッドを使って、STL-10データセットをダウンロードし、解凍します。RAPIDSのイメージでは、データセットは./data directoryにダウンロードされます。データセットの解凍にはdownload_and_extract()メソッドを使用します。

1.2) 画像を読み取る

データセットから解凍されたデータはバイナリです。read_all_images(path_to_data)メソッドを使ってデータを読み込み、NHWCフォーマット(バッチ、高さ、幅、チャンネル)に変換します。このフォーマットでは、Tensorlowが画像の特徴を抽出することができます。

1.3) 画像を表示する

show_image(image)メソッドを使って、データセットの中からランダムな画像を表示します。

1.4) データセットを分割する

データセットを9:1の割合で2つの部分に分割します。1つは画像インデックスライブラリを作成するため、もう1つは画像を検索するために使用します。

2)画像の特徴を抽出する

TensorFlowとKerasを使って、画像の特徴を抽出します。ImageNetデータセットに基づいて事前に学習されたモデルResNet50(notop)を使用します。

2.1)TensorFlowのパラメータを設定する

デフォルトでは、TensorFlowはすべてのGPUメモリ容量を使用します。cuML用に一部のGPUメモリ容量を確保しておきます。以下の方法でGPUメモリのパラメータを設定します。

方法1:運用要件に応じてメモリを割り当てる。

config.gpu_options.allow_growth = True

方法2:比率を設定してTensorFlowが使用するメモリの量を決める。
このデモでは方法2を使用し、比率を0.3に設定しています。これは、TensorFlowがGPUメモリの30%を使用する可能性があることを示しています。必要に応じて比率を調整してください。

config.gpu_options.per_process_gpu_memory_fraction = 0.3

2.2 事前学習済みのモデルResNet50(notop)をダウンロードします。TensorFlowをパブリックネットワークに接続し、モデルをダウンロードします。モデルのサイズは約91MBです。モデルは、/root/.keras/models/directoryにダウンロードされます。

Parameter Description
weights 有効値:- None: ウェイトをランダムな値に初期化します。- imagenet: ImageNetによって事前に学習されたモデルの重みに初期値を設定します。このデモでは、このパラメータをimagenetに設定しています。
include_top 有効値:- True: ResNet50ネットワーク構造全体を含む最後の完全に接続されたレイヤー。- False: このデモでは、ニューラルネットワークモデルResNet50を使って、画像を分類するのではなく、画像の特徴を抽出しています。そのため、このパラメータを False に設定します。
input_shape このオプション・パラメータは、画像の入力形状を指定します。include_topパラメータがFalseに設定されている場合にのみ有効です。画像の幅と高さは32ミリ以上でなければなりません。このパラメーターは(96, 96, 3)に設定してください。
pooling include_topパラメーターがFalseに設定されている場合は、プーリングレイヤーモデルを設定する必要があります。 有効値:- None: 4次元のテンソルを出力。- avg:平均的なプーリングを示し、2次元のテンソルを出力。- max: 最大のプーリングを指示し、2Dテンソルを出力する。このデモでは、このパラメータをmaxに設定しています。

それでは、model.summary()メソッドを実行して、モデルのネットワーク構造を確認してみましょう。

2.3 画像特徴の抽出

分割したデータセットでmodel.predict()メソッドを呼び出し、画像の特徴を抽出します。

3) 類似画像の検索

3.1 cuML KNNを使って類似画像を検索する。

Kを3に設定すると(k=3)、最も似ている3枚の画像を検索します。Kの値は必要に応じて調整してください。指標の作成にはknn_cuml.fit()メソッドを使用します。knn_cuml.kneighbors()メソッドを使って近傍探索を行います。

KNNがベクターを検索するのにかかる時間は791ミリ秒です。

scikit-learnのKNNを使って、類似画像を検索します。Kを3に設定し(n_neighbors=3)n_jobs=-1を指定することで、すべてのCPUを使って最近傍の画像を検索します。

注: ecs.gn5i-c8g1.2xlargeモデルは8つのvCPUで構成されています。

KNN がベクターを検索するのにかかる時間は 7 分 34 秒です。

cuML KNNとscikit-learn KNNの検索結果を比較してみましょう。cuML KNN と scikit-learn KNN のベクトル検索速度を比較します。GPUアクセラレーションを用いたcuML KNNは791ミリ秒しかかかりませんが、CPUを用いたscikit-learn KNNは7分34秒かかります。cuML KNNの検索速度は、scikit-learn KNNの600倍近くになります。

cuML KNNとscikit-learn KNNの検索結果が同じであるかどうかを確認します。以下の出力配列を比較してみてください。

  • Distance: K個の最小距離値。Kは距離値の数を表します。このデモでは、1万枚の画像を検索しています。Kの値は3なので、distance.shape=(10000,3)となります。
  • Indices: 対応する画像のインデックスです。indices.shape=(10000, 3) このデモで使用したデータセットには,同一の画像が含まれています.同一の画像であっても,インデックスが異なる場合があります.そのため,結果を比較する際には,インデックスではなく,距離を用いる必要があります.計算上の偏差が存在する可能性があります。10,000枚の画像に対する3つの最小距離値の偏差が、どちらの方法でも1より小さければ、結果は同一であると考えられます。

画像検索結果
このデモでは、10,000枚の画像の中からランダムに5枚の画像を選び、その画像を使って類似した画像を検索しています。検索結果は5行4列で表示されます。

1列目には、元の5枚の画像が表示されています。2列目、3列目、4列目には、類似画像が表示されます。2列目から4列目にかけて、元画像と類似画像の類似度が下がっていきます。各類似画像のタイトルは,計算された距離であり、値が大きいほど、類似性が低いことを示しています。

ステップ4: クリーンアップ

以下のコマンドを実行して、クリーンアップを行います。

$ arena serve delete rapids
service "rapids-201912011815" deleted
deployment.extensions "rapids-201912011815-custom-serving" deleted
configmap "rapids-201912011815-custom-serving" deleted
INFO[0000] The Serving job rapids with version 201912011815 has been deleted successfully

概要

この記事では、ArenaとAlibaba Cloud Serverless Kubernetesを利用して、RAPIDSアクセラレーションデータサイエンスソリューションを低コストで高速かつシンプルに利用する方法を体験できます。

本ブログは英語版からの翻訳です。オリジナルはこちらからご確認いただけます。一部機械翻訳を使用しております。翻訳の間違いがありましたら、ご指摘いただけると幸いです。

アリババクラウドは日本に2つのデータセンターを有し、世界で60を超えるアベラビリティーゾーンを有するアジア太平洋地域No.1(2019ガートナー)のクラウドインフラ事業者です。
アリババクラウドの詳細は、こちらからご覧ください。
アリババクラウドジャパン公式ページ