Azure CycleCloudでData Science VMベースのslurmクラスターを作成できない問題への対処法


問題

Azure CycleCloudでData Science VM (DSVM) イメージを使用してslurmクラスターを作成しようとしてもエラーが発生しクラスターの立ち上げができない。

  • DSVMイメージはmaster, hpc, htcのクラスターに使用する
  • 使用しているイメージのURNはmicrosoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntu:20.01.09
    • ※別バージョンのURN (microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntubyol:20.01.09)を使用しても同様のエラーが発生。

下記のようなエラーメッセージが表示されてしまう。

対処法

要因

どうやらslurmジョブスケジューラーで使用するmunge userのUID/GIDが競合してしまうことが原因のようです。他のUID/GIDへと変更することで解決できました。

手順

master node, htc/hpc nodearraysの設定 (configuration画面)に下記を入力します。

munge.user.gid = 994
munge.user.name = munge
munge.user.uid = 994
slurm.hpc = true
slurm.user.gid = 11100
slurm.user.name = slurm
slurm.user.uid = 11100

Cyclecloudの管理サーバーUI -> masterをクリック -> Edit -> Configuration 欄に上記設定を入力する。

最初から入力されている設定を可能な限り残しつつ、重複するものは消して上記設定を入力しました。

結果

無事にDSVMを使用したslurmクラスターのデプロイができました!

参考