Azure CycleCloudでData Science VMベースのslurmクラスターを作成できない問題への対処法
問題
Azure CycleCloudでData Science VM (DSVM) イメージを使用してslurmクラスターを作成しようとしてもエラーが発生しクラスターの立ち上げができない。
- DSVMイメージはmaster, hpc, htcのクラスターに使用する
- 使用しているイメージのURNは
microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntu:20.01.09
- ※別バージョンのURN (
microsoft-ads:linux-data-science-vm-ubuntu:linuxdsvmubuntubyol:20.01.09
)を使用しても同様のエラーが発生。
- ※別バージョンのURN (
対処法
要因
どうやらslurmジョブスケジューラーで使用するmunge userのUID/GIDが競合してしまうことが原因のようです。他のUID/GIDへと変更することで解決できました。
手順
master node, htc/hpc nodearraysの設定 (configuration画面)に下記を入力します。
munge.user.gid = 994
munge.user.name = munge
munge.user.uid = 994
slurm.hpc = true
slurm.user.gid = 11100
slurm.user.name = slurm
slurm.user.uid = 11100
Cyclecloudの管理サーバーUI -> masterをクリック -> Edit -> Configuration 欄に上記設定を入力する。
最初から入力されている設定を可能な限り残しつつ、重複するものは消して上記設定を入力しました。
結果
無事にDSVMを使用したslurmクラスターのデプロイができました!
参考
Author And Source
この問題について(Azure CycleCloudでData Science VMベースのslurmクラスターを作成できない問題への対処法), 我々は、より多くの情報をここで見つけました https://qiita.com/aical/items/27db5465e60e2903b049著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .