PBS作業提出後、エラーMPI_を出力します.アボット


個人ブログの住所:http://blog.zhangchi.xyz交流に来てください.
まず具体的な内容のスクリーンショットを見ます.
実はMPI_を出力しますAbortメッセージの一般的な原因は、ネットワークエラーによるMPIプロセスの異常終了、すなわちInfinibandネットワークの障害による問題である.
ホーム/sceディレクトリの下にPBSのシナリオがあります.脚本の内容は以下の通りです.
#!/bin/bash
mpirun -np 16 /home/sce/software/dl_poly_4.05/execute/DLPOLY.Z
このスクリプトファイルはとても簡単で、何も指定されていません.スクリプト中のコマンドをクラスタのあるノードに直接出力すると、正常に動作します.
でもTorqueを通じて任務を提出します.
qsub job.sub
そして実行します
qstat
作業の実行状況を確認したところ、作業はすぐに運転状態Rから状態Cになりました.作業の出力ファイルとエラーファイルを確認します.出力ファイルには何の情報もないことが分かりました.エラーファイルには以下のようなエラーがあります.作業シナリオで指定されたCPUコア数は16ですので、16 MPI_があります.Abort問題は、npパラメータの値を修正すると、MPI_Abortの数も一緒になります.
最初はMPIの運転環境かTorqueの運転環境がよく設定されていないと一致しました.これらの環境の配置に常に力を入れています.何度も環境を再インストールしました.環境設定に成功した後、MPI Hello WorldプログラムとPI値を計算するプログラムを実行しました.この二つのプログラムはMPIを通じて直接運行しても、Torque多マシンを通じて運行しても、正常に動作できます.エラーがありますが、XRDです.つまり、Infinibandドライバのバージョンが古い問題以外に、結果は正しいです.
job.subのmpirunコマンドを手動で実行することで、正常に動作することができるので、作業自体は大丈夫だと思います.PBSスケジューリングシステムの問題か、MPIとPBSを組み合わせて配置するところに問題があります.
このままずっと苦しめていましたが、ハローワールドとCPIプログラムを実行してもいいと気づいた時には、jos.subに問題がありました.その後何度もQsub job.subを通して宿題を提出しましたが、偶然にも/home/sceの下にOUTファイルがありました.この文書の修正時間と宿題の提出時間が近いことが分かりました.しかもこのファイルはもともとないです.そしてスクリプトを提出して実行した後に現れました.そこで中の内容を調べてみました.上で提示したCONFIGファイルは存在しないので、作業経路の問題ではないかと思います.自分のjob.sub脚本はディレクトリ/home/sce/ap/DL_に座っています.POLY/1/フォルダの下にはありますが、Torqueによって提出された後、デフォルトの作業ディレクトリはユーザのホームディレクトリですので、CONFIGファイルが見つからなくて、エラーを提示しました.そこで、シナリオの所在経路の下のすべてのファイルをユーザのホーム/secの下にコピーしました.作業管理システムを通じて正常に実行できます.また、多くのマシンの場合も正常に動作します.
翌日スクリプトにまた問題がありました.mpを通して直接運行したり、作業スクリプトを通して直接運行したりして、MPI_を提示しています.Abortエラーで、OUTファイルはずっと出力されています.また、CONFIGファイルが存在しないことをヒントにして、CONFIGファイルをコピーしてきました.正常に戻りました.
一週間の繰り返しを経て、シナリオが実行できなくなる根本的な原因は経路問題、つまりシナリオがあるディレクトリはPBSの作業ディレクトリではなく、PBS作業ディレクトリはユーザホームディレクトリの下にあるので、プログラムの関連ファイルもユーザのホームディレクトリにコピーする必要があります.
自分で問題を解決する過程を反省して、ずっとMPI環境とTorque環境を配置していますが、プログラムの構造と出力ファイルをよく調べていませんでした.しかし、このプログラムは確かに結果をjob.sub.o 122ファイルに出力していません.
今回のデバッグの過程から、非常に重要な経験をまとめました.このような問題を解決するには、ボトムアップの解決方法に従って、まず小さい頃から問題点を検査し始めます.さもなくば時間を浪費することができて、むだな道を歩いて、私の従う方式はトップダウンからで、だから多くの工夫を使って、最後に問題は一番下で出して、プログラムの使用方式は正しくありませんかますプログラムのパスの問題を言います.
個人ブログの住所:http://blog.zhangchi.xyz交流に来てください.