Ubuntu18.04LTS : 2080ti*2で学習したいけどよくわからんエラー吐くよ(故障)


きっと環境構築が悪いんだろうな...

と思っていましたが,2080tiの片方だけが単純に初期不良だったっていうのがオチです.原因に気づくまでに3,4日虚無な時間を過ごしていました.Nvlink SLIも装着してたので,もしかしたらこの子が悪さしてるのかもしれないとかも思ってました.

どんな症状?

keras+tensorflow-gpuで学習しようとしたらエラー

全部載せきれてないですがこんな感じのエラー吐かれます.

エラー
failed to synchronize the stop event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
Check failed: status == CUDNN_STATUS_SUCCESS (7 vs. 0)Failed to set cuDNN stream.

検索したらtensorflow-gpuのバージョンを変えたらエラー吐かないよっていうコメントもありましたが、今回の場合は想定外ですね

マザボからGPU引っこ抜いて単体テストした時のエラー

ログインした後の画面です.
ノイズがのっているうえに,ものすごく重たい.

解決策

ハードそのものが悪さしてるかもしれないので,GPUを片方ずつ引っこ抜いて単体テストしましょう.2080tiはまだ発売されたばかりなので,初期不良が多いとか.こんなの当たり前だろ記事で誰が救えるかはわかりませんが,メモ程度に置いときます.
さよならGPU

追記

おかえりGPU
無事に修理されて動く子になりました.
その後,Nvlink SLI装着してみましたが,VRAMはプールして 11G+11G=22G にはならないらしいですね…残念