深層学習とかでのGPUを使ったtensorflowいきなり動かなくなった、への対処


目的

以下の環境で、GPUを使った深層学習がいきなり動かなくなった。

OS:windows10
GPU:GeForce GTX 1070
パソコン:(省略)ゲーミング?ノートパソコン

また、tensorflowがらみな感じのは、

tensorboard              1.14.0
tensorboardX             1.9
tensorflow               1.14.0
tensorflow-estimator     1.14.0
tensorflow-gpu           1.14.0
tensorflow-gpu-estimator 2.1.0

が、インストールされた状態。
対処方法を示す。

対処方法

動かなくなったきっかけ

学習実行時に、Ctrl+Cで、処理を止めた。

動かなくなった状態

再度、学習を実行しようとした場合に、

2020-04-19 15:36:34.104585: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] GPU libraries are statically linked, skip dlopen check.
2020-04-19 15:36:34.111310: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1763] Adding visible gpu devices: 0

C:\_work\_

何のエラーも出ず、プロンプトに戻ってしまう。

対処方法

パソコンの再起動等は、やってみたが、ダメで。

ここからは、勘で、
tensorflow-gpu 1.14.0
を入れなおすことをひらめいた。

tensorflow-gpu 1.14.0
をuninstallしようとすると、アクセスエラーか何かが出た。(脈あり)

フォルダ毎、消そうとおもって、tensorflowがらみをすべてuninstallしたら、
tensorflow-gpu 1.14.0
もuninstallできた、というか、uninstall済みたいな応答を得た。

ここから、再度、tenforflow等をインストール
結果、動くようになった。
(インストールは、当然、バージョン指定で、'tensorflow-gpu==1.14.0'みたいな感じで、元通りにしました。)

先ほどのところで止まらずに、動き始めた。

2020-04-19 16:04:06.169138: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1763] Adding visible gpu devices: 0
2020-04-19 16:04:06.172271: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1181] Device interconnect StreamExecutor with strength 1 edge matrix:
2020-04-19 16:04:06.176606: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1187]      0
2020-04-19 16:04:06.179549: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1200] 0:   N

対処の整理

「動かなくなったきっかけ」が、Ctrl+Cのせいかどうかは、わからない。
「対処方法」が、tensorflowがらみをすべてuninstallしての再installが効果があったのか、いろいろやっているうちに、時間が経過して、パソコンの機嫌が直ったのかは、不明。

その他、得られた知見

Python + GPUは、なんか、何のエラーもなく、終了することがある気がする。
(エラーをなんとかひらう手段も、よく知りません。)
以前にも、経験したような気がする。

まとめ

特にありません。
この雑な情報が、どなたかの役に立てば、幸甚。
(同じところで、止まった、同じようにしたら治った等の情報があれば、気が向いたら、教えて下さい。)