nvidia-smiファンと電源表示ERR(Fan and Usage ERR)

5327 ワード

もんだいぶんせき
グラフィックスカードに多くのプログラムを長時間実行したため、グラフィックスカードが過熱し、問題が発生した.
解決策
  • グラフィックス上で実行されているプログラムをすべて停止すると、ERRは
  • を消去します.
  • ビデオカードのpersistence modeを設定し、このチュートリアルに従います.
  • 最大稼働電力を制限
  • sudo nvidia-smi -pl 200 -i 2 #    2      200
    

    再運転nvidia-smi表示カード2の運転電力は調整済み
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  GeForce RTX 208...  On   | 00000000:88:00.0 Off |                  N/A |
    | 22%   36C    P8    19W / 250W |      0MiB / 11019MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   1  GeForce RTX 208...  On   | 00000000:8B:00.0 Off |                  N/A |
    | 22%   35C    P8    18W / 250W |      0MiB / 11019MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   2  GeForce RTX 208...  Off  | 00000000:DB:00.0 Off |                  N/A |
    | 22%   37C    P8    20W / 200W |      0MiB / 11019MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   3  GeForce RTX 208...  On   | 00000000:DE:00.0 Off |                  N/A |
    | 48%   57C    P2    84W / 250W |   9469MiB / 11019MiB |     28%      Default |
    +-------------------------------+----------------------+----------------------+
    

    注:単独で1つのプログラムを走る時、200 Wの電力はすでに十分で、熱の過多な問題を緩和することができる.他のカードにこのようなことがない場合、最大電力を調整する必要がない.
    リファレンス
  • ファン回転数
  • を制御する.
  • ビデオカードを再起動してもこの問題は解決できます
  • #       
    sudo rmmod nvidia_uvm
    sudo modprobe nvidia_uvm