Install CUDA, Nvidia-driver



うるさいコダック


社内でプロジェクトを行う場合、AI開発チームは推論コードをバックエンドに接続するため、または推論コードをFastAPIに変更するためにバックエンドプロジェクトを行うが、今はバックエンドの開発に追われている.
まず、AI側の深い学習フレームワークPyTorchとTensorflowを始めるためには、cudaというやつを知る必要がある.CUDA
でもCUDAこいつは...いじめやすい友達ではなく、とても敏感な友達です.
PyTorchやTensorflowを使っているAI開発者はうまく処理していますが…
私のようにサービスを作成したバックエンド開発者は、深い学習に無知すぎます.
CUDAをインストールするには、もちろんNvidiaグラフィックスが必要です.
もう1つは、グラフィックスのみではなく、そのグラフィックスにインストールされるcuda-driverバージョンによって異なります.
まずグラフィックス情報を調べてみましょう.NVDIA HOME
//cudaバージョンとnvidia-driverバージョンをチェックする方法を作成しています...

インストール条件

  • ハードウェア(GPU)
    - Tesla T4 * 4EA
  • OS
  •   hsnam@hsnam-PowerEdge-R740:~$ cat /etc/*release
      DISTRIB_ID=Ubuntu
      DISTRIB_RELEASE=20.04
      DISTRIB_CODENAME=focal
      DISTRIB_DESCRIPTION="Ubuntu 20.04.3 LTS"
      NAME="Ubuntu"
      VERSION="20.04.3 LTS (Focal Fossa)"
      ID=ubuntu
      ID_LIKE=debian
      PRETTY_NAME="Ubuntu 20.04.3 LTS"
      VERSION_ID="20.04"
      HOME_URL="https://www.ubuntu.com/"
      SUPPORT_URL="https://help.ubuntu.com/"
      BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
      PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
      VERSION_CODENAME=focal
      UBUNTU_CODENAME=focal
  • カーネル情報
  • - 커널 정보
    hsnam@hsnam-PowerEdge-R740:~$ uname -a
    Linux hsnam-PowerEdge-R740 5.11.0-27-generic #29~20.04.1-Ubuntu SMP Wed Aug 11 15:58:17 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
  • ドライバのインストール
    - CUDA 11.2
    - Nvidia-driver-460
  • install cuda-11.2

  • 構成(スタンバイディスクのプリマウント)
  • sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get install -y build-essential cmake unzip pkg-config
    sudo apt-get install -y libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev
    sudo apt-get install -y libjpeg-dev libpng-dev libtiff-dev
    sudo apt-get install -y libavcodec-dev libavformat-dev libswscale-dev libv4l-dev
    sudo apt-get install -y libxvidcore-dev libx264-dev
    sudo apt-get install -y libgtk-3-dev
    sudo apt-get install -y libopenblas-dev libatlas-base-dev liblapack-dev gfortran
    sudo apt-get install -y libhdf5-serial-dev graphviz
    sudo apt-get install -y python3-dev python3-tk python-imaging-tk
    sudo apt-get install -y linux-image-generic linux-image-extra-virtual
    sudo apt-get install -y linux-source linux-headers-generic

    Install NVIDIA-DRIVER

    sudo apt-get purge nvidia*
    
    sudo add-apt-repository ppa:graphics-drivers/ppa
    sudo apt-get update
    
    ubuntu-drivers devices
    
    sudo apt-get install -y nvidia-driver-460

    reboot server

    sudo reboot

    check nvidia-smi

    nvidia-smi

    install cuda 11.2

    wget https://developer.download.nvidia.com/compute/cuda/11.2.2/local_installers/cuda_11.2.2_460.32.03_linux.run
    sudo sh cuda_11.2.2_460.32.03_linux.run
  • DO NOT check the option of installing the driver!!!
  • 例)Driver-460チェックをキャンセル!!
    ロックを解除する理由は、cudaのインストール時にnvidiadriverに設定したためですが、インストール時に上記の対応するカーネルバージョンでは、nvidia-driverバージョンではインストールできないという問題があり、手動でインストールするためにロックを解除します.
    これらの点でcudaはインストールから難しい.
  • Set environmental

    sudo nano ~/.bashrc
    
    export PATH=/usr/local/cuda-11.2/bin${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    export CUDA_HOME=/usr/local/cuda

    check

    nvidia-smi
    nvcc -V