본문 바로가기

Error 해결 및 유용한 방법들

Failed to initialize NVML: Unknown Error

처음에 GPU로 도커 컨테이너를 시작하면 제대로 작동하고 도커에 모든 GPU가 표시됩니다.

 

그런데 사용한지 몇 시간이 지나면 Docker에서 GPU를 사용할 수 없게 됩니다.

 

nvidia-smi
"Failed to initialize NVML: Unknown Error"

 

nvidia-smi 명령어 사용시 다음과 같이 Failed to initialize NVML: Unknown Error가 발생합니다.

 

하지만 호스트 컴퓨터에는 nvidia-smi가 있는 GPU가 모두 표시가 잘 됩니다!!

 

이런 경우에  해결 방법은 다음과 같습니다.

 

1. 호스트 컴퓨터에소 daemon을 reload합니다.

sudo systemctl daemon-reload

 

2. daemon.json 파일 setting

sudo nano /etc/docker/daemon.json

 

nano를 사용해서 작성할 내용은 아래와 같습니다.

 

{  
   "runtimes": {  
       "nvidia": {  
           "args": [],  
           "path": "nvidia-container-runtime"  
       }  
   },  
   "exec-opts": ["native.cgroupdriver=cgroupfs"]  
}

 

 

3. 마지막으로 docker 서비스를 재시작해줍니다.

sudo service docker restart