처음에 GPU로 도커 컨테이너를 시작하면 제대로 작동하고 도커에 모든 GPU가 표시됩니다.
그런데 사용한지 몇 시간이 지나면 Docker에서 GPU를 사용할 수 없게 됩니다.
nvidia-smi
"Failed to initialize NVML: Unknown Error"
nvidia-smi 명령어 사용시 다음과 같이 Failed to initialize NVML: Unknown Error가 발생합니다.
하지만 호스트 컴퓨터에는 nvidia-smi가 있는 GPU가 모두 표시가 잘 됩니다!!
이런 경우에 해결 방법은 다음과 같습니다.
1. 호스트 컴퓨터에소 daemon을 reload합니다.
sudo systemctl daemon-reload
2. daemon.json 파일 setting
sudo nano /etc/docker/daemon.json
nano를 사용해서 작성할 내용은 아래와 같습니다.
{
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
},
"exec-opts": ["native.cgroupdriver=cgroupfs"]
}
3. 마지막으로 docker 서비스를 재시작해줍니다.
sudo service docker restart
'Error 해결 및 유용한 방법들' 카테고리의 다른 글
WSL2: nvidia-container-cli mount error, libnvidia-ml.so.1: file exists: unknown (1) | 2024.03.23 |
---|---|
[drm:nv_drm_master_set [nvidia_drm]] *ERROR* [nvidia-drm] [GPU ID 0x00000100] Failed to grab modeset ownership (0) | 2024.03.04 |
sudo apt update 404 issue (2) | 2023.12.06 |
우분투 이유 없이 계속 리부팅 되는 이슈 (0) | 2023.12.06 |
ERROR: Failed to download 발생 .. (0) | 2023.11.06 |