본문 바로가기
인공지능

RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR PyTorch lightning 런타임 에러 (해결)

by judy@ 2023. 8. 21.

에러 상황

darts 라는 시계열 데이터를 위한 라이브러리에서 RNN 모델을 사용하기 위해 model.fit을 했는데 에러가 발생함

 

- 아무리 생각해도, cuda-cudnn이 꼬였다면 pytorch, tensorflow로 모델을 만들어 학습했을 때도 안될 거 같은데 잘 되었다. 그래서 이건 아닌 것 같다는 결론

- torch는 gpu를 인식하는가? 너무 잘 한다. 확인 방법은 여기

 

기존 라이브러리 버전

$ pip list | grep torch
pytorch-lightning             2.0.6
torch                         2.0.1
torchmetrics                  1.0.2

$ pip list | grep cuda
nvidia-cuda-cupti-cu11        11.7.101
nvidia-cuda-nvrtc-cu11        11.7.99
nvidia-cuda-runtime-cu11      11.7.99

$ pip list | grep cu
executing                     1.2.0
nvidia-cublas-cu11            11.10.3.66
nvidia-cuda-cupti-cu11        11.7.101
nvidia-cuda-nvrtc-cu11        11.7.99
nvidia-cuda-runtime-cu11      11.7.99
nvidia-cudnn-cu11             8.6.0.163
nvidia-cufft-cu11             10.9.0.58
nvidia-curand-cu11            10.2.10.91
nvidia-cusolver-cu11          11.4.0.1
nvidia-cusparse-cu11          11.7.4.91
nvidia-nccl-cu11              2.14.3
nvidia-nvtx-cu11              11.7.91

$ pip list | grep light
lightgbm                      3.3.5
lightning-utilities           0.9.0
pytorch-lightning             2.0.6

그러다가 다시 시도해보니 에러메시지가 살짝 바뀌었다. torch 가 아니라 torch lightning 문제일 수 있을 것 같아서, 해당 라이브러리를 깔아봤는데 갑자기 잘됐다..!

RuntimeError: Lightning can't create new processes if CUDA is already initialized. Did you manually call `torch.cuda.*` functions, have moved the model to the device, or allocated memory on the GPU any other way? Please remove any such calls, or change the selected strategy. You will have to restart the Python kernel.

 

해결한 방법

darts를 깔 때 자동으로 깔린 lightning 의 버전 문제가 있었던 것으로 보임. 혹시 몰라, 아래 명령어를 입력한 뒤 학습을 수행하니, 어이가 없게도 바로 학습이 잘되어버린다..

python -m pip install lightning

 

학습되는 것을 확인한 뒤, 라이브러리 목록을 확인해보니 lightning과 lightning-cloud가 설치된 것을 알 수 있다..ㅠㅠ

$ pip list | grep light
lightgbm                      3.3.5
lightning                     2.0.7
lightning-cloud               0.5.37
lightning-utilities           0.9.0
pytorch-lightning             2.0.6
반응형