반응형
1. 캐시 삭제
import torch, gc
gc.collect()
torch.cuda.empty_cache()
2. GPU process 강제종료
$ nvidia-smi
process PID kill
Python 프로세스가 종료되더라도 child process가 zombie 상태로 남아있는 것임.
Zombie 상태의 Python 프로세스는
ps aux | grep python
명령어를 치면 Python <defunct\> 인 프로세스가 나온다.
이 프로세스 + Parent Process까지 Kill하면 GPU memory를 반환한다.
sudo kill -15 PID
참고
Python 프로세스를 종료시켜도 GPU Memory를 반환하지 않고, nvidia-smi에 process ID가 나오지 않을 때 해
Pytorch의 DDP를 사용하던 중, 학습을 종료시키고자 Ctrl+C를 입력하여 프로세스를 종료하였다. 그러나 GPU Memory를 반환하지 않았으며, Process를 Kill하기 위해 nvidia-smi 또는 ps 명령어를 이용하려고 했
velog.io
정상적으로 종료되지 않은 노드 프로세스 에러 해결 및 안전하게 프로세스를 종료시키는 방법
NodeJS 프로세스가 충동하는 경우 발생하는 에러 해결 및 kill 명령어로 안전하게 Linux, Unix 프로세스를 종료시키는 방법 소개
woo1031.vercel.app
반응형
'Computer' 카테고리의 다른 글
ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (1) | 2024.04.22 |
---|---|
딥러닝 학습 시 tmux 세션 중단 현상 해결 (1) | 2024.04.17 |
Ubuntu18.04 에서 Ubuntu20.04 로 업데이트 하기 (1) | 2024.04.08 |
Ubuntu20.04 Nvidia driver 삭제 및 재설치 (1) | 2024.04.08 |
vscode SSH reload 무한 새로고침 해결 (1) | 2024.04.07 |