GPU 服務器cuda out of memory


1.nvidia -smi 

可以查看到當前顯卡的memory,可以選擇memory剩余多的跑代碼

os.environ["CUDA_VISIBLE_DEVICES"]="2"#指定在哪塊卡上跑代碼


2.由於非正常退出會導致即使代碼停止運行,但是占着的memory依然在。那么需要

ps -aux
上面這個指令可以看到當前服務器下的各種信息
ll /proc/PID
上面這個指令將需要查看詳情的PID輸入即可,就能看到該PID的user,time等信息。

找到你的顯卡運行的PID,然后把它kill

kill -9 PID

如果kill之后,依然memory占着。此時需要查看隱藏進程:

ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'

kill 隱藏進程

OK

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM