服務器上運行程序Out of memory 解決辦法


 ****** 服務器上跑過程序經常能遇到out of memory 這個問題,下面是我經常在實驗室碰到的解決方法。

1.使用命令nvidia-smi,看到GPU顯存被占滿:

2.嘗試使用 ps aux|grep PID命令查看占用GPU內存的線程的使用情況。如下

解決辦法:

1.根據以上操作即可確認同與你使用一台服務器的其他人是誰在占用GPU。與對方溝通后如果程序已經跑完但是仍在占用顯存可KILL掉該進程。

***因服務器資源有限,大家在使用過程中及時互相溝通,保證機器利用效率。

2.多GPU的服務器在程序訓練EPOCH 較多的時候應該指定GPU_DEVICE,不要占用全部資源。

3.使用jupyter的同學在程序結束后應當及時在RUNNING界面將程序shutdown,否則該程序還會一直占用資源。(如下)


 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM