服务器上运行程序Out of memory 解决办法


 ****** 服务器上跑过程序经常能遇到out of memory 这个问题,下面是我经常在实验室碰到的解决方法。

1.使用命令nvidia-smi,看到GPU显存被占满:

2.尝试使用 ps aux|grep PID命令查看占用GPU内存的线程的使用情况。如下

解决办法:

1.根据以上操作即可确认同与你使用一台服务器的其他人是谁在占用GPU。与对方沟通后如果程序已经跑完但是仍在占用显存可KILL掉该进程。

***因服务器资源有限,大家在使用过程中及时互相沟通,保证机器利用效率。

2.多GPU的服务器在程序训练EPOCH 较多的时候应该指定GPU_DEVICE,不要占用全部资源。

3.使用jupyter的同学在程序结束后应当及时在RUNNING界面将程序shutdown,否则该程序还会一直占用资源。(如下)


 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM