存在空闲CUDA前提下报错：RuntimeError: CUDA error: out of memory

本文转载自查看原文 2021-09-17 09:36 111 安装/下载/问题解决/说明

问题背景：

最近跑代码时发现报错CUDA out of memory，进入linux终端查看GPU使用情况（nvidia-smi），结果如下：

我用的GPU序号是0，但这块被人占用了，所以我可以用剩下的3号和4号。

解决方案：

在代码中更改GPU使用序号（修改/添加代码）：

1 import os 2 
3 os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3"
4 args.device = torch.device('cuda:{}'.format(2) if torch.cuda.is_available() else 'cpu')

os是列举出可用的GPU序号, args选择可用的index为2的序号，因此也为2.

可能出现的问题：代码中有些位置没有使用arg.device，而是直接使用model.cuda()，因为此时默认的序号0的GPU被占用，同样会报错：cuda out of memory

解决方法：需要修改代码为model.to(arg.device)

可能

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 *** RuntimeError: CUDA error: out of memory. 解决RuntimeError: CUDA error: out of memory RuntimeError: CUDA error:out of memory的一种解决办法 CUDA_ERROR_OUT_OF_MEMORY RuntimeError: CUDA error: an illegal memory access was encountered No decoder surfaces left 和 CUDA_ERROR_OUT_OF_MEMORY的报错解决 ubuntu查看并杀死自己之前运行的进程解决办法RuntimeError: CUDA error: out of memory torch.load CUDA ERROR: out of memory 解决CUDA out of memory 显存充足，但是却出现CUDA error:out of memory错误