在docker容器下pytorch分布式训练环境搭建
docker镜像的选择
开始我选择的是anaconda的镜像,想根据conda自己构建出pytorch分布式的训练,后来根据pytorch官方指令
conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch
安装成功了。
也检测了GPU可用
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)
但是出现错误RuntimeError: NCCL Error 2: unhandled system error
经过查询资料发现应该是NCCL包有问题。但由于我用的学校的服务器,没有sudo权限,无法安装,就放弃了。
然后选择了docker中的pytorch/pytorch镜像
容器的建立
docker run -itd --gpus all -v /home/tianll:/root/ --name pt -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all pytorch/pytorch:latest
采用的守护式容器建立,能够把宿主机的文件和容器映射起来,还有GPU硬件的挂载这样就创建好容器了
程序测试
发现报错,CUDA的驱动程序太久了,然后理由同上,我无法更新驱动。然后重新利用conda按照官方conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch
重新指定了版本,就能够使用了
至于分布式训练代码的改变
可以查看pytorch的官方代码