在docker容器下pytorch分布式训练环境搭建


在docker容器下pytorch分布式训练环境搭建

docker镜像的选择

开始我选择的是anaconda的镜像,想根据conda自己构建出pytorch分布式的训练,后来根据pytorch官方指令

conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch安装成功了。

也检测了GPU可用

print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)

但是出现错误RuntimeError: NCCL Error 2: unhandled system error经过查询资料发现应该是NCCL包有问题。但由于我用的学校的服务器,没有sudo权限,无法安装,就放弃了。

然后选择了docker中的pytorch/pytorch镜像

容器的建立

docker run -itd --gpus all -v /home/tianll:/root/ --name pt -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all pytorch/pytorch:latest

采用的守护式容器建立,能够把宿主机的文件和容器映射起来,还有GPU硬件的挂载这样就创建好容器了

程序测试

发现报错,CUDA的驱动程序太久了,然后理由同上,我无法更新驱动。然后重新利用conda按照官方conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch重新指定了版本,就能够使用了

至于分布式训练代码的改变

可以查看pytorch的官方代码


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM