在docker容器下pytorch分布式训练环境搭建

docker镜像的选择

开始我选择的是anaconda的镜像，想根据conda自己构建出pytorch分布式的训练，后来根据pytorch官方指令

conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch安装成功了。

也检测了GPU可用

print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)

但是出现错误RuntimeError: NCCL Error 2: unhandled system error经过查询资料发现应该是NCCL包有问题。但由于我用的学校的服务器，没有sudo权限，无法安装，就放弃了。

然后选择了docker中的pytorch/pytorch镜像

容器的建立

docker run -itd --gpus all -v /home/tianll:/root/ --name pt -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all pytorch/pytorch:latest

采用的守护式容器建立，能够把宿主机的文件和容器映射起来，还有GPU硬件的挂载这样就创建好容器了

程序测试

发现报错，CUDA的驱动程序太久了，然后理由同上，我无法更新驱动。然后重新利用conda按照官方conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch重新指定了版本，就能够使用了

至于分布式训练代码的改变

可以查看pytorch的官方代码

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Pytorch 分布式训练 pytorch分布式训练 pytorch 分布式训练 PyTorch分布式训练基于docker容器搭建fastdfs分布式文件系统 007 linux环境下的伪分布式环境搭建 [pytorch]单多机下多GPU下分布式负载均衡训练 linux环境下Jmeter分布式环境搭建及执行用docker搭建selenium grid分布式环境实践之路从头开始搭建分布式日志平台的docker环境