在docker容器下pytorch分布式訓練環境搭建

docker鏡像的選擇

開始我選擇的是anaconda的鏡像，想根據conda自己構建出pytorch分布式的訓練，后來根據pytorch官方指令

conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch安裝成功了。

也檢測了GPU可用

print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)

但是出現錯誤RuntimeError: NCCL Error 2: unhandled system error經過查詢資料發現應該是NCCL包有問題。但由於我用的學校的服務器，沒有sudo權限，無法安裝，就放棄了。

然后選擇了docker中的pytorch/pytorch鏡像

容器的建立

docker run -itd --gpus all -v /home/tianll:/root/ --name pt -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all pytorch/pytorch:latest

采用的守護式容器建立，能夠把宿主機的文件和容器映射起來，還有GPU硬件的掛載這樣就創建好容器了

程序測試

發現報錯，CUDA的驅動程序太久了，然后理由同上，我無法更新驅動。然后重新利用conda按照官方conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch重新指定了版本，就能夠使用了

至於分布式訓練代碼的改變

可以查看pytorch的官方代碼

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pytorch 分布式訓練 pytorch分布式訓練 pytorch 分布式訓練 PyTorch分布式訓練基於docker容器搭建fastdfs分布式文件系統 007 linux環境下的偽分布式環境搭建 [pytorch]單多機下多GPU下分布式負載均衡訓練 linux環境下Jmeter分布式環境搭建及執行用docker搭建selenium grid分布式環境實踐之路從頭開始搭建分布式日志平台的docker環境