pytorch 分布式训练

本文转载自查看原文 2020-10-13 19:16 493 pytorch

1.初始化进程组
dist.init_process_group(backend="nccl")
backend是后台利用nccl进行通信

2.使样本之间能够进行通信
train_sampler = torch.utils.data.distributed.DistributedSampler(trainset)

3.创建ddp模型
model = DDP(model,device_ids=[local_rank],output_device=local_rank,find_unused_parameters=True)

获得local_rank(在运行launch时会传入一个local_rank参数)
local_rank = torch.distributed.local_rank()
torch.cuda.set_device(local_rank)

运行脚本
CUDA_VISIBLE_DEVICES=$device python -m torch.distributed.launch --nproc_per_node=1 train.py

保存模型(注意只需保存主进程上的模型，保存的是ddp模型的module)

if dist.get_rank() == 0: torch.save(model.module, "model.pth")

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Pytorch 分布式训练 pytorch分布式训练 PyTorch分布式训练 [源码解析] PyTorch 分布式之弹性训练(6)---监控/容错 [源码解析] PyTorch 分布式之弹性训练(3)---代理 [源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路使用Pytorch进行单机多卡分布式训练 pytorch 分布式训练 local_rank 问题在docker容器下pytorch分布式训练环境搭建 [源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎