關於pytorch分布式訓練dist.barrier()產生死鎖的問題


1. 安裝nccl庫支持

2. 導入環境變量:

vim /etc/profile

export NCCL_P2P_DISABLE=1  
export NCCL_IB_DISABLE=1
https://gitee.com/573363031/baidu_ai_security_advbox/blob/master/paddle.md


source /etc/profile


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM