在超算系統上使用sbatch提交MXNet分布式訓練任務
在超算系統上運行MXNet分布式訓練任務時,面臨着一個IP地址相關的問題。我們在提交MXNet的分布式任務時,需要知道各個GPU節點的IP地址,把這些IP地址放到一個hosts文件中,以供分布式訓練使 ...
在超算系統上運行MXNet分布式訓練任務時,面臨着一個IP地址相關的問題。我們在提交MXNet的分布式任務時,需要知道各個GPU節點的IP地址,把這些IP地址放到一個hosts文件中,以供分布式訓練使 ...