寫下自己的關於slurm感悟一二
與各人pc不同,slurm的基本架構是,一個中專節點,之后有很多局域網ip對應不同的計算節點,在中專節點敲命令,命令中可以指定需要用到哪些計算節點
1. 查看有哪些分區 sinfo命令
2. 指定節點跑程序srun,比如這里我有一個run.py的文件,是print(1)
slurm最基本的命令是srun,比如上面一行是指定-p分區,-w節點名稱運行一個run.py的文件,當然還有更高級的,指定gpu的數量和指定進程的數量
比如上面的命令,--gres=gpu:8表示每個節點上用幾個gpu,-n表示有多少個進程,一般多線程的時候,用到多卡的時候會這么操作
3. 查看自己任務的run的情況,squeue -u +用戶
比如上圖,我運行了ipython命令,然后我用squeue -u +我的用戶名,查看了一下我的任務占據的節點的名稱,分區jobid等等,這個命令的主要作用還是有時候機器用完的時候,排隊用機器,看看排隊情況,或者是不指定節點名稱的時候(剛剛我們說的-w指定節點名稱,實際上也可以不指定,這個時候slurm系統自動分配),看看節點名稱是多少,方便后續操作
4. 查看gpu使用情況
swatch +節點名稱+nv
因為放到了cuda里面,確實占用一定的顯存
查看cpu:swatch+節點名稱+top
查看內存:swatch+節點名稱+free
查看內存或者是gpu的使用的時候,可以使多個節點一起看,中間用逗號隔開即可