slurm作業提交系統常用命令


寫下自己的關於slurm感悟一二

與各人pc不同,slurm的基本架構是,一個中專節點,之后有很多局域網ip對應不同的計算節點,在中專節點敲命令,命令中可以指定需要用到哪些計算節點

1. 查看有哪些分區 sinfo命令

2. 指定節點跑程序srun,比如這里我有一個run.py的文件,是print(1)

slurm最基本的命令是srun,比如上面一行是指定-p分區,-w節點名稱運行一個run.py的文件,當然還有更高級的,指定gpu的數量和指定進程的數量

比如上面的命令,--gres=gpu:8表示每個節點上用幾個gpu,-n表示有多少個進程,一般多線程的時候,用到多卡的時候會這么操作

3. 查看自己任務的run的情況,squeue -u +用戶

比如上圖,我運行了ipython命令,然后我用squeue -u +我的用戶名,查看了一下我的任務占據的節點的名稱,分區jobid等等,這個命令的主要作用還是有時候機器用完的時候,排隊用機器,看看排隊情況,或者是不指定節點名稱的時候(剛剛我們說的-w指定節點名稱,實際上也可以不指定,這個時候slurm系統自動分配),看看節點名稱是多少,方便后續操作

4. 查看gpu使用情況

swatch +節點名稱+nv

因為放到了cuda里面,確實占用一定的顯存

查看cpu:swatch+節點名稱+top

查看內存:swatch+節點名稱+free

查看內存或者是gpu的使用的時候,可以使多個節點一起看,中間用逗號隔開即可


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM