slurm


查看作業狀態

查看當前用戶的作業狀態,可以使用如下命令:

squeue

例如:

JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
33762    normal  nstest1   wangwu  R       0:03      2 h05r4n[15-16]

參數說明:

關鍵詞 含義
JOBID job的id號,每個成功提交的任務都會有唯一的id
PARTITION 計算分區名
NAME 任務名,默認以提交腳本的名稱當作任務名
USER 用戶名,提交該任務的用戶名
ST 任務狀態:PD排隊;R運行;S掛起;CG正在退出
TIME 任務運行時間
NODES 任務作占節點數,例子中為2個
NODELIST(REASON) 任務所占節點列表,如果是排隊狀態的任務,則會給出排隊原因

備注:常見排隊原因:

  • AssociationResourceLimit:關聯的資源限制已滿 — 賬戶有使用節點數限制,已經用滿了。
  • Resources:當前可用資源不能滿足作業需求 — 系統的可用節點資源不足
  • Dependency:作業的依賴關系未滿足 — 作業之間有依賴關系,依賴的作業沒完成
  • PartitionDown:作業所在的分區處於 down 狀態 — 分區down,所以節點不可用。

取消作業

如果提交作業后,發現有些輸入文件參數設置錯了,或者其他原因想停止這個作業,可以先使用squeue找到該作業的id號,如100001,然后使用如下命令殺掉任務:

scancel 100001


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM