查看作業狀態
查看當前用戶的作業狀態,可以使用如下命令:
squeue
例如:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
33762 normal nstest1 wangwu R 0:03 2 h05r4n[15-16]
參數說明:
關鍵詞 | 含義 |
---|---|
JOBID | job的id號,每個成功提交的任務都會有唯一的id |
PARTITION | 計算分區名 |
NAME | 任務名,默認以提交腳本的名稱當作任務名 |
USER | 用戶名,提交該任務的用戶名 |
ST | 任務狀態:PD排隊;R運行;S掛起;CG正在退出 |
TIME | 任務運行時間 |
NODES | 任務作占節點數,例子中為2個 |
NODELIST(REASON) | 任務所占節點列表,如果是排隊狀態的任務,則會給出排隊原因 |
備注:常見排隊原因:
- AssociationResourceLimit:關聯的資源限制已滿 — 賬戶有使用節點數限制,已經用滿了。
- Resources:當前可用資源不能滿足作業需求 — 系統的可用節點資源不足
- Dependency:作業的依賴關系未滿足 — 作業之間有依賴關系,依賴的作業沒完成
- PartitionDown:作業所在的分區處於 down 狀態 — 分區down,所以節點不可用。
取消作業
如果提交作業后,發現有些輸入文件參數設置錯了,或者其他原因想停止這個作業,可以先使用squeue找到該作業的id號,如100001,然后使用如下命令殺掉任務:
scancel 100001