查看作业状态
查看当前用户的作业状态,可以使用如下命令:
squeue
例如:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
33762 normal nstest1 wangwu R 0:03 2 h05r4n[15-16]
参数说明:
关键词 | 含义 |
---|---|
JOBID | job的id号,每个成功提交的任务都会有唯一的id |
PARTITION | 计算分区名 |
NAME | 任务名,默认以提交脚本的名称当作任务名 |
USER | 用户名,提交该任务的用户名 |
ST | 任务状态:PD排队;R运行;S挂起;CG正在退出 |
TIME | 任务运行时间 |
NODES | 任务作占节点数,例子中为2个 |
NODELIST(REASON) | 任务所占节点列表,如果是排队状态的任务,则会给出排队原因 |
备注:常见排队原因:
- AssociationResourceLimit:关联的资源限制已满 — 账户有使用节点数限制,已经用满了。
- Resources:当前可用资源不能满足作业需求 — 系统的可用节点资源不足
- Dependency:作业的依赖关系未满足 — 作业之间有依赖关系,依赖的作业没完成
- PartitionDown:作业所在的分区处于 down 状态 — 分区down,所以节点不可用。
取消作业
如果提交作业后,发现有些输入文件参数设置错了,或者其他原因想停止这个作业,可以先使用squeue找到该作业的id号,如100001,然后使用如下命令杀掉任务:
scancel 100001