管理和监控作业状态
squeue或者qa命令查看作业状态¶
[userA@quantum ~]$ squeue -u userA
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
67155 zcy-stu CO userA PD 0:00 1 (None)
67156 zcy-stu CO userA PD 0:00 1 (None)
67128 zcy-stu AG userA R 3:08:20 1 cu09
67127 zcy-stu AG userA R 7:23:22 1 cu11
66965 zcy-stu PT userA R 3-05:52:57 1 cu10
[userA@quantum ~]$ qa
JOBID NAME USER ST TIME TIME_LIMIT NODES CPUS PARTITION NODELIST(REASON)
67155 CO userA PD 0:00 50-05:05:00 1 28 zcy-stu (None)
67156 CO userA PD 0:00 50-05:05:00 1 24 zcy-stu (None)
67128 AG userA R 3:09:10 50-05:05:00 1 28 zcy-stu cu09
67127 AG userA R 7:24:12 50-05:05:00 1 28 zcy-stu cu11
66965 PT userA R 3-05:53:47 50-05:05:00 1 24 zcy-stu cu10
ST这一列R代表正在运行,PD代表在排队等候;NODES代表计算申请的节点数,CPUS下面对应的数字代表计算所使用的核数;TIME_LIMIT代表计算所申请的时间;TIME代表作业计算运行的时间;PARTITION代表作业运行所用的队列或分区,NODELIST代表这个作业在这个或这几个节点上运行,比如67128这个作业在cu09这个计算节点上运行。
排队或正在运行的作业,要查看排队原因或者作业所使用内存等参数,可使用scontrol show job 67155
查看。
如果是已完成的作业或者异常终结的作业,要查看作业的相关参数,可使用sacct-all 67155
查看。
取消或杀掉作业¶
使用scancel或者qdel命令杀掉作业
[userA@quantum ~]$ scancel 67128
[userA@quantum ~]$ qa
JOBID NAME USER ST TIME TIME_LIMIT NODES CPUS PARTITION NODELIST(REASON)
67156 CO userA PD 0:00 50-05:05:00 1 24 zcy-stu (None)
67155 CO userA R 0:05 50-05:05:00 1 28 zcy-stu cu09
67127 AG userA R 7:24:17 50-05:05:00 1 28 zcy-stu cu11
66965 PT userA R 3-05:53:52 50-05:05:00 1 24 zcy-stu cu10
show_limits命令查看资源限制¶
[userA@quantum ~]$ show_limits
Account User GrpCPUs CPU_Use
---------- ---------- -------- --------
chemistry userA 80 100
[userA@quantum ~]$ qa
JOBID NAME USER ST TIME TIME_LIMIT NODES CPUS PARTITION NODELIST(REASON)
67156 CO userA PD 0:00 50-05:05:00 1 24 zcy-stu (None)
67155 CO userA R 0:15 50-05:05:00 1 28 zcy-stu cu09
67127 AG userA R 7:24:27 50-05:05:00 1 28 zcy-stu cu11
66965 PT userA R 3-05:54:02 50-05:05:00 1 24 zcy-stu cu10
sinfo或pestat命令查看节点信息¶
[userA@quantum ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
public* up infinite 1 down* cu02
public* up infinite 3 mix cu[05,07-08]
public* up infinite 2 alloc cu[01,06]
public* up infinite 2 idle cu[03-04]
[userA@quantum ~]$ pestat
Hostname Partition Node Num_CPU CPUload Memsize Freemem Joblist
State Use/Tot (15min) (MB) (MB) JobID User ...
cu01 public* alloc 48 48 48.06 256327 162046 10099 userA
cu02 public* down* 0 48 0.00 256327 251537
cu03 public* idle 0 52 0.00 191815 186874
cu04 public* idle 0 52 0.00 191815 186888
cu05 public* mix 96 128 96.02 257308 127477 10095 userA 10096 userA
cu06 public* alloc 128 128 128.12 257308 1229* 10097 userA 10098 userA 10118 userA
cu07 public* mix 64 192 62.56 1031375 963565 10119 userB
cu08 public* mix 128 192 128.07 1031375 960648 10126 userB
使用pestat和show_limits命令查看计算节点信息和自己的资源限制,这样提交作业可以做到心里有数,具体该使用多少核计算作业。
本文阅读量 次本站总访问量 次