跳转至

管理和监控作业状态

squeue或者qa命令查看作业状态

[userA@quantum ~]$ squeue -u userA
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
             67155   zcy-stu       CO    userA PD       0:00      1 (None)
             67156   zcy-stu       CO    userA PD       0:00      1 (None)
             67128   zcy-stu       AG    userA  R    3:08:20      1 cu09
             67127   zcy-stu       AG    userA  R    7:23:22      1 cu11
             66965   zcy-stu       PT    userA  R 3-05:52:57      1 cu10
[userA@quantum ~]$ qa
 JOBID NAME           USER ST         TIME TIME_LIMIT   NODES   CPUS    PARTITION NODELIST(REASON)
 67155 CO            userA PD         0:00 50-05:05:00      1     28      zcy-stu (None)
 67156 CO            userA PD         0:00 50-05:05:00      1     24      zcy-stu (None)
 67128 AG            userA  R      3:09:10 50-05:05:00      1     28      zcy-stu cu09
 67127 AG            userA  R      7:24:12 50-05:05:00      1     28      zcy-stu cu11
 66965 PT            userA  R   3-05:53:47 50-05:05:00      1     24      zcy-stu cu10

ST这一列R代表正在运行,PD代表在排队等候;NODES代表计算申请的节点数,CPUS下面对应的数字代表计算所使用的核数;TIME_LIMIT代表计算所申请的时间;TIME代表作业计算运行的时间;PARTITION代表作业运行所用的队列或分区,NODELIST代表这个作业在这个或这几个节点上运行,比如67128这个作业在cu09这个计算节点上运行。

排队或正在运行的作业,要查看排队原因或者作业所使用内存等参数,可使用scontrol show job 67155查看。 如果是已完成的作业或者异常终结的作业,要查看作业的相关参数,可使用sacct-all 67155查看。

取消或杀掉作业

使用scancel或者qdel命令杀掉作业

[userA@quantum ~]$ scancel 67128
[userA@quantum ~]$ qa
 JOBID NAME           USER ST         TIME TIME_LIMIT   NODES   CPUS    PARTITION NODELIST(REASON)
 67156 CO            userA PD         0:00 50-05:05:00      1     24      zcy-stu (None)
 67155 CO            userA  R         0:05 50-05:05:00      1     28      zcy-stu cu09
 67127 AG            userA  R      7:24:17 50-05:05:00      1     28      zcy-stu cu11
 66965 PT            userA  R   3-05:53:52 50-05:05:00      1     24      zcy-stu cu10

show_limits命令查看资源限制

[userA@quantum ~]$ show_limits 
   Account       User  GrpCPUs  CPU_Use
---------- ---------- -------- --------
 chemistry      userA      80      100
[userA@quantum ~]$ qa
 JOBID NAME           USER ST         TIME TIME_LIMIT   NODES   CPUS    PARTITION NODELIST(REASON)
 67156 CO            userA PD         0:00 50-05:05:00      1     24      zcy-stu (None)
 67155 CO            userA  R         0:15 50-05:05:00      1     28      zcy-stu cu09
 67127 AG            userA  R      7:24:27 50-05:05:00      1     28      zcy-stu cu11
 66965 PT            userA  R   3-05:54:02 50-05:05:00      1     24      zcy-stu cu10
userA有100核资源,已经有80核作业在运行,所以24核的67156这个作业由于资源限制处于PD等候状态。

sinfo或pestat命令查看节点信息

[userA@quantum ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
public*      up   infinite      1  down* cu02
public*      up   infinite      3    mix cu[05,07-08]
public*      up   infinite      2  alloc cu[01,06]
public*      up   infinite      2   idle cu[03-04]
[userA@quantum ~]$ pestat
Hostname       Partition     Node Num_CPU  CPUload  Memsize  Freemem  Joblist
                            State Use/Tot  (15min)     (MB)     (MB)  JobID User ...
cu01             public*   alloc   48  48   48.06    256327   162046  10099 userA  
cu02             public*   down*    0  48    0.00    256327   251537   
cu03             public*    idle    0  52    0.00    191815   186874   
cu04             public*    idle    0  52    0.00    191815   186888   
cu05             public*     mix   96 128   96.02    257308   127477  10095 userA 10096 userA  
cu06             public*   alloc  128 128  128.12    257308     1229* 10097 userA 10098 userA 10118 userA  
cu07             public*     mix   64 192   62.56   1031375   963565  10119 userB  
cu08             public*     mix  128 192  128.07   1031375   960648  10126 userB  
STATE中,idle代表这个计算节点完全空闲,mix代表这个计算节点有作业但有部分核数资源空闲,alloc代表这个计算节点完全被占用;其他状态,就代表计算节点异常。

使用pestat和show_limits命令查看计算节点信息和自己的资源限制,这样提交作业可以做到心里有数,具体该使用多少核计算作业。

本文阅读量  次
本站总访问量  次