跳转至

平台介绍

介绍

2009年以前,化学学院的计算资源主要是桌面台式机安装linux系统单个使用。2010年,苏忠民教授课题组购买了一套宝德高性能计算集群(1个管理节点,20个计算节点,CPU型号Intel Xeon X5650),集群系统为Rocks Cluster,作业系统为PBS (Torque/Maui)。相比于单机系统,集群和作业系统提高了计算资源的利用率。受益于计算性能以及资源的提高,各理论小组发表文章的数量和质量也逐年提高。随后把集群系统逐渐推广到学院各理论课题组,以及物理学院。由于一套集群的资源供多个理论小组使用,PBS资源调度和限制不足以胜任,2012年,我把集群PBS作业调度系统迁移到GridEngine调度系统,并花不少时间编写psetat命令查看节点和作业运行情况。之后,作业调度系统全更换为Slurm,但为了节省老师和学生们的学习成本,我总是编写相同的命令(比如pestat, qa, chemg09,...)让大家无感使用,使大家的时间更多用于学习文献知识和写文章方面。

2019年后,受限于Rocks系统不再更新,使用DHCP + TFTP + HTTP + Kickstart + PXE手动搭建集群,这5年中集群运行良好。目前学院计算资源并没有整合,还是各自课题组拥有1套计算集群或者多个小课题组共同使用1套计算集群。

集群环境

硬件

  • CPU: 有使用10年多的Intel Xeon E5-26xx(无avx512指令集),5年左右的Intel Xeon Gold 61xx,也有近3年主力使用的Intel Xeon platinum 83xx、AMD EPYC 7763、AMD EPYC 7R32等CPU系列。
  • 网络: 千兆网络。

操作系统环境

[userA@quantum ~]$ lsb_release -a
LSB Version:    :core-4.1-amd64:core-4.1-noarch
Distributor ID: Rocky
Description:    Rocky Linux release 8.10 (Green Obsidian)
Release:        8.10
Codename:       GreenObsidian

软件环境

  • 应用软件 集群应用软件安装在/opt/soft目录下,软件有:Gaussian,VASP,ADF,Q-Chem,Materials Studio,ORCA,MOMAP,CALYPSO,Dalton,Gromacs,Multiwfn等。 使用ll /opt/soft命令查看相应软件的版本。
  • 编译环境 系统自带gfortran/gcc,在/opt目录下安装有Intel编译器套件(ifort/icc, mkl, impi),在/opt/mpi目录下安装有相应mpi 假设当前目录下有bandstr40.f90和hello.c源码文件,下面分别使用gfortran/gcc和ifort/icc编译
    [userA@quantum tmp]$ ls
    bandstr40.f90  hello.c
    [userA@quantum tmp]$ gfortran bandstr40.f90 -o bandstr40
    [userA@quantum tmp]$ gcc hello.c -o hello
    [userA@quantum tmp]$ ./hello
    Hello World
    使用module加载ifort/icc
    [userA@quantum tmp]$ module load intel/compiler
    [userA@quantum tmp]$ ls
    bandstr40  bandstr40.f90  hello  hello.c
    [userA@quantum tmp]$ ifort bandstr40.f90 -o bandstr40-ifort
    [userA@quantum tmp]$ icc hello.c -o hello-icc
    [userA@quantum tmp]$ ls
    bandstr40  bandstr40.f90  bandstr40-ifort  hello  hello.c  hello-icc
    [userA@quantum tmp]$ ./hello-icc
    Hello World
    

注意事项

  • 千万不要在管理节点上直接运行计算作业,也不允许多核(可以单核)并行编译程序,这些操作会使管理节点变慢影响到其他用户。
  • 提交作业前最好对自己作业将使用的资源CPU,内存,硬盘空间以及运行时间等做一个估计,以免造成不必要的错误。
  • 用户在开通帐号后请及时修改密码,最好定期修改,以免数据资料外泄。
  • 集群的操作系统都是基于linux的,所以登录使用这个平台要有基本的linux知识,例如:要了解ls, cd, mkdir, cp, cat, vi等命令,如果还不了解就先看看linux的基本知识。
  • 集群的用户数据存储空间有限,如果用户个人数据超过300GB,请务必清理自己的数据,比如chk, t21, cube, WAVECAR这些大文件,个人认为早期优化和单点计算的chk等大文件没必要再保存,因为重新计算也不费时。一些难计算的文件,有价值的可以保留。假如您的用户名是user,那么使用du -sh /home/user 来查看您的用户数据大小。
  • 如果您要想用自己编译的软件,也千万别直接在管理节点或ssh到计算节点上直接运行,这些操作的作业都会被管理员删除并警告相应的用户,如果同一用户被警告后仍然这样执行后将受到封帐号处理。这种情况下,请先联系管理员帮忙写Slurm作业提交脚本文件,然后使用sbatch或qsub提交。
  • 新用户有不懂的问题,首先请教老用户(师兄、师姐和老师),如果都不知道就邮件或QQ联系集群管理员。
本文阅读量  次
本站总访问量  次