实验室集群服务器使用
作者:互联网
申请节点:salloc -p all -N1 -n1 -c 4 --ntasks-per-node=1 --gres=gpu:1 -J jobname
登录节点:ssh node01
sinfo
:由 Slurm 管理的分区和节点的状态
salloc
:申请节点
squeue
:查看集群所有状态
ssh node1
:登录到申请的gpu节点node1
scontrol show job 942
:查看某个作业(942)详细状态
squeue -j 942
: 查看作业是否还在运行,确保作业已经退出
scancel 942
:取消作业
sacct
:用于汇总报告正在活动或者已经结束的job和job step的审计信息
sbatch
: 用于提交做业脚本以供之后执行
smap
: 由 Slurm 管理的做业、分区和节点的状态信息
srun
: 用于提交执行任务或实时启动做业步骤。
srun 有各类各样的选项来指定资源需求, 包括: 最小和最大节点数、处理器计数、要使用或不使用的特定节点以及特定节点特征 (内存、磁盘空间、某些必需的功能等)
strigger
: 用于设置、获取或查看事件触发器
标签:实验室,查看,作业,942,job,集群,做业,服务器,节点 来源: https://www.cnblogs.com/gkm0120/p/15140218.html