其他分享
首页 > 其他分享> > 实验室集群服务器使用

实验室集群服务器使用

作者:互联网

申请节点:salloc -p all -N1 -n1 -c 4 --ntasks-per-node=1 --gres=gpu:1 -J jobname

登录节点:ssh node01

sinfo:由 Slurm 管理的分区和节点的状态

salloc:申请节点

squeue:查看集群所有状态

ssh node1:登录到申请的gpu节点node1

scontrol show job 942:查看某个作业(942)详细状态

squeue -j 942: 查看作业是否还在运行,确保作业已经退出

scancel 942:取消作业

sacct:用于汇总报告正在活动或者已经结束的job和job step的审计信息

sbatch: 用于提交做业脚本以供之后执行

smap: 由 Slurm 管理的做业、分区和节点的状态信息

srun: 用于提交执行任务或实时启动做业步骤。
srun 有各类各样的选项来指定资源需求, 包括: 最小和最大节点数、处理器计数、要使用或不使用的特定节点以及特定节点特征 (内存、磁盘空间、某些必需的功能等)

strigger: 用于设置、获取或查看事件触发器

标签:实验室,查看,作业,942,job,集群,做业,服务器,节点
来源: https://www.cnblogs.com/gkm0120/p/15140218.html