系统相关
首页 > 系统相关> > Linux-SLURM:分配所有GPU后,无法再提交cpu作业

Linux-SLURM:分配所有GPU后,无法再提交cpu作业

作者:互联网

我们刚刚开始使用Slurm来管理我们的GPU(目前只有2个).我们使用ubuntu 14.04和slurm-llnl.我已经配置了gres.conf和srun works.
问题是,如果我使用–gres = gpu:1运行两个作业,则两个GPU已成功分配,并且这些作业开始运行;现在我希望不使用–gres = gpu:1即可运行更多的作业(除了2个GPU作业之外)(即,不仅仅使用CPU和ram的作业),但是不可能.

该错误消息表明,它无法分配所需的资源(即使有24个CPU内核).

这是我的gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

感谢您的帮助.谢谢.

解决方法:

确保配置中的SelectType为CR_CPU或CR_Core,并且分区的共享选项未设置为独占.否则,Slurm会将完整的节点分配给作业.

标签:slurm,linux,gpu,ubuntu,nvidia
来源: https://codeday.me/bug/20191011/1895256.html