Linux-SLURM:分配所有GPU后,无法再提交cpu作业
作者:互联网
我们刚刚开始使用Slurm来管理我们的GPU(目前只有2个).我们使用ubuntu 14.04和slurm-llnl.我已经配置了gres.conf和srun works.
问题是,如果我使用–gres = gpu:1运行两个作业,则两个GPU已成功分配,并且这些作业开始运行;现在我希望不使用–gres = gpu:1即可运行更多的作业(除了2个GPU作业之外)(即,不仅仅使用CPU和ram的作业),但是不可能.
该错误消息表明,它无法分配所需的资源(即使有24个CPU内核).
这是我的gres.conf:
Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]
感谢您的帮助.谢谢.
解决方法:
确保配置中的SelectType为CR_CPU或CR_Core,并且分区的共享选项未设置为独占.否则,Slurm会将完整的节点分配给作业.
标签:slurm,linux,gpu,ubuntu,nvidia 来源: https://codeday.me/bug/20191011/1895256.html