SGE 节点处于E状态
作者:互联网
SGE集群可能出现独列错误状态。此时,使用命令 qstat -f 检测集群队列队列状态。最后一列stats若为空,则表示队列状态正常,可以用于任务提交。其它状态解释如下:
a: 负载超限了,开启警报alarm。
A: 超限暂替,开启警报Alarm。
E: 队列有错误,不能提供任务提交服务了。
au:主机和SGE系统连接中断,此时负载状态为-NA-。需要重启相应服务器的sgeexecd命令。
当节点处于E状态时,需要使用root用户在对应的主机中重启sge计算服务:
/opt/sysoft/sge/default/common/sgeexecd restart
然后,清除队列中的错误信息:
qmod -c all.q
来自为知笔记(Wiz)
标签:状态,队列,sge,超限,sgeexecd,SGE,节点 来源: https://www.cnblogs.com/raisok/p/14505324.html