GPU压力测试和故障定位
作者:互联网
- 压力测试
- 获取gpu burn:https://codeload.github.com/wilicc/gpu-burn/zip/master
- 解压缩:unzip gpu-burn-master.zip
- 进入目录编译:cd gpu-burn-master; make
- 执行:
- 直接全跑:./gpu_burn 100
- 指定某几张卡:export CUDA_VISIBLE_DEVICES=0,1;./gpu_burn 100
- 故障定位
- 找出故障卡:dmesg -I err,拿到错误卡的Bus-Id
- 根据Bus-Id找出对应GPU编号(通过nvidia-smi查看),假设是device 2
- export CUDA_VISIBLE_DEVICES=0,1,3,4 # 2不写在里面
- ./gpu_burn 100
- 跑完之后关机,找出没有温度的那张卡,即为故障卡
标签:zip,burn,故障,master,测试,gpu,GPU,100 来源: https://blog.csdn.net/ustczhng2012/article/details/115792858