GPU型號為NVIDIA的1080Ti,最近出現的狀況的是某一個GPU突然就出問題了,如果在該GPU上有運行程序的話則程序中斷,nvidia-smi顯示出來的GPU則少了這一個。
1、一開始懷疑是溫度問題,溫度過高導致自動關閉。
2、最好的方法是先看一下nvidia-bug-report,管理員輸入sudo nvidia-bug-report.sh
參考:https://devtalk.nvidia.com/default/topic/522835/linux/if-you-have-a-problem-please-read-this-first/
該命令會在本地生成一個nvidia-bug-report.log.gz,然后使用gunzip nvidia-bug-report.log.gz可解壓縮得到nvidia-bug-report.log。
打開nvidia-bug-report.log,其中記錄了很多gpu的運行信息,尤其是 /var/log/dmesg的信息,占據了該log文件的大部分,記錄了從開機到生成report文件時GPU的所有運行情況。
包括詳細時間,用戶等(由於該文件是從ubuntu復制過來打開的,編碼問題導致亂碼,修改一下編碼方式就不會了,這里看得懂就好)
然后就可以定位到問題了
另外,nvidia-smi -a可以獲取GPU的詳細信息,也可以確定消失的GPU的id號就是0000:09:00。
未完待續~~~~