問題分析
在顯卡上長時間運行很多的程序, 導致顯卡過熱, 出現問題.
解決方法
- 停掉 所有 在顯卡上運行的程序, ERR會消失
- 設置顯卡的persistence mode, 按照這個教程.
- 限制最大的運行功率不要太大
sudo nvidia-smi -pl 200 -i 2 # 指定卡2的最大功率為200
再次運行nvidia-smi顯示卡2的運行功率已經調整好了
注: 單獨跑一個程序的時候, 200W的功率已經足夠了, 可緩解產熱過多的問題. 其他卡如果沒有出現這種情況, 可以不用調整最大功率.
參考
# 重啟顯卡命令
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm