Failed to initialize NVML: Driver/library version mismatch.


服務器更新nvidia driver 版本之后,經常會出現

 

 

這個問題出現的原因是kernel mod 的 Nvidia driver 的版本沒有更新,一般情況下,重啟機器就能夠解決,如果因為某些原因不能夠重啟的話,也有辦法reload kernel mod。

簡單來看,就兩步

  1. unload nvidia kernel mod
  2. reload nvidia kernel mod

執行起來就是

  1. sudo rmmod nvidia
  2. sudo nvidia-smi

nvidia-smi 發現沒有 kernel mod 會將其自動裝載。

但是事情遠遠不是這么簡單,一般情況下都會遇到卸載失敗。

 

 

這時,就要一點一點的卸載整個驅動了,首先要知道現在kernel mod 的依賴情況,首先我們從錯誤信息中知道,nvidia_modeset nvidia_uvm 這兩個 mod 依賴於 nvidia, 所以要先卸載他們

 

 

可以看到 nvidia 被使用了152詞,我們可以先卸載 nvidia_uvm 和 nvidia_modeset

先查看下有哪些進程使用了 nvidia*

 

 

這些進程有個了解,如果一會卸載失敗,記得關閉相關進程。

卸載

 

 

再 lsof 一遍,如果 nvidia 的使用 Used by 還沒有降到 0,kill 相關進程

最后

 

 

收工

原創文章,轉載請注明(最好把圖片帶走): 轉載自Comzyh的博客

本文鏈接地址: 解決Driver/library version mismatch


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM