nvidia-smi 命令解讀


nvidia-smi 的定義:

  1. 基於 NVIDIA Management Library (NVIDIA 管理庫),實現 NVIDIA GPU 設備的管理和監控功能
  2. 主要支持 Tesla, GRID, Quadro 以及 TitanX 的產品,有限支持其他的 GPU 產品
    所以我們在常見的 NVIDIAGPU 產品上安裝完驅動后,都同時安裝上 nvidia-smi 管理工具,幫助管理人員通過命令行的方式對 GPU 進行監控和管理。
    當我們成功部署了 GRID 軟件以后,我們可以通過以下 nvidia-smi 命令實現對 GPU 的管理。
    nvidia-smi 會隨着 GRID 軟件不斷的升級,而功能不斷的豐富,所以當我們在執行一些復雜的 nvidia-smi 命令時,可能早期的 GRID 版本無法支持這些命令。
    以下 nvidia-smi 常用命令行是個人推薦了解的:

nvidia-smi

pic

這是服務器上特斯拉 K80 的信息。
上面的表格中:
第一欄的 Fan:N/A 是風扇轉速,從 0 到 100% 之間變動,這個速度是計算機期望的風扇轉速,實際情況下如果風扇堵轉,可能打不到顯示的轉速。有的設備不會返回轉速,因為它不依賴風扇冷卻而是通過其他外設保持低溫(比如我們實驗室的服務器是常年放在空調房間里的)。
第二欄的 Temp:是溫度,單位攝氏度。
第三欄的 Perf:是性能狀態,從 P0 到 P12,P0 表示最大性能,P12 表示狀態最小性能。
第四欄下方的 Pwr:是能耗,上方的 Persistence-M:是持續模式的狀態,持續模式雖然耗能大,但是在新的 GPU 應用啟動時,花費的時間更少,這里顯示的是 off 的狀態。
第五欄的 Bus-Id 是涉及 GPU 總線的東西,domain:bus:device.function
第六欄的 Disp.A 是 Display Active,表示 GPU 的顯示是否初始化。
第五第六欄下方的 Memory Usage 是顯存使用率。
第七欄是浮動的 GPU 利用率。
第八欄上方是關於 ECC 的東西。
第八欄下方 Compute M 是計算模式。
下面一張表示每個進程占用的顯存使用率。

顯存占用和 GPU 占用是兩個不一樣的東西,顯卡是由 GPU 和顯存等組成的,顯存和 GPU 的關系有點類似於內存和 CPU 的關系。

pic

nvidia-smi -q

查看當前所有 GPU 的信息,也可以通過參數 i 指定具體的 GPU。
比如 nvidia-smi-q -i 0 代表我們查看服務器上第一塊 GPU 的信息。
通過 nvidia-smi -q 我們可以獲取以下有用的信息:
GPU 的 SN 號、VBIOS、PN 號等信息:

可以參考 了解 GPU 從 nvidia-smi 命令開始

windows 上的使用

nvidia-smi 所在的位置為:
C:\Program Files\NVIDIA Corporation\NVSMI

cmd 進入目錄輸入命令即可:
pic

我自己的 1050 顯卡,玩 LOL 夠用了
pic


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM