Nvidia-smi命令使用


GPU即Graphic Processing Unit,圖像處理器,是整個顯卡的核心。顯卡是由GPU、顯存等等組成的。大部分情況下,我們所說GPU就等於指顯卡,但實際情況是GPU是顯卡的一個核心組成部分

顯卡和GPU區別:性質不同、組成不同、用途不同

一、性質不同

1、顯卡:顯卡是連接顯示器和個人計算機主板的重要組件.

2、GPU:GPU是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。

二、組成不同

1、顯卡:顯卡由GPU、顯存、電路板,還有BIOS固件組成。

2、GPU:GPU是顯示主芯片顯卡的核心。

三、用途不同

1、顯卡:顯卡將計算機系統所需要的顯示信息進行轉換驅動顯示器,並向顯示器提供逐行或隔行掃描信號,控制顯示器的正確顯示。

2、GPU:GPU使顯卡減少了對CPU的依賴,並進行部分原本CPU的工作。


 

nvidia-smi 的定義:

  1. 基於 NVIDIA Management Library (NVIDIA 管理庫),實現 NVIDIA GPU 設備的管理和監控功能
  2. 主要支持 Tesla, GRID, Quadro 以及 TitanX 的產品,有限支持其他的 GPU 產品
    所以我們在常見的 NVIDIAGPU 產品上安裝完驅動后,都同時安裝上 nvidia-smi 管理工具,幫助管理人員通過命令行的方式對 GPU 進行監控和管理。
    當我們成功部署了 GRID 軟件以后,我們可以通過以下 nvidia-smi 命令實現對 GPU 的管理。
    nvidia-smi 會隨着 GRID 軟件不斷的升級,而功能不斷的豐富,所以當我們在執行一些復雜的 nvidia-smi 命令時,可能早期的 GRID 版本無法支持這些命令。
    以下 nvidia-smi 常用命令行是個人推薦了解的:

nvidia-smi

pic

這是服務器上特斯拉 K80 的信息。
上面的表格中:
第一欄的 Fan:N/A 是風扇轉速,從 0 到 100% 之間變動,這個速度是計算機期望的風扇轉速,實際情況下如果風扇堵轉,可能打不到顯示的轉速。有的設備不會返回轉速,因為它不依賴風扇冷卻而是通過其他外設保持低溫(比如我們實驗室的服務器是常年放在空調房間里的)。
第二欄的 Temp:是溫度,單位攝氏度。
第三欄的 Perf:是性能狀態,從 P0 到 P12,P0 表示最大性能,P12 表示狀態最小性能。
第四欄下方的 Pwr:是能耗,上方的 Persistence-M:是持續模式的狀態,持續模式雖然耗能大,但是在新的 GPU 應用啟動時,花費的時間更少,這里顯示的是 off 的狀態。
第五欄的 Bus-Id 是涉及 GPU 總線的東西,domain:bus:device.function
第六欄的 Disp.A 是 Display Active,表示 GPU 的顯示是否初始化。
第五第六欄下方的 Memory Usage 是顯存使用率。
第七欄是浮動的 GPU 利用率。
第八欄上方是關於 ECC 的東西。
第八欄下方 Compute M 是計算模式。
下面一張表示每個進程占用的顯存使用率。

顯存占用和 GPU 占用是兩個不一樣的東西,顯卡是由 GPU 和顯存等組成的,顯存和 GPU 的關系有點類似於內存和 CPU 的關系。

pic

nvidia-smi -q

查看當前所有 GPU 的信息,也可以通過參數 i 指定具體的 GPU。
比如 nvidia-smi-q -i 0 代表我們查看服務器上第一塊 GPU 的信息。
通過 nvidia-smi -q 我們可以獲取以下有用的信息:
GPU 的 SN 號、VBIOS、PN 號等信息


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM