GPU 的實時狀態監測

解釋相關參數含義: GPU:本機中的GPU編號 Name:GPU 類型 Persistence-M: Fan:風扇轉速 Temp:溫度,單位攝氏度 Perf:表征性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能 Pwr:Usage/Cap:能耗表示 Bus-Id:涉及GPU總線的相關信息; Disp.A:Display Active,表示GPU的顯示是否初始化 Memory-Usage:顯存使用率 Volatile GPU-Util:浮動的GPU利用率 Uncorr. ECC:關於ECC的東西 Compute M.:計算模式 Processes 顯示每塊GPU上每個進程所使用的顯存情況。
watch命令實時監測顯卡
watch的基本用法是:
watch [options] command
最常用的參數是 -n, 后面指定是每多少秒來執行一次命令。
Nvidia自帶了一個nvidia-smi的命令行工具,會顯示顯存使用情況:
nvidia-smi
設置一個每 10s 顯示一次顯存的情況:
watch -n 10 nvidia-smi # n=1時,就可以實時監測顯卡使用情況。
這樣,只要開着這個命令行窗口,就可以每n秒刷新一次。

顯存占用和GPU占用是兩個不一樣的東西,顯卡是由GPU和顯存等組成的,顯存和GPU的關系有點類似於內存和CPU的關系。
比如,你跑caffe代碼的時候顯存占得少,GPU占得多; 而他跑TensorFlow代碼的時候,顯存占得多,GPU占得少。
=============== 附: 參考======================

@https://blog.csdn.net/C_chuxin/article/details/82993350

