內容轉自:https://blog.csdn.net/handsome_bear/article/details/80903477
nvidia-smi
顯示 | 說明 |
---|---|
Fan | 風扇轉速(0%--100%),N/A表示沒有風扇 |
Temp | GPU溫度(GPU溫度過高會導致GPU頻率下降) |
Perf | 性能狀態,從P0(最大性能)到P12(最小性能) |
Pwr | GPU功耗 |
Persistence-M | 持續模式的狀態(持續模式耗能大,但在新的GPU應用啟動時花費時間更少) |
Bus-Id | GPU總線,domain🚌device.function |
Disp.A | Display Active,表示GPU的顯示是否初始化 |
Memory-Usage | 顯存使用率 |
Volatile GPU-Util | GPU使用率 |
ECC | 是否開啟錯誤檢查和糾正技術,0/DISABLED, 1/ENABLED |
Compute M. | 計算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED |
附加選項 | 說明 |
---|---|
nvidia-smi -i xxx | 指定某個GPU |
nvidia-smi -l xxx | 動態刷新信息(默認5s刷新一次) |
nvidia-smi –f xxx | 將查詢的信息輸出到具體的文件中,不在終端顯示 |
nvidia-smi -q
查詢所有GPU的當前詳細信息
命令 | 說明 |
---|---|
nvidia-smi –q –u | 顯示單元而不是GPU的屬性 |
nvidia-smi –q –i xxx | 指定具體的GPU或unit信息 |
nvidia-smi –q –f xxx | 將查詢的信息輸出到具體的文件中,不在終端顯示 |
nvidia-smi –q –x | 將查詢的信息以xml的形式輸出 |
nvidia-smi -q –d xxx | 指定顯示GPU卡某些信息,xxx參數可以為MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING |
nvidia-smi –q –l xxx | 動態刷新信息,按Ctrl+C停止,可指定刷新頻率,以秒為單位 |
nvidia-smi --query-gpu=gpu_name,gpu_bus_id,vbios_version--format=csv | 選擇性查詢選項,可以指定顯示的屬性選項。可查看的屬性有:timestamp,driver_version,pci.bus,pcie.link.width.current等。(可查看nvidia-smi--help-query–gpu來查看有哪些屬性) |
設備修改選項
可以手動設置GPU卡設備的狀態選項
命令 | 說明 |
---|---|
nvidia-smi –pm 0/1 | 設置持久模式:0/DISABLED,1/ENABLED |
nvidia-smi –e 0/1 | 切換ECC支持:0/DISABLED, 1/ENABLED |
nvidia-smi –p 0/1 | 重置ECC錯誤計數:0/VOLATILE, 1/AGGREGATE |
nvidia-smi –c | 設置計算應用模式:0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED |
nvidia-smi –r | GPU復位 |
nvidia-smi –vm | 設置GPU虛擬化模式 |
nvidia-smi –ac xxx,xxx | 設置GPU運行的工作頻率。e.g. nvidia-smi –ac2000,800 |
nvidia-smi –rac | 將時鍾頻率重置為默認值 |
nvidia-smi –acp 0/1 | 切換-ac和-rac的權限要求,0/UNRESTRICTED, 1/RESTRICTED |
nvidia-smi –pl | 指定最大電源管理限制(瓦特) |
nvidia-smi –am 0/1 | 啟用或禁用計數模式,0/DISABLED,1/ENABLED |
nvidia-smi –caa | 清除緩沖區中的所有已記錄PID,0/DISABLED,1/ENABLED |
nvidia-smi dmon
設備監控命令,以滾動條形式顯示GPU設備統計信息。
GPU統計信息以一行的滾動格式顯示,要監控的指標可以基於終端窗口的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則默認監控GPU0-GPU3(GPU索引從0開始)。
命令 | 說明 |
---|---|
nvidia-smi dmon –i xxx | 用逗號分隔GPU索引,PCI總線ID或UUID |
nvidia-smi dmon –d xxx | 指定刷新時間(默認為1秒) |
nvidia-smi dmon –c xxx | 顯示指定數目的統計信息並退出 |
nvidia-smi dmon –o D/T | 指定顯示的時間格式D:YYYYMMDD,THH:MM:SS |
nvidia-smi dmon –f xxx | 將查詢的信息輸出到具體的文件中,不在終端顯示 |
nvidia-smi dmon –s xxx | 指定顯示哪些監控指標(默認為puc),其中: |
p:電源使用情況和溫度(pwr:功耗,temp:溫度)
u:GPU使用率(sm:流處理器,mem:顯存,enc:編碼資源,dec:解碼資源)
c:GPU處理器和GPU內存時鍾頻率(mclk:顯存頻率,pclk:處理器頻率)
v:電源和熱力異常
m:FB內存和Bar1內存
e:ECC錯誤和PCIe重顯錯誤個數
t:PCIe讀寫帶寬
nvidia-smi pmon
進程監控命令,以滾動條形式顯示GPU進程狀態信息。
GPU進程統計信息以一行的滾動格式顯示,此工具列出了GPU所有進程的統計信息。要監控的指標可以基於終端窗口的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則默認監控GPU0-GPU3(GPU索引從0開始)。
命令 | 說明 |
---|---|
nvidia-smi pmon –i xxx | 用逗號分隔GPU索引,PCI總線ID或UUID |
nvidia-smi pmon –d xxx | 指定刷新時間(默認為1秒,最大為10秒) |
nvidia-smi pmon –c xxx | 顯示指定數目的統計信息並退出 |
nvidia-smi pmon –o D/T | 指定顯示的時間格式D:YYYYMMDD,THH:MM:SS |
nvidia-smi pmon –f xxx | 將查詢的信息輸出到具體的文件中,不在終端顯示 |
nvidia-smi pmon –s xxx | 指定顯示哪些監控指標(默認為u),其中: |
u:GPU使用率
m:FB內存使用情況