NVIDIA-SMI系列命令總結


1  NVIDIA-SMI介紹
        nvidia-smi簡稱NVSMI,提供監控GPU使用情況和更改GPU狀態的功能,是一個跨平台工具,它支持所有標准的NVIDIA驅動程序支持的Linux發行版以及從WindowsServer 2008 R2開始的64位的系統。該工具是N卡驅動附帶的,只要安裝好驅動后就會有它。

    Windows下程序位置:C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe。Linux下程序位置:/usr/bin/nvidia-smi,由於所在位置已經加入PATH路徑,可直接輸入nvidia-smi運行。

2  NVIDIA-SMI命令系列詳解
2.1  nvidia-smi
顯示所有GPU的當前信息狀態

顯示的表格中:

Fan:                     風扇轉速(0%--100%),N/A表示沒有風扇

Temp:                 GPU溫度(GPU溫度過高會導致GPU頻率下降)

Perf:                    性能狀態,從P0(最大性能)到P12(最小性能)

Pwr:                     GPU功耗

Persistence-M:   持續模式的狀態(持續模式耗能大,但在新的GPU應用啟動時花費時間更少)

Bus-Id:               GPU總線,domain:bus:device.function

Disp.A:                Display Active,表示GPU的顯示是否初始化

Memory-Usage:顯存使用率

Volatile GPU-Util:GPU使用率

ECC:                   是否開啟錯誤檢查和糾正技術,0/DISABLED, 1/ENABLED

Compute M.:     計算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

 

附加選項:

nvidia-smi –i xxx

指定某個GPU

nvidia-smi –l xxx

動態刷新信息(默認5s刷新一次),按Ctrl+C停止,可指定刷新頻率,以秒為單位

nvidia-smi –f xxx

將查詢的信息輸出到具體的文件中,不在終端顯示

2.2  nvidia-smi -q
查詢所有GPU的當前詳細信息

[root@ecs-99de-0627875 ~]# nvidia-smi -q

==============NVSMI LOG==============

Timestamp                           : Mon Jul 22 09:36:14 2019
Driver Version                      : 410.92
CUDA Version                        : 10.0

Attached GPUs                       : 1
GPU 00000000:00:0C.0
    Product Name                    : GRID V100-2Q
    Product Brand                   : Grid
    Display Mode                    : Enabled
    Display Active                  : Disabled
    Persistence Mode                : Enabled
    Accounting Mode                 : Disabled
    Accounting Mode Buffer Size     : 4000
    Driver Model
        Current                     : N/A
        Pending                     : N/A
    Serial Number                   : N/A
    GPU UUID                        : GPU-5242814f-9437-47c3-a001-60709eacc14e
    Minor Number                    : 0
    VBIOS Version                   : 00.00.00.00.00
    MultiGPU Board                  : No
    Board ID                        : 0xc
    GPU Part Number                 : N/A
    Inforom Version
        Image Version               : N/A
        OEM Object                  : N/A
        ECC Object                  : N/A
        Power Management Object     : N/A
    GPU Operation Mode
        Current                     : N/A
        Pending                     : N/A
    GPU Virtualization Mode
        Virtualization mode         : VGPU
    GRID Licensed Product
        Product Name                : Quadro Virtual Data Center Workstation
        License Status              : Unlicensed
    IBMNPU
        Relaxed Ordering Mode       : N/A
    PCI
        Bus                         : 0x00
        Device                      : 0x0C
        Domain                      : 0x0000
        Device Id                   : 0x1DB410DE
        Bus Id                      : 00000000:00:0C.0
        Sub System Id               : 0x125010DE
        GPU Link Info
            PCIe Generation
                Max                 : N/A
                Current             : N/A
            Link Width
                Max                 : N/A
                Current             : N/A
        Bridge Chip
            Type                    : N/A
            Firmware                : N/A
        Replays since reset         : N/A
        Tx Throughput               : N/A
        Rx Throughput               : N/A
    Fan Speed                       : N/A
    Performance State               : P0
    Clocks Throttle Reasons         : N/A
    FB Memory Usage
        Total                       : 2048 MiB
        Used                        : 144 MiB
        Free                        : 1904 MiB
    BAR1 Memory Usage
        Total                       : 256 MiB
        Used                        : 0 MiB
        Free                        : 256 MiB
    Compute Mode                    : Default
    Utilization
        Gpu                         : 0 %
        Memory                      : 0 %
        Encoder                     : 0 %
        Decoder                     : 0 %
    Encoder Stats
        Active Sessions             : 0
        Average FPS                 : 0
        Average Latency             : 0
    FBC Stats
        Active Sessions             : 0
        Average FPS                 : 0
        Average Latency             : 0
    Ecc Mode
        Current                     : N/A
        Pending                     : N/A
    ECC Errors
        Volatile
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
        Aggregate
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
    Retired Pages
        Single Bit ECC              : N/A
        Double Bit ECC              : N/A
        Pending                     : N/A
    Temperature
        GPU Current Temp            : N/A
        GPU Shutdown Temp           : N/A
        GPU Slowdown Temp           : N/A
        GPU Max Operating Temp      : N/A
        Memory Current Temp         : N/A
        Memory Max Operating Temp   : N/A
    Power Readings
        Power Management            : N/A
        Power Draw                  : N/A
        Power Limit                 : N/A
        Default Power Limit         : N/A
        Enforced Power Limit        : N/A
        Min Power Limit             : N/A
        Max Power Limit             : N/A
    Clocks
        Graphics                    : 1380 MHz
        SM                          : 1380 MHz
        Memory                      : 877 MHz
        Video                       : 1237 MHz
    Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Default Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Max Clocks
        Graphics                    : N/A
        SM                          : N/A
        Memory                      : N/A
        Video                       : N/A
    Max Customer Boost Clocks
        Graphics                    : N/A
    Clock Policy
        Auto Boost                  : N/A
        Auto Boost Default          : N/A
    Processes                       : None

  

附加選項:

nvidia-smi –q –u

顯示單元而不是GPU的屬性

nvidia-smi –q –i xxx

指定具體的GPU或unit信息

nvidia-smi –q –f xxx

將查詢的信息輸出到具體的文件中,不在終端顯示

nvidia-smi –q –x

將查詢的信息以xml的形式輸出

nvidia-smi -q –d xxx

指定顯示GPU卡某些信息,xxx參數可以為MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, PAGE_RETIREMENT,ACCOUNTING

nvidia-smi –q –l xxx

動態刷新信息,按Ctrl+C停止,可指定刷新頻率,以秒為單位

 

 

nvidia-smi --query-gpu=gpu_name,gpu_bus_id,vbios_version--format=csv

選擇性查詢選項,可以指定顯示的屬性選項

可查看的屬性有:timestamp,driver_version,pci.bus,pcie.link.width.current等。(可查看nvidia-smi--help-query–gpu來查看有哪些屬性)

 

2.3  設備修改選項
可以手動設置GPU卡設備的狀態選項

nvidia-smi –pm 0/1

設置持久模式:0/DISABLED,1/ENABLED

nvidia-smi –e 0/1

切換ECC支持:0/DISABLED, 1/ENABLED

nvidia-smi –p 0/1

重置ECC錯誤計數:0/VOLATILE, 1/AGGREGATE

nvidia-smi –c

設置計算應用模式:0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

nvidia-smi –r

GPU復位

nvidia-smi –vm

設置GPU虛擬化模式

nvidia-smi –ac xxx,xxx

設置GPU運行的工作頻率。e.g. nvidia-smi –ac2000,800

nvidia-smi –rac

將時鍾頻率重置為默認值

nvidia-smi –acp 0/1

切換-ac和-rac的權限要求,0/UNRESTRICTED, 1/RESTRICTED

nvidia-smi –pl

指定最大電源管理限制(瓦特)

nvidia-smi –am 0/1

啟用或禁用計數模式,0/DISABLED,1/ENABLED

nvidia-smi –caa

清除緩沖區中的所有已記錄PID,0/DISABLED,1/ENABLED

 

2.4  nvidia-smi dmon
設備監控命令,以滾動條形式顯示GPU設備統計信息。

GPU統計信息以一行的滾動格式顯示,要監控的指標可以基於終端窗口的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則默認監控GPU0-GPU3(GPU索引從0開始)。

附加選項:

nvidia-smi dmon –i xxx

用逗號分隔GPU索引,PCI總線ID或UUID

nvidia-smi dmon –d xxx

指定刷新時間(默認為1秒)

nvidia-smi dmon –c xxx

顯示指定數目的統計信息並退出

nvidia-smi dmon –s xxx

指定顯示哪些監控指標(默認為puc),其中:

p:電源使用情況和溫度(pwr:功耗,temp:溫度)

u:GPU使用率(sm:流處理器,mem:顯存,enc:編碼資源,dec:解碼資源)

c:GPU處理器和GPU內存時鍾頻率(mclk:顯存頻率,pclk:處理器頻率)

v:電源和熱力異常

m:FB內存和Bar1內存

e:ECC錯誤和PCIe重顯錯誤個數

t:PCIe讀寫帶寬

nvidia-smi dmon –o D/T

指定顯示的時間格式D:YYYYMMDD,THH:MM:SS

nvidia-smi dmon –f xxx

將查詢的信息輸出到具體的文件中,不在終端顯示

 

2.5   nvidia-smi pmon
進程監控命令,以滾動條形式顯示GPU進程狀態信息。

GPU進程統計信息以一行的滾動格式顯示,此工具列出了GPU所有進程的統計信息。要監控的指標可以基於終端窗口的寬度進行調整。 監控最多4個GPU,如果沒有指定任何GPU,則默認監控GPU0-GPU3(GPU索引從0開始)。

附加選項:

nvidia-smi pmon –i xxx

用逗號分隔GPU索引,PCI總線ID或UUID

nvidia-smi pmon –d xxx

指定刷新時間(默認為1秒,最大為10秒)

nvidia-smi pmon –c xxx

顯示指定數目的統計信息並退出

nvidia-smi pmon –s xxx

指定顯示哪些監控指標(默認為u),其中:

u:GPU使用率

m:FB內存使用情況

nvidia-smi pmon –o D/T

指定顯示的時間格式D:YYYYMMDD,THH:MM:SS

nvidia-smi pmon –f xxx

將查詢的信息輸出到具體的文件中,不在終端顯示


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM