nvprof 使用記錄; 以及使用 nvprof 查看tensorflow-gpu 核函數運行記錄


最近需要使用 nvprof 此時cuda 程序運行的性能,下面對使用過程進行簡要記錄,進行備忘:

  • 常用使用命令:nvprof --unified-memory-profiling off python run.py (這是因為某塊內存被設置了不允許分析,導致)參考:https://docs.nvidia.com/cuda/profiler-users-guide/index.html#unified-memory-profiling 
  • nvprof --unified-memory-profiling off python run.py (2>run.txt 1>out.txt)
  • nvprof --unified-memory-profiling off --print-gpu-trace python run.py 
  • nvprof --unified-memory-profiling off --print-gpu-trace -o prof.nvvp python run.py
  • nvvp prof.nvvp (使用 x11 forwarding) 
  • ./run.sh 2>runsh_out.txt 

Non-Visual Profiler 和 Visual Profiler  的使用:

# nvprof
nvprof python train_mnist.py 
nvprof --print-gpu-trace python train_mnist.py 

#nvvp (可以使用x11 forwarding 使用,當然更適合在本機使用)
nvprof -o prof.nvvp python train_mnist.py (在GPU集群上生成 .nvvp文件)
scp your_gpu_machine:/path/to/prof.nvvp . (scp 拷貝文件到本地)
nvvp prof.nvvp (在本地機器上進行可視化分析)

參考鏈接:

https://blog.csdn.net/yinhuier/article/details/80551268 (簡單使用教程)

https://docs.nvidia.com/cuda/profiler-users-guide/index.html (nvidia 官網教程)

https://gist.github.com/sonots/5abc0bccec2010ac69ff74788b265086 (一個日本工程師寫的文檔,不錯,本文大多命令摘自此文檔,文檔中有較為詳細的實例截圖,可以參考)

https://blog.csdn.net/haoqimao_hard/article/details/80557740 (CSDN 上較為簡潔的博客,可以參考使用)

https://indico-jsc.fz-juelich.de/event/32/material/0/5.pdf (德國一個簡單介紹的資料)

保持更新,更多內容請關注 cnblogs.com/xuyaowen; 如果對您有幫助,還請點擊推薦或關注~!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM