使用CUDA加速CPU程序的步驟:
1.通過性能分析工具(如vs)找到CPU程序最耗時的多個地方,並確定耗時程序的入口函數
2.將CPU函數進行清理
1.將循環部分的代碼找出來。
2.將函數內所用到的數據從C++類結構變成C的結構體。
3.標准化輸入輸出,保證其為C結構,並與原程序的數據進行無縫對接。
4.將循環內部的函數也做相同處理,最終得到C版本的且輸入輸出與原程序對接的CPU程序。
5.保證清理后的CPU程序正常正確運行。
3.將清理后的CPU函數變為cuda核函數
1.申請設備內存
2.拷貝主機內存到設備內存
3.核函數計算
4.拷貝設備內存回主機內存
5.釋放資源
4.優化cuda核函數
5.性能分析
原文:https://blog.csdn.net/fb_help/article/details/82049895