使用各種方法加速大型矩陣運算的效率對比

本文轉載自查看原文 2014-04-07 15:32 3487 algorithms

並行程序設計這門課程的課程實驗要求我分別使用串行, 並行+分塊算法, 並行+分塊+SSE指令集加速, CUDA等四種方法來計算矩陣乘法.

還真別說收獲蠻大的.

我的配置是i5 3470+GTX660Ti

下面的表格是各種算法下的情況.

從圖中明顯可以看出, 這個分塊之后cache利用效率大大提高,本來如果普通多線程相對於串行來說不過 4倍,但是這里速度達到了10倍多. 也就是說CPU Cache的合理利用非常有用.

SSE的加速效果就非常厲害了, 相對於分塊又提高了10倍的速度.不過 SSE的浮點數運算准確度好低啊!!!!! 誤差超級大. 但是矩陣的每個點誤差又只有1點幾. 但是每個點都有1點幾, 結果矩陣的所有點的誤差之和就看起來簡直不堪入目.

CUDA的效果簡直非常拔群. 而且時間還包括了傳輸數據到顯卡的時間.

哦,說些閑話.

CUDA的設備變量的地址是分配在操作系統的kernel層的,直接訪問會導致memory access violate錯誤.

比如

     Matrix A{ int w;int h; float *d;};

     Matrix * A;

     cudaMalloc((void**)&A,sizeof(Matrix));

     A->w = 16; 　　//這里會出錯.!!!

還有,在運行CUDA程序時, Win 8 會有顯卡超時設置,如果你的CUDA程序時間運行太久,顯卡會失去響應,然后windows就自動對顯卡重置. 你的屏幕右下角會出現說,顯卡驅動已停止響應,自動恢復的錯誤. 你的CUDA程序會返回編號為30的UnkownError類型.

需要在注冊表里設置關閉windows TDR 或者加長延時上限.

具體參考

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Cublas矩陣加速運算 Java遍歷List5種方法的效率對比 Java矩陣運算庫及其對比用cudamat做矩陣運算的GPU加速位運算和取模運算的運算效率對比 js之矩陣運算方法 mybatis學習之路----批量更新數據兩種方法效率對比 npm使用國內鏡像加速的幾種方法芯片的Systolic Array 脈動陣列設計加速矩陣乘運算 Python幾種創建list的方法的效率對比