如何理解CUDA中的cudaMalloc()的參數

本文轉載自查看原文 2022-02-14 10:58 1169 CUDA

對指針和地址比較熟悉的童鞋可以比較容易的理解這個概念，為了更好的讓更多的人理解cudaMalloc的參數，寫這篇文章，以饗讀者。

首先看下此運行時函數的原型：

cudaError_t cudaMalloc (void **devPtr, size_t  size );

此函數返回值是CUDA中定義的一個錯誤代碼。

主要的第一個參數。為什么是兩個星星呢？用個例子來說明下。

float *device_data=NULL;
size_t size = 1024*sizeof(float);
cudaMalloc((void**)&device_data, size);

上面這個例子中我在顯存中申請了一個包含1024個單精度浮點數的一維數組。而device_data這個指針是存儲在主存上的。之所以取device_data的地址，是為了將cudaMalloc在顯存上獲得的數組首地址賦值給device_data。在函數中為形參賦值是不會在實參中繁盛變化的，但是指針傳遞的是地址，我們操作了某個地址的數據，實際上是真的改變了指定地址的數據。像這個申請顯存的函數，第一個參數傳遞的是device_data這個指針的地址，然后改變這個地址的內容就會帶給實參真正的改變。

“指針”也是一種變量，之所以叫他指針，完全是因為它的值是內存地址。

既然指針是變量，那么變量也是需要存儲空間的。

cudaMalloc的第一個參數傳遞的是存儲在cpu內存中的指針變量的地址，cudaMalloc在執行完成后，向這個地址中寫入了一個地址值（此地址值是GPU顯存里的）。

https://blog.csdn.net/bendanban/article/details/8151335

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 理解CUDA中的網格（Grid），線程塊（Block）和線程（thread）【CUDA學習】__syncthreads的理解基於TensorFlow理解CNN中的padding參數理解Javascript參數中的arguments對象 pytorch中LSTM各參數理解 cuda nvprof 輸出結果的理解和優化空間理解cuda並行程序的規約思想 GPU CUDA之——深入理解threadIdx idea中設置JVM參數，簡單理解JVM常見參數，JVM調優 jQuery.each的function中有哪些參數（可以大概理解function中的參數問題）