CUDA學習（三）之使用GPU進行兩個數組相加

本文轉載自查看原文 2018-12-08 21:28 761 CUDA/ 使用GPU相加兩個數組

傳入兩個數組，在GPU中將兩個數組對應索引位置相加

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <iomanip>
#include <iostream>
#include <stdio.h>

using namespace std;

//檢測GPU
bool CheckCUDA(void){
    int count = 0;
    int i = 0;

    cudaGetDeviceCount(&count);
    if (count == 0) {
        printf("找不到支持CUDA的設備!\n");
        return false;
    }
    cudaDeviceProp prop;
    for (i = 0; i < count; i++) {
        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }
    if (i == count) {
        printf("找不到支持CUDA的設備!\n");
        return false;
    }
    cudaGetDeviceProperties(&prop, 0);
    printf("GPU is: %s\n", prop.name);
    cudaSetDevice(0);
    printf("CUDA initialized success.\n");
    return true;
}//使用一維數組相加
__global__ void addForOneDim(double *a, double *b, double *c, int N);

//初始化一維數組
void InitOneDimArray(double *a, double b, int N);

int main(){
    //檢測GPU
    if (!CheckCUDA()){
        cout << "No CUDA device.";
        return 0;
    }

　　//****數組相加************************************************************************************************************************
    cout << "****************************************數組相加*********************************************************************" << endl;
    int N = 20;                  //定義數組大小
    double *h_a_one, *h_b_one, *h_c_one;      //聲明在CPU上使用的指針
    double *d_a_one, *d_b_one, *d_c_one;             //聲明在GPU上使用的指針
    //為數組分配大小
    h_a_one = new double[N];    
    h_b_one = new double[N];
    h_c_one = new double[N];

    cudaMalloc((void **)&d_a_one, sizeof(double)*N);    //在GPU上分配內存空間
    cudaMalloc((void **)&d_b_one, sizeof(double)*N);
    cudaMalloc((void **)&d_c_one, sizeof(double)*N);
    //為數組初始化
    InitOneDimArray(h_a_one, 1.1, N);
    InitOneDimArray(h_b_one, 2.2, N);
    
    //使用GPU中分配的指針指向CPU中的數組
    cudaMemcpy(d_a_one, h_a_one, sizeof(double)*N, cudaMemcpyHostToDevice);
    cudaMemcpy(d_b_one, h_b_one, sizeof(double)*N, cudaMemcpyHostToDevice);

    //調用核函數，使用1個線程塊N個線程
    //addForOneDim<<<1, N>>>(h_a_one, h_b_one, d_c_one, N);    //不能使用h_a_one和h_b_one，只能使用GPU上定義的指針，不然結果如圖一所示
    addForOneDim<<<1, N>>>(d_a_one, d_b_one, d_c_one, N);      //結果如圖二所示
　　//調用核函數，使用N個線程塊,每個線程塊中包含1個線程
　　//addForOneDim<<<N, 1>>>(d_a_one, d_b_one, d_c_one, N); //結果如圖三所示 //將GPU上計算好的結果返回到CPU上定義好的變量
    cudaMemcpy(h_c_one, d_c_one, sizeof(double)*N, cudaMemcpyDeviceToHost);

    //打印結果
    for (int i = 0; i < N; i++){
        cout <<  h_a_one[i] << " + " << h_b_one[i] << " = " << h_c_one[i] << endl;  
    }


    cout << endl << endl;
    system("pause");
    return 0;
}
//使用一維數組相加
__global__ void addForOneDim(double *a, double *b, double *c, int N){
    int tid = threadIdx.x;      //線程索引，啟用1個線程塊，每個線程塊N個線程
    if (tid < N){
        c[tid] = a[tid] + b[tid];
    }
}

//初始化一維數組
void InitOneDimArray(double *a, double b, int N){
    for (int i = 0; i < N; i++){
        a[i] = (i+1) * b;
        //cout << a[i] << endl;
    }
}

圖一（該圖是錯誤的）

圖二（該圖是正確的）

圖三（該圖是錯誤的）當在調用核函數時，

addForOneDim<<<N, 1>>>(d_a_one, d_b_one, d_c_one, N);

使用的索引是

int tid = threadIdx.x;      //對應的是一個線程塊中每個線程id

正確的索引是

int tid = blockIdx.x;       //對應的是每個線程塊id

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 OpenCL入門：(二：用GPU計算兩個數組和) shell實現兩個數的相加 js 兩個數組，重復的id進行替換，並合並兩個數組如何把兩個數組進行合並，並刪除它們的相同元素 java學習之—合並兩個數組並排序有N個數的數組，找出這個數組中的兩個數，使得這兩個數的和最接近0 js利用map對兩個數組對象進行合並去重 js兩個數組拼接兩個數組的交集 II [JS] JavaScript中兩個數組的拼接