AMD OpenCL大學課程(2)

本文轉載自查看原文 2012-01-30 20:28 4710 OpenCL

1、OpenCL架構

OpenCL可以實現混合設備的並行計算，這些設備包括CPU，GPU，以及其它處理器，比如Cell處理器，DSP等。使用OpenCL編程，可以實現可移植的並行加速代碼。[但由於各個OpenCL device不同的硬件性能，可能對於程序的優化還要考慮具體的硬件特性]。

通常OpenCL架構包括四個部分：

平台模型(Platform Model)
執行模型(Execution Model)
內存模型(Memory Model)
編程模型(Programming Model)

2、OpenCL平台模型

不同廠商的OpenCL實施定義了不同的OpenCL平台，通過OpenCL平台，主機能夠和OpenCL設備之間進行交互操作。現在主要的OpenCL平台有AMD、Nvida，Intel等。OpenCL使用了一種Installable Client Driver模型，這樣不同廠商的平台就能夠在系統中共存。在我的計算機上就安裝有AMD和Intel兩個OpenCL Platform[現在的OpenCL driver模型不允許不同廠商的GPU同時運行]。

OpenCL平台通常包括一個主機(Host)和多個OpenCL設備（device），每個OpenCL設備包括一個或多個CU(compute units)，每個CU包括又一個或多個PE（process element）。每個PE都有自己的程序計數器(PC)。主機就是OpenCL運行庫宿主設備，在AMD和Nvida的OpenCL平台中，主機一般都指x86 CPU。

AMD平台來說，所有的CPU是一個設備，CPU的每一個core就是一個CU，而每個GPU都是獨立的設備。

3、OpenCL編程的一般步驟

下面我們通過一個實例來了解OpenCL編程的步驟，假設我們用的是AMD OpenCL平台（因為本人的GPU是HD5730），安裝了AMD Stream SDK 2.6,並在VS2008中設置好了include，lib目錄等。

首先我們建立一個控制台程序，最初的代碼如下：

 
           1: #include "stdafx.h" 
           
           2: #include <CL/cl.h> 
           
           3: #include <stdio.h> 
           
           4: #include <stdlib.h> 
           
           5:  
           
           6: #pragma comment (lib,"OpenCL.lib") 
           
           7:  
           
           8: int main(int argc, char* argv[]) 
           
           9: { 
           
           10: return 0; 
           
           11: }

第一步，我們要選擇一個OpenCL平台，所用的函數就是

通常，這個函數要調用兩次，第一次得到系統中可使用的平台數目，然后為（Platform）平台對象分配空間，第二次調用就是查詢所有的平台，選擇自己需要的OpenCL平台。代碼比較長，具體可以看下AMD Stream SDK 2.6中的TemplateC例子，里面描述如何構建一個健壯的最小OpenCL程序。為了簡化代碼，使程序看起來不那么繁瑣，我直接調用該函數，選取系統中的第一個OpenCL平台，我的系統中安裝AMD和Intel兩家的平台，第一個平台是AMD的。另外，我也沒有增加錯誤檢測之類的代碼，但是增加了一個status的變量，通常如果函數執行正確，返回的值是0。

 
           1: #include "stdafx.h" 
           
           2: #include <CL/cl.h> 
           
           3: #include <stdio.h> 
           
           4: #include <stdlib.h> 
           
           5:  
           
           6: #pragma comment (lib,"OpenCL.lib") 
           
           7:  
           
           8: int main(int argc, char* argv[]) 
           
           9: { 
           
           10: cl_uint status; 
           
           11: cl_platform_id platform; 
           
           12:  
           
           13: status = clGetPlatformIDs( 1, &platform, NULL ); 
           
           14:  
           
           15: return 0; 
           
           16: }

第二步是得到OpenCL設備

這個函數通常也是調用兩次，第一次查詢設備數量，第二次檢索得到我們想要的設備。為了簡化代碼，我們直接指定GPU設備。

 
           1: #include "stdafx.h" 
           
           2: #include <CL/cl.h> 
           
           3: #include <stdio.h> 
           
           4: #include <stdlib.h> 
           
           5:  
           
           6: #pragma comment (lib,"OpenCL.lib") 
           
           7:  
           
           8: int main(int argc, char* argv[]) 
           
           9: { 
           
           10: cl_uint status; 
           
           11: cl_platform_id platform; 
           
           12:  
           
           13: status = clGetPlatformIDs( 1, &platform, NULL ); 
           
           14:  
           
           15: cl_device_id device; 
           
           16:  
           
           17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU, 
           
           18: 1, 
           
           19: &device, 
           
           20: NULL); 
           
           21:  
           
           22: return 0; 
           
           23: }

下面我們來看下OpenCL中Context的概念：通常，Context是指管理OpenCL對象和資源的上下文環境。為了管理OpenCL程序，下面的一些對象都要和Context關聯起來：

—設備（Devices）:執行Kernel程序對象。

—程序對象（Program objects）: kernel程序源代碼

—Kernels:運行在OpenCL設備上的函數。

—內存對象（Memory objects）: device處理的數據對象。

—命令隊列（Command queues）: 設備之間的交互機制。

注意：創建一個Context的時候，我們必須把一個或多個設備和它關聯起來。對於其它的OpenCL資源，它們創建時候，也要和Context關聯起來，一般創建這些資源的OpenCL函數的輸入參數中，都會有Context。

這個函數中指定了和Context關聯的一個或多個設備對象,properties參數指定了使用的平台，如果為NULL,廠商選擇的缺省值被使用，這個函數也提供了一個回調機制給用戶提供錯誤報告。

現在的代碼如下：

 
           1: #include "stdafx.h" 
           
           2: #include <CL/cl.h> 
           
           3: #include <stdio.h> 
           
           4: #include <stdlib.h> 
           
           5:  
           
           6: #pragma comment (lib,"OpenCL.lib") 
           
           7:  
           
           8: int main(int argc, char* argv[]) 
           
           9: { 
           
           10: cl_uint status; 
           
           11: cl_platform_id platform; 
           
           12:  
           
           13: status = clGetPlatformIDs( 1, &platform, NULL ); 
           
           14:  
           
           15: cl_device_id device; 
           
           16:  
           
           17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU, 
           
           18: 1, 
           
           19: &device, 
           
           20: NULL); 
           
           21: cl_context context = clCreateContext( NULL, 
           
           22: 1, 
           
           23: &device, 
           
           24:                 
           
           25:  
           
           26: return 0; 
           
           27: }

接下來，我們要看下命令隊列。在OpenCL中，命令隊列就是主機的請求，在設備上執行的一種機制。Kernel執行前，我們一般要進行一些內存拷貝的工作，比如把主機內存中的數據傳輸到設備內存中。

另外要注意的幾點就是：對於不同的設備，它們都有自己的獨立的命令隊列；命令隊列中的命令(kernel函數）可能是同步的，也可能是異步的，它們的執行順序可以是有序的，也可以是亂序的。

命令隊列在device和context之間建立了一個連接。

命令隊列properties指定以下內容:

是否亂序執行（在AMD GPU中，好像現在還不支持亂序執行）
是否啟動Profiling。Profiling通過事件機制來得到kernel執行時間等有用的信息，但它本身也會有一些開銷。

如下圖所示，命令隊列把設備和context聯系起來，盡管它們之間不是物理連接。

添加命令隊列后的代碼如下：

 
           1: #include "stdafx.h" 
           
           2: #include <CL/cl.h> 
           
           3: #include <stdio.h> 
           
           4: #include <stdlib.h> 
           
           5:  
           
           6: #pragma comment (lib,"OpenCL.lib") 
           
           7:  
           
           8: int main(int argc, char* argv[]) 
           
           9: { 
           
           10: cl_uint status; 
           
           11: cl_platform_id platform; 
           
           12:  
           
           13: status = clGetPlatformIDs( 1, &platform, NULL ); 
           
           14:  
           
           15: cl_device_id device; 
           
           16:  
           
           17: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU, 
           
           18: 1, 
           
           19: &device, 
           
           20: NULL); 
           
           21: cl_context context = clCreateContext( NULL, 
           
           22: 1, 
           
           23: &device, 
           
           24: NULL, NULL, NULL); 
           
           25:  
           
           26: cl_command_queue queue = clCreateCommandQueue( context, 
           
           27: device, 
           
           28: CL_QUEUE_PROFILING_ENABLE, NULL ); 
           
           29:  
           
           30: return 0; 
           
           31: }

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 AMD OpenCL 大學課程(1) AMD OpenCL大學課程(3) AMD OpenCL大學課程(5) AMD OpenCL大學課程(11) OpenCL 學習step by step (1) 安裝AMD OpenCL APP Ubuntu下使用AMD APP編寫OpenCL程序 Windows 7中使用AMD APP OpenCL的一個簡單例子 Win7+AMD+VS2013+opencl1.x安裝與測試 OpenCL 在GitHub上讀大學：涵蓋清華，北大，浙大等大學課程