花费 28 ms
OpenCL多次循环执行内核的一个简单样例

最近有不少朋友在多次循环执行OpenCL内核程序的时候碰到一些问题。由于对OpenCL初学者而言可能比较普遍,因此我这里给出一个清晰简单的demo来掩饰如何简单又高效地执行循环执行OpenCL内核。 ...

Wed Apr 02 09:41:00 CST 2014 8 7913
关于Intel处理器架构中AVX2里Gather特性的说明

在Intel Haswell架构里引入了Gather特性。它使得CPU可以使用向量索引存储器编址从存储器取非连续的数据元素。这些gather指令引入了一种新的存储器寻址形式,该形式由一个基地址寄存器( ...

Wed Jun 25 11:04:00 CST 2014 0 8046
OpenCL如何获取最小线程并行粒度

由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是,其对设备特征查询的项更上层,而没有提供一些更为底层的特征查询。比如,你用OpenCL的设备查询API只能获取最 ...

Mon Aug 12 06:32:00 CST 2013 6 4014
OpenCL使用CL_MEM_USE_HOST_PTR存储器对象属性与存储器映射

随着OpenCL的普及,现在有越来越多的移动设备以及平板、超级本等都支持OpenCL异构计算。而这些设备与桌面计算机、服务器相比而言性能不是占主要因素的,反而能耗更受人关注。因此,这些移动设备上的GP ...

Wed Apr 02 23:46:00 CST 2014 0 4372
OpenCL如何判定一个work-group的最大Local Memory大小

最近有不少朋友提及到如何能在运行时获悉一个GPU的最大local memory的尺寸。由于OpenCL对各类处理器开放,因此不同处理器所拥有的local memory大小也各不相同。即便是GPU,甚至 ...

Mon Dec 16 03:42:00 CST 2013 6 2148
OS X下使用OpenGL做离屏渲染

有时,我们想通过GPU做一些视频、图像处理,而处理的结果不需要显示在显示器上,而是直接交给主存,这时候我们可以通过OpenGL的离屏渲染来实现。 由于我们不需要将渲染好的像素显示到屏幕上,因此我们可 ...

Mon Dec 10 05:05:00 CST 2012 1 3642
基于Intel处理器的PREFETCH指令的基本使用

以下这个例子很简单,分别有两个双精度浮点类型的二维数组:double[512][1024],共4MB数据,分为512行1024列,每列位8个字节。现在将每对浮点数组的每一行的第一个元素相加,然后将结果 ...

Fri Mar 09 11:39:00 CST 2012 0 3816
nVidia GPGPU vs AMD Radeon HD Graphics执行模式对比

大家做高性能计算的朋友,想必对CPU的执行模式已经非常熟悉了吧。当代高级些的CPU一般采用超标量流水线,使得毗邻几条相互独立的指令能够并行执行——这称为指令集并行(ILP,Instruction-Le ...

Sat Jan 17 01:44:00 CST 2015 0 2301

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM