标签【基于CPU／GPU／DSP的高性能计算】

最近有不少朋友在多次循环执行OpenCL内核程序的时候碰到一些问题。由于对OpenCL初学者而言可能比较普遍，因此我这里给出一个清晰简单的demo来掩饰如何简单又高效地执行循环执行OpenCL内核。 ...

在Intel Haswell架构里引入了Gather特性。它使得CPU可以使用向量索引存储器编址从存储器取非连续的数据元素。这些gather指令引入了一种新的存储器寻址形式，该形式由一个基地址寄存器（ ...

OpenCL如何获取最小线程并行粒度

由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是，其对设备特征查询的项更上层，而没有提供一些更为底层的特征查询。比如，你用OpenCL的设备查询API只能获取最 ...

随着OpenCL的普及，现在有越来越多的移动设备以及平板、超级本等都支持OpenCL异构计算。而这些设备与桌面计算机、服务器相比而言性能不是占主要因素的，反而能耗更受人关注。因此，这些移动设备上的GP ...

最近有不少朋友提及到如何能在运行时获悉一个GPU的最大local memory的尺寸。由于OpenCL对各类处理器开放，因此不同处理器所拥有的local memory大小也各不相同。即便是GPU，甚至 ...

OS X下使用OpenGL做离屏渲染

有时，我们想通过GPU做一些视频、图像处理，而处理的结果不需要显示在显示器上，而是直接交给主存，这时候我们可以通过OpenGL的离屏渲染来实现。由于我们不需要将渲染好的像素显示到屏幕上，因此我们可 ...

以下这个例子很简单，分别有两个双精度浮点类型的二维数组：double[512][1024]，共4MB数据，分为512行1024列，每列位8个字节。现在将每对浮点数组的每一行的第一个元素相加，然后将结果 ...

大家做高性能计算的朋友，想必对CPU的执行模式已经非常熟悉了吧。当代高级些的CPU一般采用超标量流水线，使得毗邻几条相互独立的指令能够并行执行——这称为指令集并行（ILP，Instruction-Le ...