芯片的Systolic Array 脉动阵列设计加速矩阵乘运算

本文转载自查看原文 2020-07-02 21:34 2125 HardwareArch

脉动阵列，是现在某些智能加速芯片的一种架构；由一组处理单元 Processor Elements组成；处理单元简称是PE，也经常简称为Cell；所有的Cell是用Mesh结构互连起来；每个Cell处理一系列的流经自己的数据；之后传递给邻居的Cell，大部分的Cell都是相同的操作。

SIMD是和其相似的架构，但是SIMD如名字表达的那样，控制指令是唯一的，数据是不同的，并且数据从内存加载到PE；脉动阵列的区别是可能从片上的RAM加载到PE，并且每个PE有自己的控制单元，这样不仅仅是数据的并行了。

脉冲阵列用在专用的加速芯片上的优势是：1. 设计上比较规整，简单；2. 通信或者传递信息的并发性好；3. 平衡了计算和IO，因为一般都是计算等待IO。

一维：适合单一的IO，因此用处不是很大；

二维：一般都是平面矩阵，放了很多的处理单元，但是只允许边界的单元进行IO；

三维：允许IO经过每个处理单元；

使用三个计算单元计算这个矩阵乘的设计

下面是三个脉动阵列：

下面是每个步骤的过程数据：

可以看出，五部步可以计算出三个维度的计算结果。

推而广之如果是平面矩阵的脉动阵列，其实可以计算两个二维矩阵的乘积：

脉动阵列的设计：

过程数据是：

对脉动阵列的设计可以有很多种方式。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 TPU中的脉动阵列及其实现 Cublas矩阵加速运算用cudamat做矩阵运算的GPU加速矩阵乘法加速器的设计框架使用各种方法加速大型矩阵运算的效率对比 matlab矩阵列互换 C#阵列Array排序矩阵乘法与矩阵加速 glm初试，关于行矩阵列矩阵问题矩阵运算