基於FPGA的CNN算法移植（二）硬件架構

本文轉載自查看原文 2018-03-15 11:51 2048 CNN算法移植

這次我們來談談硬件架構，其實沒啥好說的，就是科普的東西。因為這個玩意兒真的沒啥新意

第一款：google的TPU 架構

圖中DDR3僅僅是用來傳送數據量小的權重，因為DDR3的速度實在是跟不上啊。而激活值采用167GiB/S 的速度傳入和傳出，中間那個矩陣乘法器是65536個，運算力相當野蠻吧。中間就是一些控制邏輯——不同層控制不同，還有就是一些為了保障速度的輔助邏輯。

第二款：深鑒科技的DPU

由上面的TPU過渡到下面的DPU 感覺如何，上一博文中說了，就是input buffer，處理，output buffer ，然后看這兩個buffer里面的數據怎么來最快，怎么去的最快。over。有多少資源就設計多大的處理器，資源決定了你流水多少。如此，你的latency的出來了，嗯，於是你的整個項目性能就大概出來了。

第三款：某公司用ZC706做的項目架構

呵呵，上面都說完了，這個圖的文案我都不知道扯啥了。

哦，這個是用HLS 做的，應該是卷積和pooling是兩個獨立IP ，沒有合並起來，所以對AXI總線多了兩次操作，或許可以合並的呢

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

作者：清霜一夢

歡迎加入： FPGA廣東交流群：162664354

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於FPGA的CNN算法移植（三）軟件算法架構分析基於FPGA的CNN算法移植（一）概述基於FPGA的CNN算法移植（五）算法優化方向匯總基於FPGA的CNN算法移植（四）地平線等公司的 ADAS 產品 CORDIC算法原理及硬件實現（FPGA） FPGA的CNN加速，你怎么看？ FPGA硬件加速 FPGA加三移位算法：硬件邏輯實現二進制轉BCD碼 FPGA芯片內部硬件介紹 FPGA內部硬件結構簡介