基於FPGA的CNN算法移植(二)硬件架構


        這次我們來談談硬件架構,其實沒啥好說的,就是科普的東西。因為這個玩意兒真的沒啥新意

        第一款:google的TPU 架構

        圖中DDR3僅僅是用來傳送數據量小的權重,因為DDR3的速度實在是跟不上啊。而激活值采用167GiB/S 的速度傳入和傳出,中間那個矩陣乘法器是65536個 ,運算力相當野蠻吧。中間就是一些控制邏輯——不同層控制不同,還有就是一些為了保障速度的輔助邏輯。

 

第二款: 深鑒科技的DPU 

     

        由上面的TPU過渡到下面的DPU 感覺如何,上一博文中說了,就是input buffer, 處理,output buffer ,然后看這兩個buffer里面的數據怎么來最快,怎么去的最快。over。有多少資源就設計多大的處理器,資源決定了你流水多少。如此,你的latency的出來了,嗯,於是你的整個項目性能就大概出來了。

 

第三款:某公司用ZC706做的項目架構

    

          呵呵,上面都說完了,這個圖的文案我都不知道扯啥了。

         哦,這個是用HLS 做的,應該是卷積和pooling是兩個獨立IP ,沒有合並起來,所以對AXI總線多了兩次操作,或許可以合並的呢

 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

 作者:清霜一夢

歡迎加入: FPGA廣東交流群:162664354


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM