這次我們來談談硬件架構,其實沒啥好說的,就是科普的東西。因為這個玩意兒真的沒啥新意
第一款:google的TPU 架構
圖中DDR3僅僅是用來傳送數據量小的權重,因為DDR3的速度實在是跟不上啊。而激活值采用167GiB/S 的速度傳入和傳出,中間那個矩陣乘法器是65536個 ,運算力相當野蠻吧。中間就是一些控制邏輯——不同層控制不同,還有就是一些為了保障速度的輔助邏輯。
第二款: 深鑒科技的DPU
由上面的TPU過渡到下面的DPU 感覺如何,上一博文中說了,就是input buffer, 處理,output buffer ,然后看這兩個buffer里面的數據怎么來最快,怎么去的最快。over。有多少資源就設計多大的處理器,資源決定了你流水多少。如此,你的latency的出來了,嗯,於是你的整個項目性能就大概出來了。
第三款:某公司用ZC706做的項目架構
呵呵,上面都說完了,這個圖的文案我都不知道扯啥了。
哦,這個是用HLS 做的,應該是卷積和pooling是兩個獨立IP ,沒有合並起來,所以對AXI總線多了兩次操作,或許可以合並的呢
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
作者:清霜一夢
歡迎加入: FPGA廣東交流群:162664354