問題提出,也就是說內存和處理器之間的帶寬永遠都會存在,剛不過就躲一下,直接在內存進行計算。

Aquabolt已經是三星電子的HBM2的內存,Aquabolt-XL是基於HBM2構建了PIM的產品;是這種形式產品的第一代;

上面圖中的比較是HBM2和DRAM的比較,不是HBM2-PIM和HBM2的比較,第一次都看錯了;下面這個才是:

下面介紹了HBM2產品的位寬和帶寬的情況

大的架構上看就是實現最大程度的復用

微觀的架構看的話,PIM分為三個部分,SIMD的運算器,寄存器和控制器;

PIM雖小,五臟俱全,有自己的ISA,可以實現,算術運算,數據傳輸運算,流程控制運算;

PIM的工作模式分為三種:單bank模式,全bank模式,全bank-PIM模式;

PIM上面是ISA,ISA上面就是Kernel,Kernel上面是應用,因此需要改變的是驅動文件,代數庫,最終是框架函數;

下面是芯片的工程上是怎么做的系統集成,8Hi的Die,其中四個是DRAM Die,另外四個是PIM-DRAM Die;

實測的性能的提升還是比較明顯的

雖然功耗分解上看是略微有些上升

又是一個實測的案例,證明在業務上來看,時間更短,功耗更低

實測時候的配置

實測的結果確實有不小的提升

答疑,應用程序修改較小,正在推動標准,暫時不兼容ECC但是后面爭取兼容;

下面的加速DIMM,AXDIMM就是概念產品了,就是在DIMM上添加一個Buffer,提高帶寬,減少數據傳輸降低功耗;

POC的系統也已經測過了

放眼未來,支持更多的DRAM類型,提高性能,降低功耗,推進標准等等;

一個問題就是如何保持一致性,答案是不行;
Q: How does PIM manage coherence with host?
A: memory vision will be offload will not be cached, but those applications have low data reusability
參考文獻: