引言:
寒武紀的首個訓練芯片:思元290
TSMC 7nm工藝,MLUv2架構;
有64個MLU Core,內存使用HBM2的內存,互聯方面支持MLU-Link的互聯技術;
使用思元290做卡是MLU290,本次發布的是MLU290-M5形態的,是Mazzine形態的卡;
芯片計算性能:
使用
MLUv2架構;含有64個MLU Core;
INT4的性能是1024TFLOPS
INT8的性能是512TFLOPS
INT16的性能是256TFLOPS
支持
vMLU的數量是4個;
對標的話NVIDIA A100最大是7個MIG;
芯片內存性能:
32GB
HBM2內存
應該是4個Stack,總的內存的位寬是4096bit;
內存的帶寬是:1228GB/s
那么MemFreq就是:大約是1200Mhz,因為1200MHz*2DDR*4096bit的位寬/8/1000=1228.8MHz;
芯片互聯性能:
Host端,也就是GPU到CPU的是X16 PCIe Gen 4,雙向帶寬是64GB/s
Device段,也就是GPU到GPU之間的互聯,使用的是MLU-Link
MLU-Link波特率是50Gbps,並且每個GPU有6個Port/Link,每個Port有8個Lane,合計48個Lane;
總的帶寬是:50Gbps*2Direction*6Link或者Port*8Lans/8=600GB/s;
相對的NVLink 3.0,有12個Port/Link,每個Port有4個Lane,合計也是48個Lane;並且波特率也是50Gbps,
因此MLU-Link的貸款和NVLink3.0的總體上是一致的;
卡的其他參數
TDP是350W;
OAM Open Accelerator Module的形態,需要54V的供電;
包含散熱器的卡的總重量是1470g;
卡的橫向擴展
4個MLU290-M5可以組成1個玄思10000的2U的節點/系統;
黑色是節點內的Link互聯,藍色用於節點之間的互聯;

4個節點組成POD16
8個節點組成POD32
官網地址:http://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=340