寒武紀思元290芯片和MLU290-M5卡


引言:

寒武紀的首個訓練芯片:思元290
TSMC 7nm工藝,MLUv2架構;
有64個MLU Core,內存使用HBM2的內存,互聯方面支持MLU-Link的互聯技術;
使用思元290做卡是MLU290,本次發布的是MLU290-M5形態的,是Mazzine形態的卡;

芯片計算性能:

使用 MLUv2架構;含有64個MLU Core;
INT4的性能是1024TFLOPS
INT8的性能是512TFLOPS
INT16的性能是256TFLOPS
支持 vMLU的數量是4個;
對標的話NVIDIA A100最大是7個MIG;

芯片內存性能:

32GB HBM2內存
應該是4個Stack,總的內存的位寬是4096bit;
內存的帶寬是:1228GB/s
那么MemFreq就是:大約是1200Mhz,因為1200MHz*2DDR*4096bit的位寬/8/1000=1228.8MHz;


芯片互聯性能:

Host端,也就是GPU到CPU的是X16 PCIe Gen 4,雙向帶寬是64GB/s
Device段,也就是GPU到GPU之間的互聯,使用的是MLU-Link
MLU-Link波特率是50Gbps,並且每個GPU有6個Port/Link,每個Port有8個Lane,合計48個Lane;
總的帶寬是:50Gbps*2Direction*6Link或者Port*8Lans/8=600GB/s;

相對的NVLink 3.0,有12個Port/Link,每個Port有4個Lane,合計也是48個Lane;並且波特率也是50Gbps,
因此MLU-Link的貸款和NVLink3.0的總體上是一致的;

卡的其他參數

TDP是350W;
OAM Open Accelerator Module的形態,需要54V的供電;
包含散熱器的卡的總重量是1470g;

卡的橫向擴展

4個MLU290-M5可以組成1個玄思10000的2U的節點/系統;
黑色是節點內的Link互聯,藍色用於節點之間的互聯;
4個節點組成POD16
8個節點組成POD32


官網地址:http://www.cambricon.com/index.php?m=content&c=index&a=lists&catid=340



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM