Fugaku-基於ARM架構的超算集群


系統-Fugaku System

名字的來源就是Mount Fuji,簡單翻譯就是富士山或者富岳的意思
一個系統有396個滿配的Rack和36個半配的Rack;
一個Rack有384個Node(CPU);
那么Node數目就是396Full *384+36Half*192=152064+6912=158976個CPU;
Rack高度2000mm,寬度800mm,深度是1400mm;
存儲分為三層
第一層是全局文件系統的cache;
第二層是Lustre Based 文件系統;
第三層是還沒實現的Off Site的雲存儲服務;

互聯-TofuD網絡

Tofu代表 Torus Fusion,環形融合;
最后的一個D代表,High Density的節點和Dynamic packet slicing for Dual-rail (雙導軌)transfer。
6D網絡使用六個坐標系表示,X,Y,Z,A,B,C,其中 A,C坐標可以是0或者1;B坐標可以是0,1,2;X,Y,Z的坐標值取決於系統的規模;(所謂1圖勝千言,請看下圖)

X,Y,Z,B使用2個Port,A,C使用1個Port;每個Port的Link提供5GB/s的峰值吞吐(其中每個Link是8個6.25Gb/s的差分速率的lan組成的( 這句話不是很懂));
  • 6D mesh/torus 網絡實現了計算節點的高擴展性;
  • 虛擬的3D torus rank mapping scheme同時提供了高可用和topology-aware的可編程性;
單個節點:1個TofuD Link有10個Port合計20個Lane,Data rate可以達到28Gbps, (28 Gbps x 2 lane x 10port=28Gbps*20Lanes=70GB/s)
單個Link的帶寬是:28.05Gbps*2 lane* /8=7.0125GB/s
那么6個Link的帶寬一共是:6.8GB/s*6= 40.8GB/s
實際可以達到38.GB/s,轉化效率是38.1/40.8=93%;
TNI Tofu Network Interface 

C Z*A B X*Y
CPU CMU BoB Shelf Rack System

2 8=4*2 3 8=2*4  4=2*2 284full +36half


16 CPU 48 CPU 384 CPU
那么單個的CMU的規模就是X*Y*Z*A*B*C=1*1*1*1*1*2
那么單個的SHELF的規模就是 X*Y*Z*A*B*C=1*1*4*2*3*2
那么半框的RACK的規模就是: X*Y*Z*A*B*C=2*2*4*2*3*2
其他的就暫時沒看懂了。

CPU-A64FX 

A64FX實物
芯片的大小是60mm*60mm, TSMC 7 nm FinFET & CoWoS封裝;
芯片布局
可以看到四邊是四個HBM2的片上內存,上邊是IO接口,其他大部分是Core和Cache,一共48個計算核心;另外4個Core不做計算;
片上內存部分,每個Stack是8GB,帶寬是1024GB/s;
IO部分有兩個,一個是TofuD Interface,一個是X16 PCIe Gen 3;
Core部分,是ARM V8.2 64bit的核心,實現了2個512bit的向量指令單元SVE(scalable vector extensions)(2*512*2MA/64=32FLOPS);
說是CPU的基礎頻率是2GHz,睿頻是2.2GHz;
理論的FLOPS是488PFLOPS,睿頻下的FLOPS是537PFLOPS;不考慮半寬的Rack的話,理論的PFLOPS是514PFLOPS;計算如下:
考慮152064個CPU的話,每個CPU48Core,運行在2.2GHZ,每個周期可以完成32個FP64的運算,理論性能是152064*48*2.2G*32/1000000=514PFLOPS
96%的節點的實際的HPL的性能是415PFLOPS,那么轉化率就是415/514= 81 %;

功耗和散熱的設計

跑HPL的壓力的時候的耗電是28.33MW(7.33*3.863)。或者是14.7GFLOPS per Watt,這個要 再看一下是什么負載
節點的大小是:

最后看一下實物集群:

參考文獻:



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM