HBM顯存技術與市場前景
HBM(High Bandwidth Memory)作為一種GPU顯存存在時,現在似乎已經不算罕見了。很多人可能都知道HBM成本高昂,所以即便不罕見,也只能在高端產品上見到。部分游戲玩家應該知道,HBM是一種帶寬遠超DDR/GDDR的高速內存,而且內部結構還用上了3D堆疊的SRAM,聽起來就十分高級,雖然成本高,但這行業有錢的主也不少,況且GPU不是就在用HBM。未來HBM會替代DDR,成為計算機內存嗎?
本文圍繞HBM內存和CPU搭配會發生什么、HBM的三個缺點以及HBM是否適用於PC內存等方面進行系統的分析。
HBM(High Bandwidth Memory)作為一種GPU顯存存在時,現在似乎已經不算罕見了。很多人可能都知道HBM成本高昂,所以即便不罕見,也只能在高端產品上見到。如英偉達面向數據中心的GPU;AMD在消費級GPU上用HBM算是比較少見的例子。
部分游戲玩家應該知道,HBM是一種帶寬遠超DDR/GDDR的高速內存,而且內部結構還用上了3D堆疊的SRAM,聽起來就十分高級。有PC用戶曾經暢想過,要是HBM內存能用到一般的個人電腦、筆記本產品上,和一般的CPU搭配,豈不是美翻天了嗎——雖然成本高,但這行業有錢的主也不少啊,況且GPU不是就在用HBM嗎?
AMD Radeon R9 Nano顯卡旁邊的四顆封裝就是HBM
1. HBM內存和CPU搭配怎么樣?
其實與HBM搭配的中央處理器並不是不存在的,去年在無數篇文章里提過的富士通的超級計算機富岳(Fugaku)內部所用的芯片A64FX,就搭配了HBM2內存。另外Intel很快要發布的Sapphire Rapids至強處理器明年就會有HBM內存版;還有像是NEC SX-Aurora TSUBASA之類的。
那就知道了CPU搭配HBM起碼是可行的(雖然可能從嚴格意義看,A64FX之類的芯片已經超越了CPU的范疇),只不過這些產品怎么說都還是面向數據中心或者HPC應用的。是不是因為貴,所以才沒有下放到消費級市場呢?這可能是一個重要或相對靠近源頭的原因。本文就借着淺談HBM的機會,聊聊這種內存的特性和使用場景,以及未來會不會替代現在計算機上十分常見的DDR內存。
從上方看HBM,來源:富士通
就HBM常見的形態看,通常以從表面看起來幾顆die(package)的方式存在,和主芯片(如CPU、GPU)靠得很近,一般就挨着主芯片。如像上面這張圖,A64FX就長這樣,周圍的那4顆package都是HBM內存。這樣的存在形態,與一般的DDR內存就存在着比較大的區別。
HBM的特點之一,也是以相比DDR/GDDR更小的尺寸、更高的效率(部分)實現更高的傳輸帶寬。而且實際上每個HBM封裝內部是疊了好多層DRAM die的,所以也是個3D結構;DRAM die之間以TSV(硅通孔)和microbump連接;除了堆疊的DRAM die以外,下層會有個HBM控制器邏輯die。然后最下層通過base die(如硅中介silicon interposer),與CPU/GPU等互聯。
從側面看HBM,來源:AMD
從這種結構就不難發現,其互聯寬度是遠大於DDR/GDDR的,下方互聯的觸點數量可遠遠多於DDR內存連接到CPU的線路數量。HBM2的PHY接口實施規模,和DDR接口不在一個層面上;HBM2的連接密度高出太多。從傳輸位寬的角度看,每層DRAM die是2個128bit通道,4層DRAM die高度的HBM內存總共就是1024bit位寬。很多GPU、CPU周圍都有4片這樣的HBM內存,則總共位寬就是4096bit。
作為對比,GDDR5內存每通道位寬32bit,16通道的話總共就是512bit;DDR4的總位寬就更不用多談了。事實上,現在主流的第二代HBM2每個堆棧可以堆至多8層DRAM die,在容量和速度方面又有了提升。HBM2的每個堆棧支持最多1024個數據pin,每pin的傳輸速率可以達到2000Mbit/s,那么總帶寬就是256Gbyte/s;在2400Mbit/s的每pin傳輸速率之下,一個HBM2堆棧封裝的帶寬就是307Gbyte/s。
來源:Synopsys
上面這張圖是Synopsys給出的DDR、LPDDR、GDDR和HBM的對比,可以看看Max I/F BW這一欄其他選手的能力,與HBM2壓根不在一個量級。這么高的帶寬,在高度並行計算、科學計算、計算機視覺、AI之類的應用上,簡直就是爽翻的節奏啊。而且從直覺上看,HBM和主芯片靠得那么近,理論上可以獲得更高的傳輸效率才對(從每bit數據傳輸消耗的能量看,HMB2的確有很大優勢)。
感覺HBM除了成本和內存總容量落了下風,要真的用在個人電腦上做內存,豈不是相當完美?
2. HBM的缺點1:靈活性欠佳
真的是這樣嗎?HBM這類型的內存,最早是由AMD於2008年發起的。AMD提出HBM的初衷就是對計算機內存做出功耗、尺寸方面的變革。后續多年時間中,AMD一直在嘗試解決die堆疊的技術問題,后來找到了業界具備存儲介質堆疊經驗的合作伙伴,包括SK Hynix,以及一些interposer、封裝領域的廠商。
HBM是在2013年,由SK Hynix首度制造問世的。而且這一年HBM被JEDEC(電子元器件工業聯合會)的JESD235標准采用。第一顆應用了HBM存儲的GPU是2015年的AMD Fiji(Radeon R9 Fury X);次年三星開始大規模量產HBM2——英偉達Tesla P100是最早采用HBM2存儲的GPU。
從HBM的形態就不難發現其第一個缺點:系統搭配缺乏靈活性。對於早年的PC而言,內存容量的擴展是個比較常規的能力。而HBM與主芯片封裝在一起,不存在容量擴展的可能,在出廠時就已經將規格定死。而且與現在筆記本設備上,DDR內存焊死在主板上還不一樣,HBM是由芯片制造商整合到芯片上的——其靈活性會更弱,對OEM廠商而言尤其如此。(雖然現在某些高端系統,可能存在HBM+DDR的解決方案,兩種內存作為不同層級的存儲系統來調配)
對於絕大部分芯片制造商而言,面向大眾市場(包括基礎設施市場)推處理器,基於包括成本在內的各方面考慮,也不大可能推出各種內存容量的芯片SKU型號。這些廠商所推的處理器本身就有各種配置型號(如Intel酷睿處理器有各種型號)——如果再考慮細分內存容量的不同,制造成本恐怕也很難支撐。
Intel Lakefield處理器的內存是疊在芯片上方的,來源:Intel
不過在消費市場上,更注重便攜性的用戶可能並不是很在意內存的擴展性。如蘋果M1就是其中的典型代表,8GB/16GB內存是靠在M1芯片一側的。消費級產品中,為數不多會將內存都封裝到芯片上的產品,還有Intel LakeField。這兩顆芯片的確都犧牲了內存的擴展性。但即便是奢侈如蘋果M1和Intel Lakefield,其實也都沒有采用HBM內存(當然這兩者的封裝方式也不是采用silicon poser這種wafer級2.5D封裝)。這是為什么呢?
3. HBM的缺點2:容量偏小
HBM的第二個問題就是,內存容量相比DDR會更受局限。雖說一片HBM封裝就可以堆8層DRAM die,但實際上每層也就8Gbit,那么8層就是8GByte。像A64FX這種超算芯片留4個HBM接口,也就是4個HBM堆棧封裝,則一顆芯片也就是總共32GByte容量。
這樣的容量,在DDR面前還是太小了。消費市場上普通PC要堆大於32GByte的內存真的太常見了。不僅是PC、服務器主板上可擴展的內存插槽一大堆,某些DDR4/5 DIMMs內存顆粒也在搞DRAM die的堆疊。采用比較高端的DRAM die堆疊,2-rank的RDIMM(registered DIMMs)就能做到128GByte容量——考慮高端服務器96個DIMM插槽,那就是至多12TByte的容量。
前文也提到了HBM和DDR可以混合着一起用,HBM2負責高帶寬但小容量,DDR4負責稍低的帶寬但大容量。從系統設計的角度來說,HBM2內存在處理器這里就更像是L4 cache了。
HBM的DRAM die長這樣,來源:Wikipedia
3. HBM的缺點3:訪問延遲高
對於PC而言,HBM一直都沒有應用於CPU主內存的一個重要原因在於其延遲很高。就延遲的問題,雖然很多科普文章會說其延遲表現不錯,或者像賽靈思針對搭載HBM的FPGA形容其延遲與DDR相似,但可能很多文章談的“延遲”並不是同一個延遲。
當代的DDR內存,在規格上普遍也都會標CL(CAS延遲,列尋址所需的時鍾周期,表示讀取延遲的長短)。這里所說的CAS延遲,是指從讀取指令(與Column Address Strobe)發出,到數據准備就緒的過程,中間的一個等待時間。
在內存控制器告訴內存,需要訪問某個特定位置的數據后,需要若干個周期的時間以后才能抵達該位置並執行控制器發出的指令。CL是內存延遲中最重要的參數。就延遲長短來說,這里的“周期”其實還需要乘以每周期的時間(越高的整體工作頻率,則表明每周期時間越短)。
對於HBM而言,如前所述其特性之一就是互聯寬度超寬(或者說並行的傳輸線路超多,雖然市面上似乎也有更低位寬的版本),這就決定了HBM的傳輸頻率不能太高,否則總功耗和發熱撐不住(而且也並不需要那么高的總帶寬)。
HBM的頻率的確會比DDR/GDDR低很多,三星此前的Flarebolt HBM2內存每pin的傳輸帶寬是2Gbit/s,差不多是1GHz的頻率;后來有加壓提頻到1.2GHz的產品。三星當時提到這個過程還需要考慮降低超過5000個TSV之間的並行時鍾干擾;而且要增加DRAM die之間的散熱bump數量,來緩解發熱問題。上圖中AMD在列出HBM的頻率其實才500MHz。
此前浙江大學、蘇黎世聯邦理工學院有發一篇題為Benchmarking High Bandwidth Memory on FPGA的paper。這篇paper主要是研究HBM在FPGA上的細節特性,以及如何基於這些特性來提高FPGA的工作效率。這項研究是基於賽靈思的Alveo U280進行的——這款FPGA之上就帶兩個堆棧的HBM子系統。
來源:Benchmarking High Bandwidth Memory on FPGA
這篇paper特別提到了:“HBM延遲遠高於DDR4。HBM芯片與對應FPGA的連接是通過串行I/O連接進行的,需要針對並行-串行-並行轉換的處理。”上面這張表是這項研究中呈現的HBM與DDR4閑時內存訪問延遲,這里的page hit是指在內存列訪問之前不需要Precharge和Activate指令(行訪問時,bank處於open狀態),可達成最小延遲的狀態。page closed/miss等詳情可以參見paper原文。
來源:Benchmarking High Bandwidth Memory on FPGA
可能從系統的角度看,Alveo U280存在一定的特殊性,不過應該還是能夠說明問題的。這里面的每個HBM堆棧都分成了8個獨立的內存通道(前面提到的疊4層DRAM die),每個內存通道又進一步切分成了2個64bit的偽通道(pseudo channels)。好像其他包含HBM的系統也是類似的構成方式。
在總共16條內存通道之上,有32個AXI通道與用戶邏輯做交互:每個AXI通道提供面向FPGA編程的標准接口,每個AXI通道只允許訪問各自的內存區域。為了讓每條AXI通道都能訪問完整的HBM空間,賽靈思引入了通道之間的switch——后面具體的就不再深入了,可能往上是更具FPGA特殊性的設計。網上還有更多針對HBM延遲的研究。
更寬的位寬,以及更復雜的系統始終是造成HBM訪問延遲更高的重要因素。
5. 所以HBM適合用於PC內存嗎?
高帶寬、高延遲這個特性,決定了HBM是非常適用於作為GPU顯存的,因為游戲、圖形處理本身就是較大程度可預測的高並發工作任務。這類負載的特點就是需要高帶寬,而對延遲並沒有那么敏感。所以HBM會出現在高端GPU產品上。根據這個道理,其實也決定了HBM非常適合HPC高性能計算、AI計算,所以A64FX和下一代至強處理器雖然是CPU,但也會選擇考慮用HBM作內存。
但對於個人電腦來說,CPU要處理的任務具有極大的不可預測性,要求各種隨機存儲訪問,對延遲天生有着更高的敏感度;而且對低延遲的要求往往還高於對高帶寬的要求。更何況HBM成本也很高。這就決定了至少就短期看,HBM很難在PC上替代DDR。似乎這個問題也和GDDR是否可應用於PC內存是類似的。
不過就長遠看,情況是誰也無法預料的。就如前文提到的,可以考慮混合方案;而且不同層級的存儲資源正在發生顯著的變化,如前不久還撰文談到了AMD已經把處理器上的L3 cache堆到了192MB。對於die內cache這種本來就在隱藏外部存儲延遲的組成部分而言,可能隨着處理器芯片上的cache越來越大,對系統內存的延遲要求反倒沒那么高了。
把CPU三級緩存堆到192MB,AMD與台積電的合謀
專欄又很久很久沒更文章了,這周趁着不需要給 EE Times China 供稿的空檔,這篇文章就更在個人的面包板和知乎專欄上吧;捕捉的其實是上個禮拜的熱點了。水平有限,純做半導體技術愛好者之間的內容共享。
在 HotChips 2019 之上, Lisa Su 曾經呈現過下面這張圖(這張圖是大神官同學友情找到的…),是在過去 10 年間,造成處理器性能提升的主要因素。其中包括編譯器改進、微架構迭代、更大的 die size 等,而處理器性能提升的最重要因素,占到 40% 比重的乃是制造工藝技術的改進。
雖然知道制造工藝改進對於芯片性能與效率提升很重要(摩爾定律嘛),但沒想到會這么重要。不過也提過,AMD 如今在桌面 CPU 市場的風生水起,最重要的恐怕還是台積電的助力;而其 CPU 微架構在 Intel 面前大概也沒有什么獨特的優勢。
如 AMD 銳龍處理器在桌面 CPU 市場率先應用了 chiplet 方案,把原本的大 die 切成一個個小 die,采用 chiplet 的方案“串聯”起來,所以看到 AMD 銳龍處理器也比同價位的 Intel 酷睿處理器更能堆核心,在多線程性能上有相當的領先優勢。
前不久的 Computex 2021 大會上,AMD 又拋出了幾枚足以對 Intel 造成威懾力的炸彈,其中有一個與制造工藝又有很大的關系,即處理器上的 3D V-Cache,讓處理器的 L3 cache 能比較容易地堆到 192MB 大小,並且演示借此在游戲上獲得 15% 的性能提升。
這項技術本質上是 2.5D/3D 封裝技術,借此機會也恰好聊聊台積電的 3DFabric 技術,或者說真正用人話來談談台積電的 2.5D 和 3D 封裝技術,未來有機會的話可以着重介紹介紹 Intel 的封裝技術。
畢竟 3D 封裝技術不是被人稱作 More than Moore's Law 之類的么,也是此前很多媒體喊了很久的讓摩爾定律在芯片制造業延續的重要解決方案。(疊在一起,是不是也算單位面積內的晶體管數量翻番之類的...不過感覺疊層越往后越是幾何級數增長...呃...可能多慮了。
當三級緩存疊在 CPU 上方
知道 AMD 最新的 Zen 架構處理器普遍在用多 chiplet(或者說多 die)的方案,每個chiplet 上都有幾個 CPU 核心——多加幾枚 chiplet,也就自然多出不少處理器核心。這么做的好處在於更小的 die size,能獲得更高的芯片制造良率和成本效益。這些 chiplet 之間還需要藉由一枚 IO die(cIOD)來做通訊、互聯,就像下圖這樣:
這里的 CPU die(或者Compute Dies)可以按照需要做刪減,做成不同規格的處理器賣出去。不過 AMD Zen 架構處理器的這種 chiplet 封裝方案並不稀罕,雖然確是 AMD 在這兩代產品中克敵制勝的法寶,但充其量也就是個 2D 封裝方案。如果用 Intel 的總結,那么這種方案更偏於直接在 package substrate 基板上走線,完成多 chiplet 之間的互聯,便宜而密度低。
當然這不是本文要討論的重點。Computex 大會上,Lisa Su 拿出了一顆全新的銳龍 9 5900X 處理器原型產品,如下圖所示。其中有一片 die 看起來是略有“異樣”的:
左上角的那片 die(被稱作 CCD,core complex die)之上堆疊了額外的 64MB SRAM 三級緩存——注意,是疊在原本的 CCD 上面的,尺寸為 6 x 6mm,這種垂直堆疊的 cache 被 AMD 稱作 3D V-Cache。這顆芯片應該只是作為演示之用的,以表明左右兩顆 CCD 看起來有顯著不同。
據說未來的成品,每一片 CCD 都可以疊 96MB SRAM(以前只能做到 32MB),那么對於一顆 12 或 16 核心的銳龍 5000 處理器而言,就能比較輕松地堆出 192MB 的 L3 cache(想當年,Windows XP 的推薦安裝內存大小才 128MB,如今消費級處理器 cache 都這么大了…)。這就屬於比較地道的 3D 封裝技術了。
關鍵是上方的 SRAM 和下方的 CCD,采用 hybrid bonding + TSV(Through Silicon Via,硅通孔)連接——TSV 負責傳遞電力和數據。台積電這個工藝的亮點就在於 hybrid bonding。
上方那片 cache die 與下方的 CCD 在尺寸上還是不同的,所以就需要額外的結構硅來達成上下層的同等應力。
AMD 宣稱如此一來,這種 L3 cache 的總帶寬能夠超過 2TB/s,雖然考慮到更大容量的訪問延遲也會增加。Cache 本身容量和帶寬增加實則都有助於整體性能的提升。
AMD 在主題演講中演示的是用這種采用了 3D V-Cache 的處理器與傳統方案做比較,對比的是 12 核的銳龍 9 5900X 處理器,一顆是一般的 64MB L3 cache,另一顆就是 192MB L3 cache;處理器主頻都固定在 4GHz,配的 GPU 未知。
對比的游戲包括了 DOTA 2、戰爭機器 5、英雄聯盟、堡壘之夜等,均設定在 1080p 分辨率下,不同的游戲有着平均 15% 的幀率提升。果然是印證了前年 Lisa Su 所說的,工藝技術的變化對於推升處理器性能起到了主要作用。
而且這種采用 3D V-Cache 技術的銳龍處理器預計會從今年年末開始量產,定位於高端型號。看來 3D 封裝技術的 CPU 來到消費者身邊還挺快。
2.5D 與 3D 封裝之間
不知道這項技術會帶來哪些副作用,如延遲,如堆疊散熱問題(不僅是下層 CCD 更不易散熱,也包括增加的厚度帶來對散熱方案的影響),如功耗(無論是 cache 需要經由下層通往主存,還是更高的帶寬本身帶來更高的功耗問題),以及更大的 cache 是否對游戲之外的其他使用場景帶來質的變化。
據說堆疊的這部分 SRAM,在密度上高於 AMD 銳龍處理器原本的 L3 cache,原因是采用了台積電優化過的 7nm SRAM 庫。而且台積電原本的技術還可以堆更多層 die。
Lisa Su 還提到 3D V-Cache 的這種封裝技術,相比於傳統的 2D 封裝在互聯密度上提升 200 倍;相比 micro-bump 技術也有 15 倍的密度領先——此前解讀 Intel Lakefield 處理器的文章,談到過 Intel 的 Foveros 3D 封裝技術,這種技術所用的就是 micro-bump 做互聯的(當然下文也會提到台積電的 3DFabric 后端封裝方案也用 micro-bump);並且比 micro-bump 有 3 倍以上的互聯效率領先。Lisa Su 說這是行業內最先進和最具彈性的 active-on-active 芯片堆疊技術。
3D V-Cache 在封裝上的實質,應該就是台積電的某種前端 3D 封裝技術,如 CoW(chip-on-Wafer)。這兩年有關 2.5D 和 3D 封裝的話題也算是相當活躍。那么所謂的 2D、2.5D、3D 封裝,尤其后兩者究竟有什么區別呢?
很多日常關注半導體新聞的同學,對於台積電 CoWoS、InFO,Intel 的 EMIB、Foveros 這些(把不同 die 做在一個封裝內並互聯的)封裝技術應當都有所耳聞。時而 2.5D,時而 3D,好像非常神秘的樣子。
舉一些比較現成的例子,2016 年英偉達面向數據中心或 HPC 市場的 Pascal 架構 P100 GPU,在 GPU 四周就封裝了 4 片 HBM 存儲芯片——這是采用 CoWoS 封裝的一個典型例子,現在英偉達的數據中心 GPU 也差不多是這樣。從上面這張圖就不難發現,這類封裝的不同芯片仍然處在同一平面內。
不過 CoWoS 封裝和前文提到的 AMD Zen 的 chiplet 方案還是不同的,多芯片(或者多個chiplet)下面有個 interposer (硅中介層)做互聯支持,而不是暴力地直接從 substrate 走線的(下圖第一個方案),形如下面這張圖中的第二個方案(順帶一提,下圖的第三個方案就是 Intel 的 EMIB):
類似有 interposer 硅中介層這類封裝方案,一般稱其為 2.5D 封裝(也有稱其為 3D 封裝的)。這類方案中頗具知名度的芯片,除了英偉達 GPU 以外,還有賽靈思比較早就在用的 Virtex FPGA,去年富士所推的 HPC 芯片 A64FX(富岳超算)也在其中。當然 CoWoS 並不是台積電唯一的 2.5D/3D 封裝技術。
至於真正的 3D 封裝,那就是類似於 AMD 的 3D V-Cache(以及Intel 的 Lakefield)這種 chiplet 可以垂直堆疊的方案了——雖然這么說也不盡然,但大致上就是這么回事。
台積電的 3DFabric
為了對 2.5D/3D 封裝技術做品牌上的歸一化,去年台積電發布了一個新的品牌名:3DFabric。3DFabric 分成兩大塊,分別是前端芯片堆疊技術,如 CoW(Chip on Wafer,AMD 這次發布的 3D V-Cache 應當就屬於 CoW);還有后端封裝技術,包括 InFO、CoWoS。
前端的“芯片堆疊(Chip Stacking)”就屬於名副其實的 3D 方案,畢竟 die 都疊起來了——CoW 和 WoW 這兩者也被統稱為 SoIC(System on Integrated Chips)。SoIC 的本質是設計把芯片“粘”在一起的介面(interface),就像前文提到 AMD 把 SRAM“粘”在處理器核心 die 上面。當然這個過程還是相當復雜的。
台積電此前宣傳中提到芯片之間面對面的 SoIC bonding 相比於用 micro-bump 連接(Intel 的 EMIB 和 Foveros 都是 micro-bump 連接),至多減少了 35% 的熱阻。台積電宣傳中也提到了高出很多的互聯密度(台積電宣傳中提到其 bonding 間距可以達到了 0.9μm,對芯片的 BOEL 互聯做擴展;不過實際 N7/N6 工藝下的 SoIC bonding 間距大約在 9μm 左右,N5 則可下探到 5μm)——似乎比 Intel 的 micro-bump 間距要小(Lisa Su 宣傳相比 micro-bump 方案有 15 倍的密度領先,不知具體對比的是誰),隨晶體管工藝節點迭代,bonding 間距也會隨之發生變化;與此同時有更高的效率(pJ/bit 更低)。
內容選讀添加:SoIC 是 hybrid bonding 封裝的一個重要實施方案,相比 micro-bump,也是實現更小的 bonding 間距,以及芯片之間數十倍通訊性能和效率的關鍵。銅 hybrid bonding 技術比較早見於索尼 CIS 圖像傳感器的應用(邏輯電路層與像素層的 bonding),Xepri 比較知名的 DBI 也是。針對更復雜的先進芯片封裝,台積電是 hybrid bonding 封裝技術的主要推進者。
上面這張圖是 Xperi 的 die-to-wafer 的 hybrid bonding 流程示意圖,整個過程在 fab 進行,幫助各位理解吧... Semiconductor Engineering 的這篇文章對 Xperi 的 die-to-wafer hybrid bonding 做了大致的解釋,有興趣的同學可以去看看。
不過應用 SoIC 技術的不同芯片需要從頭做配合設計,所以其彈性就沒那么高;不像其他 micro-bump 的方案,不同的芯片可以是來自完全不同的制造商,連 interposer 本身都可以。
后端的封裝,實則主要就屬於常說的 2.5D 封裝,如前文提到的把兩片 die 放到同一個封裝內,die 可以並列放在一個平面上,然后用各種方案做連接,如硅中介 interposer——也就是一大片硅片位於所有 die 之下,如英偉達的 GPU+HBM。硅中介本身可以是被動的(即只用於 die-to-die 連接,而沒有主動電路),也可以是主動的(active)。
CoWoS 如前面圖中提到的,還可以進一步細分,這里探討的主要是 CoWoS-S;而 CoWoS-L 與 Intel EMIB 類似的,互聯依靠的是 LSI(local silicon interconnets)和 RDL(redistribution layer),die 與 die 之間的連接是“本地化”的連接,用的是硅 bridge 和 RDL,應該能夠實現更高的成本效益(就像前文中 Intel 的 PPT 提到的)。
除了這種 side-by-side 式把多 die 放在硅中介上的方案,在后端封裝上也可以用 die-on-die 垂直堆疊的方式,但和前端的 SoIC 實施方案有區別。台積電后端封裝的垂直堆疊也采用 micro-bump(而前文談到了,SoIC 是 die 之間金屬層的對齊和 bonding),如此一來就能實現更具彈性的芯片搭配,在密度和效率方面自然是不及 SoIC 的。
值得一提的是,台積電的前后端技術是可以混合使用的,即前端做芯片堆疊和后端再做封裝。CoWoS 的全稱是 Chip-On-Wafer-on-Substrate,這個詞組的前面半截就是前端的 CoW。Wikichip 在對 CoWoS 的介紹中,就將其與 CoW 放在了一起,提到一方面做 side-by-side 的多 die 封裝,另一方面通過 CoW 把芯片再 3D 垂直堆起來,就像下面這樣:
來源:Wikichip
另外,CoWoS本身的進化還體現在 interposer 硅中介層能做多大的面積——這一層做得越大,能夠容納的 chip 數量自然也就越多。在此前探討 GPU 的 die 尺寸過大的一篇回答里,提到光刻機所能做出最大的 die size 是有個極限的,這個極限叫做 reticle limit(或 reticle size)。CoWoS 技術本身就在不停突破 reticle limit,台積電此前就已經實現了所謂的 multi-reticle 尺寸的硅中介技術,也就是讓硅中介層 interposer 面積更大。
去年台積電就宣布 interposer 層(CoWoS-S)的尺寸 2023 年可以達到 4x reticle size,突破 3000mm²,主要是對疊加更多的 HBM 存儲資源有意義。
除了 CoWoS 之外,前面那張台積電 3DFabric 的圖,后端的封裝技術還有個 InFO(Intergrated Fan Out)——也應該是比較知名的封裝技術了,在 SoC 的標准 floorplan 之外 fan out(好像被譯作扇出)出額外的連接。通常在一顆芯片的邏輯電路部分之外,容納了更多需要的 pin-out 連接。
InFO 的存在也有些年頭了,這同樣是一種 WLP 晶圓級封裝解決方案。這類方案采用 RDL 和 TIV(through-InFO vias,貌似是指貫穿封裝的 via 通孔)實現連接。
比較知名的應該是 iPhone 6s 的 A10 芯片,就用上了 InFO_POP 封裝——替代傳統封裝級的 POP。不過不知道具體是怎么做的,TechInsights 有做一份 A10 芯片拆解的報告就提到了這一點,但報告是收費的,有興趣的同學可以花幾千美金去購買……
來源:Wikichip
看 Wikichip 的介紹,InFO_POP 受限於存儲帶寬,后續台積電有更新一個 3D-MUST-in-MUST(Multi-Stack)封裝技術,把多個垂直堆疊的存儲芯片通過高密度 RDL 和小間距的 TIV,以 InFO 的方式做多個存儲芯片的垂直堆疊,形如上面這張圖。大概蘋果 A10 也有類似的結構吧。
前兩年台積電對 InFO 封裝似乎有更多的划分,如 InFO_POP 是為移動 AP(應用處理器)准備的;另外 InFO_AiP(Antenna-in-package),面向的是 RF 前端模塊應用,InFO_MUST(Muti-stack)則針對基帶 modem;還有什么 InFO_oS(on substrate)、InFO_MS(memory on substrate)、InFO_UHD(ultra-high-density)等各種應用。
看去年台積電更新的圖,InFO 大方向就分成了兩塊即 InFO-R 和 InFO-L,不知道是把上面這些應用整合成了大方向的兩個,還是去掉了一些方案——可能在具體的封裝策略上,InFO 和 CoWoS 的分工也有了一些調整。
這里 InFO-R(InFO_oS)是在 die 和 micro-bump 之間增加 RDL 層,將多個 die 放到一個封裝內;InFO-L 則是用 LSI 連接多個 die,和 CoWoS-L 類似。
各種封裝方案有對應的應用領域,之前台積電把 CoWoS 定位於 AI、networking、HPC,而 InFO 定位於 networking 和移動應用,現在看來可能是有變化的。
具體的介紹差不多就是這些了。這篇文章的后兩部分,屬於針對 AMD 3D V-Cache 的延伸,算是開闊下這些技術愛好者的視野吧。這些此前只放在嘴上談的東西,不知不覺間就已經應用到消費電子產品上了;如年底就要量產的 192MB L3 cache,當然不同 SKU 也不一定是 192MB 就是了。雖然可能光堆個 L3 cache 也沒什么大不了,不過感覺 Intel 腹背受敵的現狀,還真是相當嚴峻啊。
參考鏈接:
https://www.eet-china.com/news/202107010730.html
https://iczhiku.cn/hotspotDetail/efBqShfDb1CauCrjCYJzCg==