公眾號記得加星標,第一時間看推送不會錯過。
在 AI 模型參數(shù)量呈指數(shù)級增長的時代背景下,數(shù)據(jù)中心正經(jīng)歷一場從 " 算力至上 " 向 " 帶寬驅動 " 的深刻變革。在這場算力架構革新的浪潮中,HBM(High Bandwidth Memory,高帶寬存儲器)正悄然崛起,成為支撐大模型計算的核心基礎設施。
步入 " 后 AI" 時代,HBM 已不僅僅是高性能 AI 芯片(如 GPU、TPU)的標配組件,更演變?yōu)榘雽w巨頭間激烈角逐的戰(zhàn)略制高點。
無論是三星、SK 海力士,還是美光,這些存儲領域的領軍企業(yè)都不約而同地將 HBM 視為未來營收增長的關鍵引擎。它們似乎達成了一個共識:要想在存儲市場稱霸,就必須率先掌握 HBM 這一核心技術。
那么,在這場沒有硝煙的競爭中,都有哪些技術值得關注呢?讓我們一起來深入分析分析。
定制化是唯一出路?
定制化可能是 HBM 的最終歸宿之一。
事實上,早在兩年多以前,HBM 初步嶄露頭角之際,海力士和三星就討論過定制化這一趨勢,伴隨著云巨頭紛紛定制自己的 AI 芯片,對 HBM 的需求只增不減,定制化借此成為了必然需求之一。
而在去年 8 月,SK 海力士副總裁柳成洙表示:" 所有 M7(Magnificent 7,指的是標準普爾 500 指數(shù)中的七大科技股:蘋果、微軟、谷歌 Alphabet、亞馬遜、Nvidia、Meta 和特斯拉。)公司都來找我們,要求我們做定制 HBM(高帶寬內存)。"
而在今年 6 月,韓國媒體表示,SK 海力士已同時鎖定了英偉達、微軟(MS)、博通(Broadcom)等有望成為定制 HBM 市場 " 重量級客戶 " 的公司。其近期已與英偉達、微軟、博通達成協(xié)議,將向其供應定制型 HBM,并已開始根據(jù)各家公司的需求開展設計工作。
據(jù)悉,SK 海力士是以其最大客戶英偉達的供貨計劃為核心,優(yōu)先確定其他客戶名單。業(yè)內人士表示:" 考慮到 SK 海力士的產(chǎn)能以及各大科技公司 AI 服務的推出時程,無法一口氣滿足 M7 全部客戶的需求 ",但也指出 " 考慮到 HBM 市場情況的變動,未來或將新增若干客戶 "。
SK 海力士也在今年 4 月宣布,從第七代 HBM(HBM4E)開始將轉向定制化,其已和臺積電展開合作。計劃在 HBM4 基礎裸片上采用臺積電的先進邏輯(Logic)工藝,預計其首批定制 HBM 產(chǎn)品預計將于明年下半年問世,
值得一提的是,由于 SK 海力士成功拿下了多家重量級客戶,其在下一代定制 HBM 市場中延續(xù)主導地位的可能性大大提升。根據(jù) TrendForce 的數(shù)據(jù),SK 海力士目前在 HBM 市場的占有率約為 50%,遠超三星電子(30%)和美光(20%)。若僅看最新的 HBM3E 產(chǎn)品,SK 海力士的市占率更是高達 70%。
另一方面,三星電子也被曝正就定制 HBM 的供應問題與多家客戶進行討論。鑒于其近期已成功向全球第二大 AI 芯片廠商 AMD 供應 HBM3E,業(yè)界預計其不久后也將拿下 HBM4 及定制 HBM 的客戶。據(jù)稱,目前三星已在就 HBM4 產(chǎn)品與博通、AMD 等客戶進行具體協(xié)商。
與兩家韓國廠商相比,遠在美國的美光顯得遲鈍了不少。今年 6 月,美光云內存業(yè)務部高級副總裁兼總經(jīng)理 Raj Narasimhan 表示,HBM4 的生產(chǎn)計劃將與客戶的下一代 AI 平臺準備情況緊密結合,以確保無縫集成和及時擴大產(chǎn)量以滿足市場需求。
其表示,除了向主流客戶提供最新的 HBM4 之外,客戶還在尋求定制版本,下一代 HBM4E 的開發(fā)也正在進行中。與特定客戶合作開發(fā)定制化的 HBM 解決方案,將進一步提升內存產(chǎn)品的價值。
這時候,可能很多人想問了,定制 HBM 都有哪些好處,為什么 DRAM 廠商和云巨頭都趨之若鶩呢?
受限需要明確的是,定制化 HBM(cHBM)的關鍵在于將基礎芯片(base die)的功能集成進由 SoC 團隊設計的邏輯芯片(logic die)中。這包括控制 I/O 接口、管理 DRAM 堆疊、以及承載用于診斷和維護的直接訪問(DA)端口。
這一集成過程需要與 DRAM 廠商緊密合作,但它賦予 SoC 設計人員更大的靈活性和更強的對 HBM 核心芯片堆棧訪問的控制能力。設計人員可以更緊密地集成內存與處理器芯片,并根據(jù)具體應用在功耗、性能與面積(PPA)之間進行優(yōu)化。
SoC 設計人員可以自由配置和實例化自己的 HBM 內存控制器,通過 DFI2TSV 橋接與 HBM DRAM 堆棧直接交互。邏輯芯片還可以集成增強功能,如可編程的高質量內建自測試(BIST)控制器、芯粒間適配器(D2D adapter)以及高速接口(如通用芯?;ミB標準 UCIe),從而實現(xiàn)與處理器芯片在完整 3D 堆棧中的通信。由于該芯片使用邏輯制程而非 DRAM 制程制造,因此可以復用現(xiàn)有設計。
而定制 HBM 的一個重要優(yōu)勢在于顯著減少中介層(interposer)在數(shù)據(jù)路徑中引入的延遲,降低相關的功耗與性能損失。它通過復用現(xiàn)有的高速裸芯片互連(如 UCIe),有效地將內存與處理器芯片距離拉近。這種靈活性可應用于多種場景,比如云服務提供商用于邊緣 AI 應用,對成本和功耗要求極高的場合,以及用于復雜 AI/ 機器學習計算場景,追求最大容量和吞吐率的系統(tǒng)等。
不過,定制 HBM 目前也面臨著一些挑戰(zhàn),其整個理念仍屬新興,技術也處于早期發(fā)展階段。如同所有創(chuàng)新一樣,前路必然伴隨挑戰(zhàn)。將基礎芯片功能集成至邏輯芯片意味著終端用戶需從芯片生命周期管理(SLM)的視角考量整個生命周期——從設計、試產(chǎn)、量產(chǎn),到現(xiàn)場應用。例如,在晶圓級 HBM 芯片堆疊后,DRAM 單元缺陷的篩查責任將落到終端用戶身上。這帶來了一些問題,比如用戶該如何處理供應商推薦的特定 DRAM 算法?以及用戶能否在計劃性停機期間,進行全面的 HBM 現(xiàn)場測試與診斷?
目前來看,要成功部署定制 HBM,需要一個完整的生態(tài)系統(tǒng),匯集 IP 提供商、DRAM 廠商、SoC 設計方以及 ATE(自動測試設備)公司。例如,由于互連數(shù)量多、密度高,傳統(tǒng) ATE 已無法用于定制 HBM 測試。
總而言之,定制 HBM 已經(jīng)成為一大趨勢,不論廠商是否喜歡,它都將在 HBM4 標準中占據(jù)相當重要的地位。
混合鍵合,繞不開的技術難題?
除了定制化外,混合鍵合(Hybrid Bonding)也是未來 HBM 重要的發(fā)展方向之一。
目前,隨著堆疊層數(shù)的不斷增加,傳統(tǒng)焊接技術面臨顯著的挑戰(zhàn)。目前所使用的助焊劑(Flux)雖能去除金屬表面氧化物并促進焊料流動,但其殘留物會引發(fā)堆疊間隙增大、熱應力集中等問題,尤其在高帶寬內存(HBM)等精密封裝領域,這一矛盾更為突出。
而包括三星、SK 海力士甚至是美光,都在考慮在下一代 HBM 中采用混合鍵合技術。
先來了解一下目前 HBM 芯片的鍵合技術。在傳統(tǒng)的倒裝芯片鍵合中,芯片被 " 翻轉 ",以便其焊料凸塊(也稱為 C4 凸塊)與半導體基板上的接合焊盤對齊。整個組件被放置在回流爐中,并根據(jù)焊料材料均勻加熱至 200 C-250 C 左右。焊料凸塊熔化,在接合和基板之間形成電氣互連。
隨著互連密度的增加和間距縮小到 50 m 以下,倒裝芯片工藝面臨一些挑戰(zhàn)。由于整個芯片封裝都放入烤箱中,芯片和基板會因熱量而以不同的速率膨脹(即不同的熱膨脹系數(shù),CTE),從而產(chǎn)生變形,導致互連出現(xiàn)故障。然后,熔融焊料會擴散到其指定區(qū)域之外。
這種現(xiàn)象稱為焊料橋接,會導致相鄰焊盤之間出現(xiàn)不必要的電連接,并可能造成短路,從而導致芯片出現(xiàn)缺陷。這就是 TCB(Thermal Compression Bonding 熱壓鍵合)工藝發(fā)揮作用的地方,因為它可以解決間距縮小到某個點以下時倒裝芯片工藝出現(xiàn)的問題。
TCB 的優(yōu)勢在于,熱量是通過加熱工具頭局部施加到互連點上,而不是在回流焊爐(倒裝芯片)中均勻施加。這樣可以減少向基板的熱量傳遞,從而降低熱應力和 CTE 挑戰(zhàn),實現(xiàn)更強大的互連。對芯片施加壓力以提高粘合質量并實現(xiàn)更好的互連。典型的工藝溫度范圍在 150 C-300 C 之間,壓力水平在 10-200MPa 之間。
TCB 允許的接觸密度比倒裝芯片更高,在某些情況下每平方毫米可達到 10,000 個接觸點,但更高精度的主要缺點是吞吐量較低。雖然倒裝芯片機每小時可以達到超過 10,000 個芯片的吞吐量,但 TCB 的吞吐量則在 1,000-3,000 個芯片的范圍內。
標準的 TCB 工藝還需要使用助焊劑。在加熱過程中,銅可能會氧化并導致互連故障,助焊劑是一種用于去除銅氧化物的涂層。但當互連間距縮小到 10 m 以上時,助焊劑會變得更難清除,并會留下粘性殘留物,這會導致互連發(fā)生微小變形,從而造成腐蝕和短路。
無助焊劑鍵合技術(Fluxless Bonding)由此應運而生,但無助焊劑鍵合技術只能進一步縮小間距尺寸至 20 μ m,最大可達 10 μ m,僅能作為過渡技術來使用,而當 I/O 間距小于 10 μ m 時,就需要用到混合鍵合技術了。
混合鍵合技術通過銅與銅的直接連接(copper-to-copper bonding),實現(xiàn) DRAM 芯片堆疊,無需傳統(tǒng)的凸點(bump)結構,這種方式不僅能顯著縮小芯片尺寸,還能將能效與整體性能提升一倍以上。
據(jù)業(yè)內人士透露,截至 5 月 7 日,三星電子與 SK 海力士正推進將混合鍵合技術用于其下一代 HBM 產(chǎn)品的量產(chǎn)。預計三星最快將于明年在 HBM4(第六代 HBM)中采用該技術,而 SK 海力士則可能在第七代產(chǎn)品 HBM4E 中率先引入。
當前的第五代 HBM —— HBM3E 仍使用熱壓鍵合技術,在芯片間通過加熱加壓及凸點連接方式進行固定堆疊。三星主要從其子公司 SEMES 以及日本新川電機(SHINKAWA)采購 TC 設備,SK 海力士則依賴韓美半導體和韓華半導體。而向英偉達提供 HBM 的美國美光(Micron)也采購韓美和新川的設備。
隨著混合鍵合市場的初步開啟,該技術有望引發(fā)半導體設備領域的一場重大洗牌。一旦成功導入,混合鍵合將可能成為未來 HBM 堆疊的主流工藝。
為搶占先機,美國的應用材料公司已收購全球唯一具備混合鍵合先進設備量產(chǎn)能力的企業(yè)——荷蘭 Besi 公司 9% 的股份,并率先將其混合鍵合設備導入系統(tǒng)級半導體市場,搶占應用先機。
與此同時,韓美半導體與韓華半導體也在加速研發(fā)下一代芯片堆疊設備,這兩家韓國廠商不僅在迅速推進混合鍵合設備研發(fā),還在積極開發(fā)無助焊劑鍵合設備,以此來增強市場競爭力。
如果說定制化 HBM 是 DRAM 廠商和云巨頭間的角力的話,那么混合鍵合就是 DRAM 廠商與鍵合設備廠商之間的對弈,伴隨著 HBM 在今年下半年正式邁入 HBM4 時代,混合鍵合所受到的關注度可能會進一步提高。
還有哪些新技術?
值得一提的是,在今年 6 月,韓國國家級研究機構——韓國科學技術院(KAIST)發(fā)布了一份長達 371 頁的研究論文,系統(tǒng)性地描繪了 HBM 技術從 HBM4 一路發(fā)展到 HBM8 的演進路徑。內容涵蓋帶寬、容量、I/O 接口寬度、熱設計等方面的提升,以及封裝方式、3D 堆疊結構、嵌入式 NAND 存儲的內存中心架構,甚至包括基于機器學習的功耗控制方法。
值得強調的是,這份文檔并非商業(yè)公司發(fā)布的產(chǎn)品路線圖,而是基于目前產(chǎn)業(yè)趨勢和科研進展,對未來 HBM 技術潛在演變的學術預測,但它也足以讓我們一窺未來 HBM 的可能發(fā)展方向。
先來看下 HBM4 至 HBM8 的各代產(chǎn)品技術特色:
HBM4:定制化設計的先鋒
HBM4 作為新一代 HBM 技術的開端,最大的創(chuàng)新在于定制化基礎裸片設計。通過集成 NMC(近存計算)處理器和 LPDDR 控制器,HBM4 實現(xiàn)了對 HBM 和 LPDDR 的直接訪問,無需 CPU 介入。這一設計顯著減少了數(shù)據(jù)傳輸延遲,提升了整體系統(tǒng)效率。
HBM4 支持多種靈活的數(shù)據(jù)傳輸模式,包括 GPU 與 HBM 的直接讀寫、HBM 與 LPDDR 間的數(shù)據(jù)遷移,以及 GPU 通過 HBM 間接訪問 LPDDR。雙命令執(zhí)行能力的引入進一步提升了多任務處理效率,為復雜的 AI 工作負載提供了有力支撐。
HBM5:3D 近存計算的突破
HBM5 將 3D 近存計算技術推向新的高度。通過集成 NMC 處理器裸片和緩存裸片,并采用專用 TSV 互連和電源網(wǎng)絡,HBM5 實現(xiàn)了高能效的計算架構。分布式電源 / 接地和熱 TSV 陣列的引入有效降低了 IR 壓降,提高了散熱效率。
特別值得關注的是,HBM5 開始引入 AI 設計代理優(yōu)化技術,通過智能算法優(yōu)化 TSV 布局和去耦電容放置,顯著減少了電源噪聲誘導抖動(PSIJ)。這一創(chuàng)新不僅提升了系統(tǒng)穩(wěn)定性,還為后續(xù)產(chǎn)品的智能化設計奠定了基礎。
HBM6:多塔架構的創(chuàng)新
HBM6 的最大亮點是四塔(Quad-Tower)架構的引入。四個 DRAM 堆疊共享一個基礎裸片,通過 8,096 個 I/O 通道實現(xiàn) 8 TB/s 的驚人帶寬。這一架構設計不僅提升了帶寬性能,還通過資源共享提高了成本效益。
L3 緩存的集成是 HBM6 的另一個重要創(chuàng)新。通過減少對 HBM 的直接訪問需求,L3 緩存顯著提升了 LLM 推理性能。實測數(shù)據(jù)顯示,HBM6 的 L3 緩存嵌入使 HBM 訪問減少 73%,延遲降低 87.3%。交叉開關網(wǎng)絡的引入實現(xiàn)了 HBM 集群互連,優(yōu)化了高吞吐量、低延遲的 LLM 推理性能。
HBM7:混合存儲生態(tài)
HBM7 構建了一個完整的混合存儲生態(tài)系統(tǒng)。通過集成高帶寬閃存(HBF),形成 HBM-HBF 存儲網(wǎng)絡,總容量達到 17.6 TB,能夠滿足大規(guī)模 AI 推理的存儲需求。與 3D 堆疊 LPDDR 的結合進一步擴展了存儲層次,在玻璃中介層上實現(xiàn)了 4096 GB/s 的互連帶寬。
嵌入式冷卻結構的全面應用是 HBM7 的重要特征。通過熱傳輸線和流體 TSV 技術,實現(xiàn)了從芯片到冷卻流體的高效熱傳遞。LLM 輔助的交互式強化學習(IRL)技術的引入,使得去耦電容放置和 PSIJ 優(yōu)化更加智能化和精準化。
HBM8:全 3D 集成時代
HBM8 代表了 HBM 技術的巔峰,實現(xiàn)了真正的全 3D 集成和 HBM 中心計算。雙面中介層設計支持 GPU-HBM-HBM、GPU-HBM-HBF 和 GPU-HBM-LPDDR 等多種 3D 擴展架構,為不同應用場景提供了靈活的配置選擇。
全 3D GPU-HBM 集成架構是 HBM8 的核心創(chuàng)新,GPU 位于存儲堆疊頂層,不僅有利于散熱,還實現(xiàn)了存儲與計算的無縫融合。AI 設計代理的全面應用使得 3D 布局和布線優(yōu)化更加智能化,考慮了熱 - 信號完整性的協(xié)同優(yōu)化。
從整體發(fā)展趨勢來看,HBM 技術的演進呈現(xiàn)出明顯的量級躍升特征。在帶寬方面,從 HBM4 的 2.0 TB/s 到 HBM8 的 64 TB/s,實現(xiàn)了 32 倍的驚人增長。這一突破主要通過兩個維度實現(xiàn):一是 I/O 數(shù)量的大幅增加,從 2,048 個增至 16,384 個;二是數(shù)據(jù)速率的穩(wěn)步提升,從 8 Gbps 增長至 32 Gbps。
而在容量擴展方面,單模塊容量從 HBM4 的 48 GB 提升至 HBM8 的 240 GB,這一提升通過增加堆疊層數(shù)和單裸片容量共同實現(xiàn)。同時,功耗從 75W 逐步增長至 180W,雖然功耗有所上升,但考慮到性能的大幅提升,整體能效比仍有顯著改善。
關鍵技術創(chuàng)新路徑
HBM 技術演進的另一個顯著特征是 3D 集成技術的持續(xù)突破。從 HBM4 開始,技術路線逐步從傳統(tǒng)的微凸點鍵合過渡到無凸點 Cu-Cu 直接鍵合技術。這一轉變不僅顯著減少了接觸電阻,還大幅提高了互連密度,為后續(xù)的高密度 3D 堆疊奠定了基礎。
TSV(硅通孔)技術作為 3D 集成的核心,實現(xiàn)了垂直堆疊裸片間的高效電氣連接。通過縮短互連長度,TSV 技術有效降低了 RC 延遲和功耗,為高帶寬數(shù)據(jù)傳輸提供了硬件保障。到 HBM8 階段,同軸 TSV 技術的引入進一步提升了信號完整性,支持 32 Gbps 的高速數(shù)據(jù)傳輸。
中介層技術的發(fā)展同樣令人矚目。從單一的硅中介層發(fā)展到硅 - 玻璃混合中介層,這一創(chuàng)新突破了純硅中介層的尺寸限制,同時保持了優(yōu)異的信號完整性?;旌现薪閷蛹夹g結合了硅中介層的高帶寬特性和玻璃中介層的大尺寸擴展能力,為復雜的多塔架構提供了技術支撐。
值得關注的是,隨著 HBM 性能的不斷提升,散熱問題成為制約技術發(fā)展的關鍵瓶頸。HBM 技術路線圖展現(xiàn)了一條清晰的冷卻技術演進路徑,從傳統(tǒng)的風冷逐步升級為更加先進的冷卻方案。
HBM4 采用直冷式液冷(D2C)技術,直接對芯片進行液體冷卻,相比傳統(tǒng)風冷具有更高的散熱效率。到 HBM5 和 HBM6 階段,浸沒式冷卻技術成為主流,將整個模塊浸入絕緣冷卻液中,實現(xiàn)更加均勻和高效的散熱。
最為先進的是 HBM7 和 HBM8 采用的嵌入式冷卻技術,通過流體 TSV(F-TSV)和微通道結構,實現(xiàn)了芯片級的精準冷卻。這種技術通過熱傳輸線(TTL)將熱量從 HBM 裸片直傳遞到冷卻流體,實現(xiàn)了前所未有的散熱效率。
當然,HBM 技術的演進帶來了顯著的性能提升。在 LLM 推理方面,HBM6 的四塔架構使 LLaMA3-70B 模型的推理吞吐量提升 126%。在能效方面,HBM7 的 NMC 架構減少了數(shù)據(jù)移動,使 GEMM 工作負載的功耗降低 30% 以上。
系統(tǒng)級擴展能力的提升同樣令人矚目。HBM8 的全 3D 架構支持多 GPU-HBM 集群,總帶寬可達 1,024 TB/s,為 Exascale 計算提供了強大的存儲支撐。這些性能提升不僅滿足了當前 AI 應用的需求,還為未來的人工通用智能(AGI)奠定了技術基礎。
寫在最后
從定制化 HBM 到混合鍵合,從新一代中介層到融合型存儲架構,HBM 技術正在加速演進,迭代節(jié)奏愈發(fā)迅猛。
但在這場高度復雜的技術競賽中,唯有具備系統(tǒng)級視野、并能深度整合多維工藝與生態(tài)資源的玩家,才有機會脫穎而出。隨著 SK 海力士將基礎裸片代工交由臺積電,DRAM 廠商在 HBM 制造流程中的主導能力已逐步減弱。這一技術體系已不再是單一廠商可以獨自完成的任務,而是一個需要多方協(xié)同、跨界整合的新戰(zhàn)場。
究竟是 SK 海力士、三星,還是美光將在未來占據(jù)上風,答案仍未揭曉。但可以確定的是,在后 AI 時代,HBM 的競爭才剛剛開始,而且只會愈演愈烈。
* 免責聲明:本文由作者原創(chuàng)。文章內容系作者個人觀點,半導體行業(yè)觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。