公眾號(hào)記得加星標(biāo),第一時(shí)間看推送不會(huì)錯(cuò)過。
人工智能(AI)模型呈指數(shù)級(jí)增長(zhǎng),目前已達(dá)到萬億參數(shù),這揭示了傳統(tǒng)單芯片圖形處理單元(GPU)架構(gòu)在可擴(kuò)展性、能源效率和計(jì)算吞吐量方面的顯著局限性。晶圓級(jí)計(jì)算已成為一種變革性的范式,它將多個(gè)小芯片集成到一塊單片晶圓上,以提供前所未有的性能和效率。Cerebras晶圓級(jí)引擎(WSE-3)擁有4萬億晶體管和90萬個(gè)核心,特斯拉的Dojo每個(gè)訓(xùn)練芯片擁有1.25萬億晶體管和8,850個(gè)核心,這些平臺(tái)都體現(xiàn)了晶圓級(jí)AI加速器滿足大規(guī)模AI工作負(fù)載需求的潛力。
本綜述對(duì)晶圓級(jí)AI加速器和單芯片GPU進(jìn)行了全面的比較分析,重點(diǎn)關(guān)注它們?cè)诟咝阅蹵I應(yīng)用中的相對(duì)性能、能源效率和成本效益。同時(shí),也探討了臺(tái)積電(TSMC)的晶圓上芯片封裝技術(shù)(CoWoS)等新興技術(shù),該技術(shù)有望將計(jì)算密度提高多達(dá)40倍。
此外,本研究還討論了關(guān)鍵挑戰(zhàn),包括容錯(cuò)、軟件優(yōu)化和經(jīng)濟(jì)可行性,深入探討了這兩種硬件范式之間的權(quán)衡和協(xié)同作用。此外,還討論了新興的AI硬件趨勢(shì),包括三維(3D)集成、光子芯片和先進(jìn)半導(dǎo)體材料。本綜述旨在通過評(píng)估它們的優(yōu)缺點(diǎn),為可擴(kuò)展和節(jié)能AI計(jì)算的開發(fā)提供信息。未來的展望概述了未來5到10年內(nèi)預(yù)計(jì)的關(guān)鍵進(jìn)展,這些進(jìn)展將塑造下一代AI硬件。
圖1. Cerebras、NVIDIA、Google和特斯拉在AI硬件發(fā)展中的關(guān)鍵里程碑時(shí)間線 (1993-2024)
上圖是AI硬件主要平臺(tái)按時(shí)間順序演進(jìn),突出顯示了四家領(lǐng)先公司的重要發(fā)布和產(chǎn)品:Cerebras 的里程碑(黃色)包括晶圓級(jí)引擎 WSE-1 (2019)、WSE-2 (2021) 和 WSE-3 (2024) 的發(fā)布,以及公司在2015年的成立。NVIDIA 的貢獻(xiàn)(綠色)涵蓋了從 GeForce 256 (1999) 到最近的 Blackwell B100/B200 GPU (2024),其中包括 Tesla V100、A100、H100 和 RTX 4090 等知名架構(gòu)。Google 的 TPU 系列(藍(lán)色)展示了從2015年初始開發(fā)到2024年 TPU v6e 的 successive 代次。Tesla(紅色)于2021年宣布其 Dojo 系統(tǒng),從而進(jìn)入AI硬件領(lǐng)域。這條對(duì)比時(shí)間線突顯了行業(yè)領(lǐng)導(dǎo)者在高性能AI加速器方面不斷加速的創(chuàng)新。
引言
在當(dāng)今技術(shù)創(chuàng)新的時(shí)代,人工智能(AI)已成為科學(xué)和工業(yè)領(lǐng)域的一股變革力量。大規(guī)模AI模型的開發(fā)徹底改變了問題解決方式,例如AlphaFold2精準(zhǔn)預(yù)測(cè)人類蛋白質(zhì)結(jié)構(gòu)、AlphaTensor在矩陣乘法算法上的進(jìn)步以及DGMR增強(qiáng)天氣預(yù)報(bào)能力等突破性成就,都例證了AI驅(qū)動(dòng)解決方案在應(yīng)對(duì)全球挑戰(zhàn)方面無與倫比的力量。
然而,AI模型的快速發(fā)展伴隨著計(jì)算需求的指數(shù)級(jí)增長(zhǎng)。AI模型的大小已從數(shù)百萬參數(shù)增長(zhǎng)到數(shù)十億參數(shù),在不久的將來,其目標(biāo)將是萬億甚至更多。這種爆炸式增長(zhǎng)在訓(xùn)練這些模型所需的計(jì)算能力與傳統(tǒng)硬件架構(gòu)的能力之間造成了巨大的差距。值得注意的是,僅在過去兩年中,大型模型所需的計(jì)算能力就增加了1000倍,遠(yuǎn)遠(yuǎn)超過了硬件改進(jìn)的翻倍速度。這種差異凸顯了對(duì)創(chuàng)新計(jì)算模型以滿足新興AI技術(shù)需求的迫切性。
為了應(yīng)對(duì)這些挑戰(zhàn),晶圓級(jí)計(jì)算應(yīng)運(yùn)而生,成為一種突破性的替代方案。與依賴單個(gè)芯片或分布式集群的傳統(tǒng)架構(gòu)不同,晶圓級(jí)計(jì)算利用先進(jìn)的封裝和現(xiàn)場(chǎng)縫合技術(shù),將多個(gè)小芯片集成到一塊單片晶圓中。這種方法提供了前所未有的計(jì)算能力、帶寬密度和集成效率,標(biāo)志著高性能計(jì)算領(lǐng)域的一次范式轉(zhuǎn)變。Cerebras晶圓級(jí)引擎(WSE)和特斯拉Dojo等開創(chuàng)性平臺(tái),都彰顯了晶圓級(jí)系統(tǒng)的顯著發(fā)展。
圖1展示了AI硬件發(fā)展的時(shí)間進(jìn)程。2019年,Cerebras推出了WSE-1,擁有40萬個(gè)核心和1.2萬億個(gè)晶體管。兩年后,WSE-2在此基礎(chǔ)上將晶體管數(shù)量翻倍至2.6萬億,并將核心數(shù)量增加到85萬個(gè)。WSE-2的占地面積為46,000平方毫米,仍然是迄今為止建造的最大的處理器,專門設(shè)計(jì)用于滿足機(jī)器學(xué)習(xí)工作負(fù)載的極端內(nèi)存帶寬需求。2024年,Cerebras推出了WSE-3,通過比其前身更多的AI優(yōu)化核心、更快的內(nèi)存和更高的片上帶寬,進(jìn)一步推動(dòng)了該領(lǐng)域的發(fā)展。WSE-3擁有90萬個(gè)核心、4萬億個(gè)晶體管,能夠支持24萬億個(gè)參數(shù)。類似地,特斯拉的Dojo于2021年宣布并隨后實(shí)施,代表了一種獨(dú)特的晶圓級(jí)計(jì)算方法。Dojo設(shè)計(jì)為百億億次級(jí)平臺(tái),將晶圓級(jí)集成與分布式可擴(kuò)展性相結(jié)合,以處理特斯拉內(nèi)部的機(jī)器學(xué)習(xí)工作負(fù)載,同時(shí)保持對(duì)未來AI模型的通用性。通過在整個(gè)晶圓尺寸的互連上集成異構(gòu)組件,Dojo展示了跟上機(jī)器學(xué)習(xí)快速發(fā)展需求的能力。
這些系統(tǒng)通過優(yōu)化芯片間帶寬、減少互連開銷以及實(shí)現(xiàn)核心和內(nèi)存的密集集成,提供了數(shù)量級(jí)更高的性能。例如,WSE-3憑借其4萬億個(gè)晶體管和90萬個(gè)核心,展示了在單個(gè)單片平臺(tái)中處理超大規(guī)模機(jī)器學(xué)習(xí)工作負(fù)載的可行性。同時(shí),特斯拉的Dojo突顯了晶圓級(jí)系統(tǒng)在分布式AI訓(xùn)練中的適應(yīng)性,平衡了可擴(kuò)展性和可編程性,以滿足不斷變化的計(jì)算需求。
晶圓級(jí)計(jì)算具有幾個(gè)顯著優(yōu)勢(shì),使其成為高性能計(jì)算領(lǐng)域的變革性解決方案。一個(gè)顯著的優(yōu)勢(shì)是其卓越的帶寬密度,這顯著增強(qiáng)了芯片間通信。例如,特斯拉的Dojo系統(tǒng)每個(gè)芯片邊緣實(shí)現(xiàn)了2 TB/s的驚人帶寬,其每個(gè)訓(xùn)練芯片擁有1.25萬億個(gè)晶體管和8,850個(gè)核心,每個(gè)ExaPOD超級(jí)計(jì)算機(jī)中結(jié)合了超過100萬個(gè)核心和3,000個(gè)D1芯片。Dojo系統(tǒng)擁有僅100納秒的超低芯片間延遲,這反映了其緊密集成的芯片架構(gòu),而NVIDIA H100圖形處理單元(GPU)在BFloat16精度下單次并發(fā)請(qǐng)求的延遲約為12毫秒。這凸顯了晶圓級(jí)系統(tǒng)在最大程度減少AI硬件通信延遲方面的卓越集成效率。與傳統(tǒng)系統(tǒng)不同,晶圓級(jí)芯片實(shí)現(xiàn)了更高的密度和緊湊性。例如,單個(gè)特斯拉Dojo訓(xùn)練芯片在緊湊的占地面積內(nèi)集成了25個(gè)芯片,而使用傳統(tǒng)芯片實(shí)現(xiàn)同等功能將需要超過10倍的物理面積。此外,晶圓級(jí)計(jì)算通過最大程度地減少互連開銷來增強(qiáng)可編程性,從而實(shí)現(xiàn)細(xì)粒度數(shù)據(jù)通信和高效資源分配。這種減少的開銷簡(jiǎn)化了GPU集群等分布式架構(gòu)的管理,并促進(jìn)了計(jì)算資源的有效利用。
新興趨勢(shì)表明晶圓級(jí)計(jì)算將取得進(jìn)一步的進(jìn)步。到2027年,臺(tái)積電(TSMC) 有望推出利用其先進(jìn)封裝技術(shù)——晶圓上芯片-基板(CoWoS) 的晶圓級(jí)集成,并將用其生產(chǎn)特斯拉的下一代 D2芯片。這種創(chuàng)新方法類似于他們對(duì)特斯拉D1芯片的處理方式,涉及將預(yù)先測(cè)試過的邏輯芯片連接到硅基板上。這種方法更關(guān)鍵的部分是,高帶寬內(nèi)存(HBM)將連接到嵌入高密度互連和垂直連接(稱為硅通孔(TSVs))的硅基板上。邏輯芯片可以利用臺(tái)積電的三維(3D)芯片技術(shù),稱為集成芯片系統(tǒng)(SoICs),以進(jìn)一步提升性能。臺(tái)積電預(yù)計(jì)這種全晶圓級(jí)集成將提供比現(xiàn)有系統(tǒng)高出40倍的計(jì)算能力,整合相當(dāng)于超過40個(gè)光罩的硅面積,并容納超過60個(gè)HBM,從而實(shí)現(xiàn)前所未有的計(jì)算密度和效率水平。
盡管晶圓級(jí)計(jì)算具有變革性的前景,但作為一項(xiàng)新興技術(shù),它也面臨著一些嚴(yán)峻挑戰(zhàn)。這些挑戰(zhàn)包括架構(gòu)可擴(kuò)展性、容錯(cuò)性、封裝良率和軟件優(yōu)化。解決這些問題需要一種綜合方法,即整合跨堆棧設(shè)計(jì)方法、尖端封裝策略和創(chuàng)新執(zhí)行模型,以充分釋放晶圓級(jí)系統(tǒng)的潛力。
本文全面回顧了晶圓級(jí)計(jì)算,綜合了現(xiàn)有技術(shù)的見解并探索了未來的發(fā)展方向。我們旨在彌合學(xué)術(shù)研究與工業(yè)實(shí)踐之間的鴻溝。我們的目標(biāo)是為讀者提供對(duì)這一新興領(lǐng)域的基本原理、成就和局限性的全面理解。通過這樣做,我們希望激發(fā)在尋求可擴(kuò)展、節(jié)能和高性能計(jì)算解決方案方面的進(jìn)一步進(jìn)步和合作。
現(xiàn)有的AI訓(xùn)練硬件芯片
隨著AI模型復(fù)雜性和規(guī)模的增長(zhǎng),傳統(tǒng)計(jì)算架構(gòu)在效率和可擴(kuò)展性方面面臨局限。新興的硬件技術(shù)旨在通過提供改進(jìn)的性能、能源效率和針對(duì)AI工作負(fù)載的專業(yè)能力來應(yīng)對(duì)這些挑戰(zhàn)。表1解釋了用于AI訓(xùn)練的現(xiàn)有硬件芯片。新興的AI硬件芯片正在徹底改變計(jì)算工作負(fù)載,在效率、可擴(kuò)展性和處理能力方面取得了進(jìn)步。Cerebras、特斯拉(Tesla)、谷歌(Google)、AMD 和 英偉達(dá)(NVIDIA) 等公司正在設(shè)計(jì)具有獨(dú)特架構(gòu)的尖端處理器,以滿足AI訓(xùn)練和推理日益增長(zhǎng)的需求。這些芯片在尺寸、晶體管數(shù)量、散熱機(jī)制、內(nèi)存帶寬和特定應(yīng)用方面各不相同,各自在AI計(jì)算的不同方面表現(xiàn)出色。
Cerebras WSE-3 于2024年推出,作為最大的AI芯片之一脫穎而出,其面積達(dá)46,225平方毫米,包含4萬億個(gè)基于5納米節(jié)點(diǎn)構(gòu)建的晶體管。它擁有90萬個(gè)核心和驚人的21 PB/s內(nèi)存帶寬,采用晶圓級(jí)集成和3D內(nèi)存技術(shù),以實(shí)現(xiàn)超大規(guī)模AI訓(xùn)練和科學(xué)模擬。先進(jìn)的液體冷卻對(duì)于管理如此龐大處理單元的巨大熱量輸出至關(guān)重要。
特斯拉Dojo D1芯片 于2022年發(fā)布,采用不同的方法,通過小芯片實(shí)現(xiàn)模塊化可擴(kuò)展性。每個(gè)芯片尺寸約為645平方毫米,在7納米節(jié)點(diǎn)上擁有1.25萬億個(gè)晶體管。特斯拉的芯片每個(gè)tile擁有8,850個(gè)核心,每個(gè)die的內(nèi)存帶寬為2 TB/s,專門為大規(guī)模AI訓(xùn)練而設(shè)計(jì),尤其是在自動(dòng)駕駛領(lǐng)域。它利用直接液體冷卻來消散其高熱密度產(chǎn)生的熱量。
Graphcore的IPU-GC200 于2020年推出,是一款A(yù)I芯片,尺寸約為800平方毫米,包含236億個(gè)基于7納米節(jié)點(diǎn)構(gòu)建的晶體管。它具有1,472個(gè)核心和47.5 TB/s的內(nèi)存帶寬,使其成為帶寬最高的AI處理器之一。其可重構(gòu)架構(gòu)和基于事件的處理能力使其非常適合深度學(xué)習(xí)、自然語(yǔ)言處理(NLP)和Transformer模型,利用細(xì)粒度并行性實(shí)現(xiàn)高效的AI計(jì)算。與此同時(shí),SambaNova的RDU 于2024年推出,專注于用于AI推理和企業(yè)AI應(yīng)用的可重構(gòu)數(shù)據(jù)流架構(gòu)。這些處理器優(yōu)先考慮業(yè)務(wù)環(huán)境中的效率,采用風(fēng)冷而非高功率液冷。
谷歌的Tensor Processing Unit (TPU) v6e 于2024年發(fā)布,專門用于谷歌云中的大型AI模型訓(xùn)練。它尺寸約為700平方毫米,在5納米節(jié)點(diǎn)上構(gòu)建,實(shí)現(xiàn)了3.2 TB/s的內(nèi)存帶寬,并采用液體冷卻來處理TPU pod的高工作負(fù)載。
AMD的MI300x 于2023年推出,集成了CPU和GPU架構(gòu)。這種混合方法優(yōu)化了AI工作負(fù)載,在5納米節(jié)點(diǎn)上利用1530億個(gè)晶體管,內(nèi)存帶寬達(dá)5.2 TB/s。通過OAM標(biāo)準(zhǔn)實(shí)現(xiàn)的被動(dòng)散熱確保了AI模型訓(xùn)練和高性能計(jì)算的有效熱管理。
英特爾的Habana Gaudi3 于2024年推出,是分布式AI訓(xùn)練和云端工作負(fù)載的另一個(gè)關(guān)鍵參與者。它采用5納米工藝構(gòu)建,尺寸約為900平方毫米,由64個(gè)核心組成,內(nèi)存帶寬為3.7 TB/s。它支持風(fēng)冷和液冷,使其成為數(shù)據(jù)中心的多功能解決方案。展望未來,臺(tái)積電 正在開發(fā)預(yù)計(jì)采用3納米工藝的先進(jìn)AI芯片。這些芯片將結(jié)合晶圓級(jí)集成、EUV光刻和基于光子學(xué)的設(shè)計(jì),以支持大規(guī)模AI訓(xùn)練和高性能計(jì)算。
Mythic模擬矩陣處理器-1076 于2021年發(fā)布,采用獨(dú)特的模擬計(jì)算方法,集成了內(nèi)存和計(jì)算功能,實(shí)現(xiàn)了能源效率高的AI推理。由于其低功耗,它依賴被動(dòng)散熱,特別適用于邊緣AI應(yīng)用。同樣,英特爾的Loihi 2神經(jīng)形態(tài)芯片 于2021年推出,針對(duì)低功耗事件驅(qū)動(dòng)型AI處理進(jìn)行了優(yōu)化。它基于14納米節(jié)點(diǎn)構(gòu)建,由128個(gè)異步神經(jīng)元核心和6個(gè)嵌入式微處理器核心組成,非常適合實(shí)時(shí)AI、機(jī)器人技術(shù)和邊緣AI。
英偉達(dá)的Grace Hopper超級(jí)芯片 于2024年推出,集成了GPU和CPU架構(gòu),在5納米工藝上尺寸約為1,100平方毫米。它使用NVLink-C2C進(jìn)行高性能工作負(fù)載,專門針對(duì)大規(guī)模語(yǔ)言模型訓(xùn)練。相比之下,富士通的Digital Annealer 于2018年推出,是一款基于7納米節(jié)點(diǎn)構(gòu)建的量子啟發(fā)式AI芯片。它專注于組合問題求解和AI模型調(diào)優(yōu),采用可重構(gòu)架構(gòu)和風(fēng)冷。
在比較這些芯片時(shí),Cerebras WSE-3 在尺寸和核心數(shù)量方面無可匹敵,而AMD的MI300x 在晶體管密度方面處于領(lǐng)先地位。Graphcore的IPU-GC200 擁有最高的內(nèi)存帶寬,達(dá)47.5 TB/s,顯著超越其他AI芯片。這些處理器之間的散熱解決方案各不相同,Cerebras、特斯拉、谷歌和英偉達(dá)使用先進(jìn)的液冷,而像Mythic的模擬處理器和英特爾的神經(jīng)形態(tài)Loihi 2等節(jié)能芯片則依賴被動(dòng)或風(fēng)冷來最大程度地降低功耗。可擴(kuò)展性和AI訓(xùn)練性能在不同架構(gòu)之間也有所差異。Cerebras和谷歌的TPU v6e專注于大規(guī)模AI訓(xùn)練,而特斯拉的Dojo系統(tǒng)則實(shí)現(xiàn)了AI加速的模塊化擴(kuò)展。AMD、英偉達(dá)和英特爾的混合CPU-GPU設(shè)計(jì)旨在通過結(jié)合兩種架構(gòu)的優(yōu)勢(shì)來優(yōu)化AI計(jì)算。
對(duì)比分析:
晶圓級(jí)引擎(WSE)與GPU集群
大規(guī)模AI模型訓(xùn)練日益增長(zhǎng)的需求推動(dòng)了專用硬件平臺(tái)的進(jìn)步。本節(jié)將詳細(xì)比較它們的性能指標(biāo),包括計(jì)算吞吐量、延遲、能效和可擴(kuò)展性,以突出它們各自的優(yōu)缺點(diǎn)。通過研究這些因素,我們旨在確定每種技術(shù)在大規(guī)模AI訓(xùn)練中的最佳用例。表2總結(jié)了WSE和GPU集群的關(guān)鍵性能指標(biāo),提供了對(duì)其能力的全面概述。
性能指標(biāo)
AI訓(xùn)練芯片GPU硬件的性能通過幾個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估,這些指標(biāo)決定了其處理大規(guī)模AI工作負(fù)載的效率和能力。每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS) 是一個(gè)基本基準(zhǔn),表示GPU在深度學(xué)習(xí)中必不可少的矩陣密集型操作的原始計(jì)算能力。內(nèi)存帶寬 同等重要,它決定了數(shù)據(jù)訪問和處理的速度,直接影響訓(xùn)練效率。延遲 和 吞吐量 等指標(biāo)評(píng)估GPU處理大數(shù)據(jù)負(fù)載和模型并行性的效率,從而影響實(shí)時(shí)性能。功耗效率(以每瓦性能衡量)隨著AI模型復(fù)雜性和規(guī)模的增長(zhǎng)變得越來越重要。此外,互連帶寬 和 軟件優(yōu)化 影響多個(gè)GPU在分布式訓(xùn)練環(huán)境中協(xié)作的良好程度。
大規(guī)模AI模型訓(xùn)練速度評(píng)估
AI硬件的最新進(jìn)展顯著提高了訓(xùn)練大規(guī)模AI模型的效率。Cerebras的WSE-3 和 NVIDIA的H100 GPU 代表了該領(lǐng)域的兩項(xiàng)尖端技術(shù)。這些創(chuàng)新突出了應(yīng)對(duì)現(xiàn)代AI工作負(fù)載帶來的計(jì)算挑戰(zhàn)的不同方法。
Cerebras WSE-3 展示了單片架構(gòu)在AI模型訓(xùn)練方面的潛力。WSE-3覆蓋整個(gè)硅晶圓(46,225平方毫米),集成了4萬億個(gè)晶體管、90萬個(gè)AI優(yōu)化核心和44 GB片上SRAM(表2)。這種架構(gòu)實(shí)現(xiàn)了無縫的片上通信,消除了傳統(tǒng)多芯片系統(tǒng)相關(guān)的芯片間延遲和瓶頸。WSE-3在FP16下進(jìn)行AI模型訓(xùn)練時(shí),峰值性能達(dá)到125 PFLOPS(表2),并支持訓(xùn)練高達(dá)24萬億參數(shù)的AI模型,無需進(jìn)行模型分區(qū)。這種能力使其獨(dú)特地適用于以簡(jiǎn)化和高效的方式處理超大型模型。WSE-3的一個(gè)關(guān)鍵優(yōu)勢(shì)是其能效。通過避免互連開銷,WSE-3最大程度地減少了能量損耗,使其在大型工作負(fù)載方面高效。例如,在碳捕獲模擬中,WSE-3的速度比NVIDIA H100快210倍,凸顯了其在特定應(yīng)用中的潛在優(yōu)勢(shì)。與依賴分層內(nèi)存架構(gòu)(可能產(chǎn)生處理瓶頸)的傳統(tǒng)GPU不同,WSE的設(shè)計(jì)使其85萬個(gè)核心能夠獨(dú)立運(yùn)行,直接訪問本地內(nèi)存,顯著提高了計(jì)算吞吐量。
然而,WSE-3的單片設(shè)計(jì)限制了其在單個(gè)晶圓之外的可擴(kuò)展性,并且其專用架構(gòu)需要定制的軟件生態(tài)系統(tǒng),例如Cerebras軟件開發(fā)工具包(SDK)。盡管它支持PyTorch和TensorFlow,但缺乏原生CUDA兼容性。Cerebras開發(fā)了一種無矩陣方法來解決基于有限體積的線性系統(tǒng),利用其SDK實(shí)現(xiàn)的數(shù)據(jù)流架構(gòu)。這種方法消除了存儲(chǔ)大型雅可比矩陣的需要,顯著減少了內(nèi)存需求,同時(shí)提高了計(jì)算效率。當(dāng)部署在WSE-2系統(tǒng)上時(shí),這種方法在單個(gè)節(jié)點(diǎn)上使用FP16實(shí)現(xiàn)了1.217 PFLOPS的峰值性能,證明了其在加速大規(guī)模模擬方面的有效性。
相比之下,英偉達(dá)(NVIDIA)的H100 GPU 基于Hopper架構(gòu),為大規(guī)模AI訓(xùn)練提供了一種模塊化和分布式的方法。每個(gè)H100 GPU提供60 TFLOPS的FP64計(jì)算能力,適用于高性能計(jì)算(HPC),并具有動(dòng)態(tài)編程指令,可將性能提高多達(dá)7倍。H100通過Transformer引擎等創(chuàng)新技術(shù)針對(duì)大型語(yǔ)言模型(LLM)進(jìn)行了優(yōu)化,從而加速基于Transformer的工作負(fù)載。英偉達(dá)的DGX H100 等系統(tǒng)利用八個(gè)相互連接的H100 GPU,提供超過1 ExaFLOP的FP8 AI性能。然而,基于H100系統(tǒng)的分布式特性引入了通信開銷。盡管NVLink(每個(gè)GPU 900 GB/s)和HBM3內(nèi)存(3.35 TB/s)可以減輕延遲,但對(duì)于超大型模型,GPU間的通信仍然可能減慢訓(xùn)練速度。
此外,H100對(duì)先進(jìn)并行技術(shù)的依賴,將工作負(fù)載分配到各個(gè)GPU上,隨著模型尺寸的增加,會(huì)引入復(fù)雜性和潛在瓶頸。盡管存在這些挑戰(zhàn),H100受益于成熟的軟件生態(tài)系統(tǒng)(例如CUDA、cuDNN、TensorRT、TensorFlow、PyTorch)和卓越的模塊化,使其適用于廣泛的AI應(yīng)用。其功耗效率創(chuàng)新,如HBM3內(nèi)存和NVLink,值得關(guān)注,盡管該系統(tǒng)需要額外的散熱解決方案來管理互連GPU產(chǎn)生的熱量。
Cerebras WSE-3 和 NVIDIA H100 代表了大規(guī)模AI訓(xùn)練的互補(bǔ)解決方案。WSE-3憑借其單片架構(gòu)和節(jié)能設(shè)計(jì),在處理超大型模型方面表現(xiàn)出無與倫比的速度和簡(jiǎn)潔性。例如,WSE-3無需分區(qū)即可訓(xùn)練萬億參數(shù)模型的能力,為特定用例提供了顯著優(yōu)勢(shì),例如由2,048個(gè)WSE-3系統(tǒng)組成的集群,有可能加速M(fèi)eta的700億參數(shù)Llama 2 LLM的訓(xùn)練,僅需一天即可完成,比Meta現(xiàn)有AI訓(xùn)練集群快30倍,后者大約需要30天。即使在16位精度下,WSE-3運(yùn)行Llama 3.1 80億參數(shù)模型時(shí),每秒可生成超過1,800個(gè)tokens,而性能最佳的基于H100的實(shí)例每秒只能生成超過242個(gè)tokens。然而,卓越的性能伴隨著高昂的成本。一個(gè)Cerebras WSE系統(tǒng)大約需要200萬至300萬美元。與NVIDIA GPU相比,Cerebras系統(tǒng)的實(shí)際應(yīng)用并不泛。
迄今為止,Cerebras WSE系統(tǒng)已部署在阿貢國(guó)家實(shí)驗(yàn)室,以在短時(shí)間內(nèi)探索更多想法,梅奧診所也已與Cerebras系統(tǒng)啟動(dòng)了為期多年的戰(zhàn)略合作,開發(fā)多模態(tài)LLM,旨在改善患者預(yù)后和診斷。來自三家實(shí)驗(yàn)室(桑迪亞、勞倫斯利弗莫爾和洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室)的研究人員與Cerebras系統(tǒng)合作,在分子動(dòng)力學(xué)和計(jì)算科學(xué)方面取得了前所未有的速度。Cerebras與AI公司G42合作,在美國(guó)德克薩斯州達(dá)拉斯的Condor Galaxy 3-5設(shè)施和美國(guó)明尼蘇達(dá)州明尼阿波利斯的Condor Galaxy 6-9設(shè)施開發(fā)了一個(gè)由64個(gè)WSE-3系統(tǒng)組成的集群。這項(xiàng)舉措是一個(gè)更大的九階段項(xiàng)目的一部分,該項(xiàng)目已分別在FP16下實(shí)現(xiàn)了20和32 ExaFLOPS的計(jì)算性能。
與此同時(shí),英偉達(dá)的H100 提供分布式架構(gòu)和Transformer引擎,使其成為通用AI工作負(fù)載的首選,包括LLM和HPC。據(jù)英偉達(dá)報(bào)告,H100 GPU在MLPerf中為大規(guī)模訓(xùn)練時(shí)間性能樹立了新基準(zhǔn),在各種工作負(fù)載(包括新的LLM訓(xùn)練任務(wù))中實(shí)現(xiàn)了創(chuàng)紀(jì)錄的速度。由于其多功能性、成熟的生態(tài)系統(tǒng)和卓越的模塊化,它已被微軟、Meta、谷歌云、戴爾科技、慧與科技、聯(lián)想、超微、亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云、微軟Azure、甲骨文云、CoreWeave、Lambda和特斯拉等主要科技和汽車公司廣泛采用。
這些發(fā)展凸顯了WSE和GPU的互補(bǔ)優(yōu)勢(shì)。雖然WSE在處理最大模型方面具有無與倫比的速度和簡(jiǎn)潔性,但H100等GPU為廣泛的AI應(yīng)用提供了多功能性、成熟的生態(tài)系統(tǒng)和卓越的模塊化。
WSE與GPU集群之間的
延遲和吞吐量差異
高性能AI和機(jī)器學(xué)習(xí)需要專用硬件來滿足訓(xùn)練LLM日益增長(zhǎng)的需求。為了滿足這些要求,WSE和GPU集群已成為兩種主要的架構(gòu),每種都有獨(dú)特的優(yōu)勢(shì)和權(quán)衡。本節(jié)探討WSE(重點(diǎn)關(guān)注Cerebras WSE-3和特斯拉Dojo訓(xùn)練芯片)和GPU集群(NVIDIA H100和谷歌Trillium TPU v6e)之間的延遲和吞吐量差異。
WSE-3的設(shè)計(jì)旨在通過消除多芯片之間的數(shù)據(jù)傳輸需求來最大限度地減少延遲,這在GPU集群中很常見。這種單片架構(gòu)實(shí)現(xiàn)了大規(guī)模并行和核心之間的低延遲通信。根據(jù) Cerebras 的說法,與傳統(tǒng)的GPU集群相比,WSE-3 訓(xùn)練大型模型的時(shí)間最多可快2倍。
特斯拉的Dojo訓(xùn)練芯片是另一個(gè)專門為AI訓(xùn)練設(shè)計(jì)的晶圓級(jí)系統(tǒng),特別是針對(duì)自動(dòng)駕駛應(yīng)用。這種晶圓級(jí)集成減少了通信開銷。Dojo 的架構(gòu)強(qiáng)調(diào)可擴(kuò)展性和效率,重點(diǎn)在于降低分布式訓(xùn)練場(chǎng)景中的延遲。特斯拉聲稱,Dojo 在單個(gè)機(jī)柜中可實(shí)現(xiàn) 1.3 ExaFLOPS 的計(jì)算能力,擁有 1.1 TB/s 的互芯片帶寬和 10 TB/s 的片內(nèi)雙向帶寬,使其成為目前最強(qiáng)大的AI訓(xùn)練系統(tǒng)之一。
英偉達(dá)(NVIDIA)的H100 基于 Hopper 架構(gòu),是AI訓(xùn)練中最強(qiáng)大的GPU之一,包括 18,432個(gè)CUDA核心和640個(gè)張量核心。此外,H100 配備了 NVLink 和 NVSwitch 系統(tǒng),用于高速GPU間通信。英偉達(dá)的GPU集群旨在實(shí)現(xiàn)可擴(kuò)展性,允許多個(gè)GPU在集群中協(xié)同工作。然而,這會(huì)引入GPU之間的通信延遲。根據(jù)英偉達(dá)的說法,對(duì)于大規(guī)模AI模型,H100 的訓(xùn)練性能比其前身A100 快6倍。
谷歌(Google)的Trillium TPU v6e 是其TPU產(chǎn)品線中的最新成員,針對(duì)AI訓(xùn)練和推理進(jìn)行了優(yōu)化,芯片峰值性能估計(jì)比上一代v5e提高了4.7倍,HBM容量增加了一倍。TPU旨在優(yōu)化吞吐量,特別是針對(duì)大規(guī)模分布式訓(xùn)練。此外,谷歌報(bào)告稱,Trillium TPU v6e的能效比上一代TPU提高了67%以上。
WSE-3 的單片設(shè)計(jì)消除了芯片間通信,從而實(shí)現(xiàn)了片上數(shù)據(jù)移動(dòng)的超低延遲。這對(duì)于需要核心之間頻繁通信的工作負(fù)載尤其有利,例如訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。據(jù)Cerebras稱,WSE-3與傳統(tǒng)GPU集群相比,可將軟件復(fù)雜性降低高達(dá)90%,同時(shí)將實(shí)時(shí)生成式AI推理的延遲降低10倍以上。
Dojo 的晶圓級(jí)集成也通過最大限度地減少數(shù)據(jù)在處理單元之間傳輸?shù)木嚯x來降低延遲。然而,它對(duì)可擴(kuò)展性的關(guān)注意味著在跨多個(gè)芯片擴(kuò)展時(shí)會(huì)引入一些延遲。特斯拉已證明Dojo在實(shí)時(shí)自動(dòng)駕駛車輛訓(xùn)練任務(wù)中可以實(shí)現(xiàn)100納秒的芯片間延遲。
英偉達(dá)(NVIDIA)H100 提供了高性能,但其多GPU架構(gòu)由于數(shù)據(jù)通過NVLink或PCIe在GPU之間傳輸而引入了通信延遲。這種延遲可能成為大規(guī)模分布式訓(xùn)練的瓶頸。英偉達(dá)通過NVLink 4.0解決了這個(gè)問題,它提供了每個(gè)GPU 900 GB/s的雙向帶寬,但延遲仍然高于晶圓級(jí)系統(tǒng)。
谷歌Trillium TPU v6e 針對(duì)吞吐量進(jìn)行了優(yōu)化,但當(dāng)跨多個(gè)設(shè)備擴(kuò)展時(shí),它們?nèi)匀幻媾R芯片間通信延遲。谷歌通過高帶寬互連來緩解這個(gè)問題,但延遲仍然高于晶圓級(jí)系統(tǒng)。谷歌報(bào)告稱,Trillium TPU v6e在片上操作中實(shí)現(xiàn)了納秒級(jí)延遲,但芯片間延遲可能顯著更高。
比較延遲的表格(表3)已包含在內(nèi),其中提供了WSE和GPU集群之間的片上和芯片間延遲。
從吞吐量角度來看,WSE-3的巨大核心數(shù)量和高內(nèi)存帶寬使得AI訓(xùn)練的吞吐量異常出色。其單片設(shè)計(jì)確保所有核心都能協(xié)同工作而不會(huì)出現(xiàn)瓶頸。Cerebras聲稱WSE-3在AI工作負(fù)載下可實(shí)現(xiàn)高達(dá)125 PFLOPS的峰值性能。
Dojo 的吞吐量針對(duì)特斯拉的特定工作負(fù)載(例如自動(dòng)駕駛車輛訓(xùn)練)進(jìn)行了優(yōu)化。其晶圓級(jí)設(shè)計(jì)允許高吞吐量,但專為特斯拉的用例量身定制。特斯拉報(bào)告稱,Dojo可以同時(shí)處理100萬個(gè)視頻流,每個(gè)流以36幀/秒的速度運(yùn)行,用于訓(xùn)練自動(dòng)駕駛模型。
H100 在吞吐量方面表現(xiàn)出色,特別是與英偉達(dá)的軟件堆棧(CUDA、cuDNN、TensorRT)結(jié)合使用時(shí)。它在多個(gè)GPU之間的可擴(kuò)展性使其成為大規(guī)模訓(xùn)練的理想選擇,盡管吞吐量可能會(huì)受到GPU間通信的限制。英偉達(dá)聲稱,單個(gè)H100 GPU在使用FP64精度時(shí)可以實(shí)現(xiàn)高達(dá)60 TFLOPS的HPC。
TPU 專為分布式訓(xùn)練場(chǎng)景而設(shè)計(jì)。谷歌的自定義互連和軟件優(yōu)化確保了高效率,但吞吐量仍然受到需要跨多個(gè)芯片進(jìn)行擴(kuò)展的限制。谷歌報(bào)告稱,單個(gè)Trillium TPU v6e pod可以為大規(guī)模AI訓(xùn)練提供ExaFLOP級(jí)性能。
表4顯示了峰值和實(shí)際AI訓(xùn)練吞吐量,也提供了相應(yīng)的WSE和GPU集群的關(guān)鍵權(quán)衡。
晶圓系統(tǒng)憑借其消除芯片間通信和簡(jiǎn)化編程的架構(gòu),為單晶圓工作負(fù)載提供了超低延遲和高吞吐量。Cerebras WSE-3 與傳統(tǒng)的基于GPU的系統(tǒng)相比,可提供顯著更低的延遲。這得益于其巨大的內(nèi)存帶寬和緊密耦合的計(jì)算與內(nèi)存架構(gòu),從而實(shí)現(xiàn)了單芯片上的高效流水線執(zhí)行。每個(gè)晶圓區(qū)域處理一個(gè)token,并擁有足夠的內(nèi)存帶寬來運(yùn)行本地批處理大小為1,通過確保下一個(gè)區(qū)域在物理上相鄰,從而在流水線階段之間幾乎沒有延遲,保持低延遲。這種架構(gòu)優(yōu)化了矩陣乘向量操作的性能,并支持高單用戶速度和高多用戶吞吐量,消除了GPU系統(tǒng)中常見的延遲與吞吐量權(quán)衡。然而,它們?cè)趩尉A之外的可擴(kuò)展性、高制造成本和通用工作負(fù)載的靈活性方面面臨限制。相比之下,GPU集群在多GPU擴(kuò)展性方面表現(xiàn)出色,并為廣泛的應(yīng)用提供靈活性,并由CUDA、TensorFlow和PyTorch等成熟的軟件生態(tài)系統(tǒng)支持。然而,GPU集群由于GPU間通信、吞吐量瓶頸和散熱要求而面臨更高的延遲。因此,每種架構(gòu)都具有獨(dú)特的優(yōu)勢(shì)和權(quán)衡,使其適用于AI和HPC中的不同用例。
架構(gòu)差異
英偉達(dá)(NVIDIA)的Hopper架構(gòu)遵循模塊化方法,利用多個(gè)流式多處理器,這些處理器可以通過NVLink互連以構(gòu)建可擴(kuò)展系統(tǒng),適用于包括AI、HPC和圖形在內(nèi)的各種工作負(fù)載。相比之下,Cerebras的WSE 采用單片設(shè)計(jì),一個(gè)巨大的單硅晶圓包含數(shù)十萬個(gè)AI優(yōu)化核心,專門針對(duì)深度學(xué)習(xí)任務(wù)進(jìn)行了優(yōu)化。雖然Hopper的模塊化允許跨多個(gè)GPU的靈活性和可擴(kuò)展性,但它引入了互連開銷。WSE的單芯片架構(gòu)最大程度地減少了通信延遲,但由于晶圓尺寸而面臨物理可擴(kuò)展性限制,使其在特定AI工作負(fù)載中效率極高,但在更廣泛的應(yīng)用中通用性較差。
對(duì)比WSE的單片方法與GPU集群的
分布式架構(gòu)
在本節(jié)中,讀者將了解WSE系統(tǒng)與傳統(tǒng)GPU集群的通用架構(gòu)比較。架構(gòu)差異顯著,主要受其設(shè)計(jì)原則、數(shù)據(jù)通信方法和集成效率的影響。核心差異匯總在表5中。此外,圖2展示了關(guān)鍵特性的視覺比較(以Cerebras WSE-3和NVIDIA H100為例)。圖2A顯示了晶體管數(shù)量、核心數(shù)量和可擴(kuò)展性的比較,而圖2B則說明了節(jié)點(diǎn)、性能和功耗的比較。
圖2. 晶圓級(jí)與傳統(tǒng)基于GPU的AI加速器對(duì)比分析
(A) Cerebras晶圓級(jí)引擎(WSE-3)與NVIDIA H100 GPU在晶體管數(shù)量、核心數(shù)量和可擴(kuò)展性方面的比較。 WSE-3展現(xiàn)出顯著更高的晶體管密度和核心數(shù)量,這反映了其單片晶圓級(jí)設(shè)計(jì),而H100在多個(gè)單元間提供更好的模塊化可擴(kuò)展性。(B) 工藝節(jié)點(diǎn)、計(jì)算性能和功耗的比較。 盡管兩個(gè)系統(tǒng)都使用相似的半導(dǎo)體工藝節(jié)點(diǎn),但WSE-3提供明顯更高的計(jì)算性能,同時(shí)其功耗也顯著高于H100。這些比較突顯了不同AI硬件架構(gòu)在原始性能和能源效率之間的權(quán)衡。
WSE旨在通過數(shù)據(jù)并行進(jìn)行擴(kuò)展,這與GPU集群類似。這種方法避免了混合模型并行相關(guān)的復(fù)雜性,混合模型并行在將模型分發(fā)到不同芯片或系統(tǒng)時(shí)會(huì)引入顯著的延遲和開銷。通過保持單一架構(gòu)模型,它簡(jiǎn)化了執(zhí)行模型,使管理和優(yōu)化大型數(shù)據(jù)集和復(fù)雜神經(jīng)網(wǎng)絡(luò)的性能變得更容易。
WSE的架構(gòu)旨在足夠大,可以在單個(gè)芯片上運(yùn)行最大的AI模型,該芯片采用了一種稱為單片架構(gòu)的設(shè)計(jì)(如Cerebras WSE-3中所示),其中整個(gè)硅晶圓作為一個(gè)單一的統(tǒng)一處理器運(yùn)行。這種設(shè)計(jì)消除了對(duì)復(fù)雜芯片間通信的需求,允許超高帶寬的片上通信,晶圓上緊密互連的數(shù)萬億晶體管(表2),從而通過將所有操作保持在同一芯片內(nèi)來提高性能。SRAM分布在晶圓上,實(shí)現(xiàn)了片上內(nèi)存計(jì)算,通過消除從芯片外部獲取和存儲(chǔ)數(shù)據(jù)的需要,大大減少了延遲。本地SRAM位于晶圓中(如圖3A所示),這使得每個(gè)核心都可以獨(dú)立處理其模型部分,而無需等待全局內(nèi)存。
此外,將數(shù)十萬個(gè)核心(表2)容納在單個(gè)單元中,可以在依賴密集矩陣操作的大型AI工作負(fù)載中表現(xiàn)出色。此外,晶圓級(jí)系統(tǒng)將計(jì)算和內(nèi)存資源整合到單個(gè)晶圓上,消除了多芯片系統(tǒng)中固有的組件間數(shù)據(jù)移動(dòng)和互連功率損耗帶來的能量開銷,從而實(shí)現(xiàn)了卓越的能源效率和每瓦更高的計(jì)算性能(如表9所示)。
盡管晶圓級(jí)架構(gòu)具有所有這些優(yōu)勢(shì),但傳統(tǒng)上它們?nèi)菀壮霈F(xiàn)良率問題(晶圓內(nèi)的晶體管缺陷)。然而,WSE 采用冗余計(jì)算核心和容缺陷路由機(jī)制來繞過故障區(qū)域。WSE-3 使用一種名為 SwarmX96 的自定義互連結(jié)構(gòu),該結(jié)構(gòu)可以動(dòng)態(tài)地將數(shù)據(jù)路由到有缺陷的核心或互連周圍,同時(shí)隔離缺陷區(qū)域,并且路由結(jié)構(gòu)會(huì)自動(dòng)通過替代路徑重新路由數(shù)據(jù),從而保持晶圓的整體功能。這確保了核心之間的通信不會(huì)中斷。
相比之下,傳統(tǒng)的 GPU 架構(gòu)依賴于分布式計(jì)算模型,其中多個(gè)獨(dú)立的 GPU(如 NVIDIA H100 和 AMD MI300X)通過名為 NVLink、PCIe 或外部網(wǎng)絡(luò)基礎(chǔ)設(shè)施的高速互連(圖3B)連接在一起,從而導(dǎo)致更高的延遲和帶寬限制。雖然 NVSwitch 和 RDMA 等技術(shù)有助于減少瓶頸,但它們無法與 WSE 的直接晶圓內(nèi)通信相媲美。
與晶圓級(jí)系統(tǒng)不同,傳統(tǒng) GPU 依賴于分層內(nèi)存架構(gòu),將快速但有限的共享內(nèi)存(如L1緩存,也如圖3B所示)與高帶寬全局內(nèi)存(HBM3或GDDR6X)(表2)結(jié)合起來,需要頻繁跨節(jié)點(diǎn)進(jìn)行數(shù)據(jù)傳輸,這可能在大規(guī)模訓(xùn)練中引入內(nèi)存帶寬瓶頸。由于傳統(tǒng) GPU 系統(tǒng)是分布式的,單個(gè) GPU 或節(jié)點(diǎn)的故障不會(huì)影響整個(gè)系統(tǒng)。冗余自然地內(nèi)置其中,允許將工作負(fù)載重新分配到正常運(yùn)行的 GPU。
此外,隨著這些 GPU 橫向擴(kuò)展,需要多個(gè)節(jié)點(diǎn)可以靈活擴(kuò)展,這也會(huì)增加系統(tǒng)復(fù)雜性、功耗和散熱要求。由于網(wǎng)絡(luò)、互連和節(jié)點(diǎn)同步,GPU 集群的功耗變得很高,使能效成為數(shù)據(jù)中心面臨的關(guān)鍵挑戰(zhàn)。從積極的方面來看,GPU 在各種工作負(fù)載方面仍然具有通用性,而晶圓級(jí)架構(gòu)在目標(biāo) AI 模型方面具有卓越的效率,以犧牲跨節(jié)點(diǎn)的可擴(kuò)展性來?yè)Q取無與倫比的片上性能。
圖3. WSE與傳統(tǒng)GPU的核心架構(gòu)
(A) Cerebras晶圓級(jí)引擎(WSE)中處理元件的示意圖,突出顯示其高度并行、以內(nèi)存為中心的設(shè)計(jì)。 每個(gè)核心集成了張量控制、SRAM、寄存器和融合乘加(FMAC)數(shù)據(jù)通路,所有這些都通過高帶寬片上互連連接,以實(shí)現(xiàn)晶圓上高效的數(shù)據(jù)移動(dòng)。(B) NVIDIA傳統(tǒng)GPU架構(gòu)(例如H100)的框圖,展示了流式多處理器(SMs)、核心、控制單元、內(nèi)存層次結(jié)構(gòu)(L1和L2緩存)和高帶寬內(nèi)存(HBM3)的組織方式。 該設(shè)計(jì)通過NVLink互連和全局內(nèi)存訪問強(qiáng)調(diào)模塊化可擴(kuò)展性,從而實(shí)現(xiàn)高效的多GPU配置。這些圖共同對(duì)比了晶圓級(jí)加速器的單片集成與GPU系統(tǒng)的模塊化、多芯片可擴(kuò)展性。
AI 硬件的選擇取決于特定的用例和每個(gè)系統(tǒng)的架構(gòu)優(yōu)勢(shì)。表6 總結(jié)了用戶案例建議。對(duì)于大規(guī)模 AI 模型訓(xùn)練,特別是對(duì)于 LLM、NLP 和視覺模型,Cerebras WSE-3 是最佳選擇,因?yàn)樗哂懈?FP16 計(jì)算能力、片上內(nèi)存和消除互連瓶頸的優(yōu)點(diǎn),使其在無需分區(qū)的情況下高效訓(xùn)練大型模型。然而,對(duì)于涉及中小型模型的通用 AI 訓(xùn)練,NVIDIA H100 更受歡迎,因?yàn)樗哂型ㄓ眯砸约芭c CUDA、TensorFlow 和 PyTorch 等行業(yè)標(biāo)準(zhǔn) AI 軟件框架的無縫集成。在 HPC 和科學(xué)模擬中,雙精度(FP64)計(jì)算至關(guān)重要,NVIDIA H100 優(yōu)于其他架構(gòu),使其成為物理學(xué)、金融和工程應(yīng)用領(lǐng)域的理想選擇。此外,在數(shù)據(jù)中心等注重可擴(kuò)展性的環(huán)境中,NVIDIA H100 在分布式計(jì)算集群(DGX 和 SuperPODs)中表現(xiàn)出色,通過 NVLink 等先進(jìn)互連技術(shù)確保高效的多節(jié)點(diǎn)處理。最后,在能效方面,Cerebras WSE-3 通過消除與 GPU 間通信相關(guān)的能量損耗而具有關(guān)鍵優(yōu)勢(shì),使其成為優(yōu)先考慮每瓦性能的大規(guī)模 AI 工作負(fù)載的更節(jié)能選擇。這些架構(gòu)中的每一種都存在獨(dú)特的權(quán)衡,使得選擇過程高度依賴于工作負(fù)載要求和系統(tǒng)可擴(kuò)展性需求。
晶圓級(jí)引擎(WSE):
Cerebras WSE-3 與特斯拉 Dojo 訓(xùn)練芯片
1
架構(gòu)效率、功耗和設(shè)計(jì)特性比較
表7 全面比較了 Cerebras WSE-3 和 特斯拉 Dojo 系統(tǒng)的效率、功耗和架構(gòu)設(shè)計(jì)。
Cerebras WSE-3 采用晶圓級(jí)設(shè)計(jì),將大約 4萬億個(gè)晶體管 和 90萬個(gè)AI優(yōu)化核心 集成在一塊12英寸的硅晶圓上。這種架構(gòu)實(shí)現(xiàn)了 44 GB 的大規(guī)模片上內(nèi)存,顯著減少了互連瓶頸。單個(gè) WSE-3 系統(tǒng),占用16個(gè)機(jī)架單元,功耗為 23 kW,并能夠擴(kuò)展到 2,048個(gè)互連系統(tǒng)。相比之下,特斯拉 Dojo 采用模塊化架構(gòu),由多個(gè)較小的 D1芯片 組成,以 5×5 陣列排列在載片上。每個(gè) D1 芯片包含 354個(gè)核心 和 500億個(gè)晶體管,每個(gè)芯片的功耗約為 600 W。一個(gè)完全填充的25芯片 Dojo Tile 功耗為 15 kW,一個(gè)10機(jī)架的 ExaPOD 系統(tǒng)功耗可達(dá) 1.8 MW。特斯拉聲稱其每瓦性能比之前的架構(gòu)提高了 1.3倍,強(qiáng)調(diào)了其對(duì)各種AI工作負(fù)載的適應(yīng)性,包括計(jì)算機(jī)視覺和自動(dòng)駕駛應(yīng)用。
詳細(xì)的架構(gòu)分解進(jìn)一步突出了這兩個(gè)系統(tǒng)截然不同的設(shè)計(jì)理念。Cerebras WSE-3(圖4A)展現(xiàn)出高度流線型的架構(gòu),針對(duì)深度學(xué)習(xí)工作負(fù)載進(jìn)行了優(yōu)化,主要依賴于本地SRAM和高效的融合乘加(FMAC)單元。每個(gè)計(jì)算核心的大部分都專用于SRAM存儲(chǔ)體,組織成6KB的段,并具有最少量的控制邏輯。這種配置反映了Cerebras專注于最大化大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的矩陣密集型計(jì)算。數(shù)據(jù)移動(dòng)通過可預(yù)測(cè)的、軟件編排的路徑從本地SRAM到FMAC單元進(jìn)行控制,有效地最大限度地減少開銷并最大化吞吐量。
圖4. 特斯拉Dojo和Cerebras WSE-3的架構(gòu)設(shè)計(jì)
(A) Cerebras WSE-3 核心架構(gòu)。(B) 特斯拉 Dojo。(C) Cerebras WSE-3 引擎模塊。(D) 特斯拉 Dojo D1 芯片tray。
相反,特斯拉Dojo架構(gòu)(圖4B)采用類似CPU的流水線,包括分支預(yù)測(cè)器、L1指令緩存和一個(gè)8寬解碼階段,能夠?yàn)闃?biāo)量(算術(shù)邏輯單元、地址生成單元)和矢量(單指令、多數(shù)據(jù)、專用MatMul)執(zhí)行單元提供指令。此外,Dojo具有更大的、類似緩存的內(nèi)存子系統(tǒng),包括1.25 MB的SRAM以及多個(gè)加載和存儲(chǔ)路徑。雖然這種設(shè)計(jì)犧牲了一些原始的矩陣乘法密度,但它提供了更大的計(jì)算靈活性。Dojo核心能夠處理分支、整數(shù)算術(shù)和各種AI內(nèi)核執(zhí)行,使其成為一個(gè)更通用的AI加速器。
最終,Cerebras WSE-3 優(yōu)先考慮矩陣密集型深度學(xué)習(xí)模型的原始計(jì)算吞吐量,將大部分硬件資源專門用于矩陣乘法單元。相比之下,特斯拉Dojo 在AI加速和更廣泛的執(zhí)行流水線之間取得平衡,使其能夠支持更廣泛的AI工作負(fù)載和傳統(tǒng)深度學(xué)習(xí)之外的控制流任務(wù)。
2
冷卻技術(shù)
如前所述,Cerebras WSE-3 和 特斯拉Dojo D1訓(xùn)練芯片 的功耗分別高達(dá)23千瓦和15千瓦,這意味著它們?cè)谪?fù)載下會(huì)產(chǎn)生大量熱量。因此,冷卻解決方案對(duì)于這些晶圓級(jí)系統(tǒng)來說是一個(gè)非常重要的考量點(diǎn)。秉承"一切皆在晶圓上"的理念,Cerebras 和特斯拉的散熱解決方案似乎都圍繞著直接集成到芯片上的液冷系統(tǒng)。由于芯片的尺寸,需要對(duì)冷卻的分配進(jìn)行精確控制,以確保其與電源一起均勻地傳遞。實(shí)現(xiàn)這一點(diǎn)的最佳方法是使用液冷,這也正是兩家公司都選擇此作為其冷卻解決方案的原因。從這一點(diǎn)開始,Cerebras 和特斯拉的方法開始出現(xiàn)分歧。以下章節(jié)將詳細(xì)介紹每種方法。
1、WSE-3 的集成冷卻方法
Cerebras嚴(yán)格遵循其與最初系統(tǒng) WSE-1 一同開發(fā)的冷卻解決方案。WSE-3 晶圓 被牢固地安裝在降壓電源模塊和連接有歧管的冷卻板之間。歧管將水流導(dǎo)向冷卻板的背面,然后通過一個(gè)封閉的內(nèi)部水循環(huán)冷卻晶圓。該水循環(huán)包含水-丙二醇混合物,這種混合物以其高效冷卻系統(tǒng)的能力而聞名,同時(shí)還能降低水的冰點(diǎn)并抑制系統(tǒng)中金屬的潛在腐蝕。電源從晶圓正面頂部供電,而熱量從底部散發(fā)。該系統(tǒng)由降壓電源模塊、晶圓、冷卻板和歧管組成,被稱為引擎模塊(圖4C)。
憑借其集成設(shè)計(jì),引擎模塊直接向晶圓正面供電,以獲得所需的功率密度,并提供傳統(tǒng)封裝無法實(shí)現(xiàn)的均勻冷卻。通過這種獨(dú)特的封裝技術(shù),WSE-3 能夠在一個(gè)緊湊、節(jié)能的系統(tǒng)中實(shí)現(xiàn)多個(gè)GPU集群的性能。每個(gè) WSE-3 系統(tǒng)中只有一個(gè) WSE-3 芯片,這通常足以滿足先進(jìn)的AI訓(xùn)練需求。然而,對(duì)于超大規(guī)模項(xiàng)目或超大規(guī)模AI模型,多個(gè) WSE-3 系統(tǒng)可以通過 Cerebras 的 SwarmX 互連 鏈接在一起,創(chuàng)建更強(qiáng)大的集群。每個(gè)系統(tǒng)中的所有水泵和電源都是冗余的,并且支持熱插拔,便于快速訪問和維護(hù)。
2、Dojo D1 芯片的集成冷卻方法
特斯拉似乎沒有像Cerebras那樣的引擎模塊,但他們確實(shí)有一種類似地將晶圓"夾"在供電和冷卻板之間的冷卻方法。具體來說,每個(gè) D1 芯片 都設(shè)計(jì)有冷卻通道,允許冷卻劑——即去離子水——均勻地流過芯片,有效地散發(fā)操作過程中產(chǎn)生的熱量。
這種液冷系統(tǒng)集成在芯片內(nèi)部,通過均勻分布冷卻劑到晶圓的整個(gè)表面,確保 D1 芯片保持最佳工作溫度。冷卻劑吸收芯片產(chǎn)生的熱量,然后通過熱交換器循環(huán),將熱量從系統(tǒng)中排出。電源從芯片底部供電,熱量從頂部散發(fā),這與 Cerebras 的頂部供電、底部冷卻的方法形成鮮明對(duì)比。每個(gè)包含25個(gè) D1 芯片的芯片托盤(圖4D)以2×3陣列放置在供電模塊上方,形成特斯拉所稱的"托盤"配置。
每個(gè)服務(wù)器機(jī)柜中有兩個(gè)trays,這意味著每個(gè)系統(tǒng)總共有12個(gè)Dojo芯片。無論是Cerebras還是特斯拉,兩種方法似乎都能有效地為其各自的芯片提供適量的電力和冷卻。
Cerebras WSE-3 和
特斯拉 Dojo 的制造工藝
Cerebras WSE-3 和特斯拉 Dojo AI 加速器均采用臺(tái)積電(TSMC)的先進(jìn)半導(dǎo)體制造技術(shù)制造,利用不同的工藝節(jié)點(diǎn)和集成策略來優(yōu)化性能、可擴(kuò)展性和功率效率。
Cerebras WSE-3:
臺(tái)積電5納米節(jié)點(diǎn)上的晶圓級(jí)制造
Cerebras WSE-3 采用臺(tái)積電專門為晶圓級(jí)AI加速器優(yōu)化的定制 5納米(N5)工藝制造。與傳統(tǒng)的基于芯片的設(shè)計(jì)不同,WSE-3是一個(gè)單一的、整體的晶圓,在一塊12英寸的硅晶圓上集成了大約 4萬億個(gè)晶體管 和 90萬個(gè)AI專用核心。這種晶圓級(jí)架構(gòu)旨在消除芯片間通信瓶頸并提高片上內(nèi)存帶寬,達(dá)到 44 GB的SRAM容量。
WSE-3 的制造工藝遵循標(biāo)準(zhǔn)的 FinFET 制造流程,包括以下步驟:
晶圓準(zhǔn)備:工藝始于一塊清潔的硅晶圓。
氧化:在晶圓上生長(zhǎng)一層薄薄的二氧化硅(SiO2),作為絕緣層。
光刻:使用極紫外(EUV)光刻,用晶體管布局圖案化光刻膠層。
刻蝕:刻蝕掉晶圓未受保護(hù)的區(qū)域,定義晶體管結(jié)構(gòu)。在這種情況下,刻蝕是高度各向異性的,以創(chuàng)建FinFET的鰭狀結(jié)構(gòu)。
沉積:沉積高介電常數(shù)介質(zhì)和金屬柵極。臺(tái)積電主要將**二氧化鉿(HfO2)**用于高端芯片,盡管WSE-3是否專門采用這種材料尚不清楚。
離子注入和退火:引入摻雜劑以創(chuàng)建n型和p型區(qū)域,然后進(jìn)行退火以激活摻雜劑。
互連形成:使用銅-銅(Cu-to-Cu)混合鍵合在AI核心之間形成互連,增強(qiáng)信號(hào)完整性和功率效率。
臺(tái)積電的5納米FinFET工藝為p型晶體管引入了SiGe(硅鍺)通道,與7納米(N7)基于Si的通道相比,提高了空穴遷移率和整體晶體管性能。這使得WSE-3能夠比上一代AI加速器實(shí)現(xiàn)更高的效率和更好的熱特性。
晶圓級(jí)設(shè)計(jì)的主要挑戰(zhàn)是良率管理,因?yàn)榫A中的任何缺陷都可能損害性能。在設(shè)計(jì)中加入冗余和在制造后重新配置電路是提高缺陷容忍度的常見策略。這些相同的策略也用于WSE-3,它結(jié)合了冗余AI核心和容缺陷路由機(jī)制,可以動(dòng)態(tài)地將數(shù)據(jù)重新路由到缺陷區(qū)域周圍。這通過其互連結(jié)構(gòu)(他們稱之為 SwarmX)實(shí)現(xiàn)了WSE的穩(wěn)健運(yùn)行。
特斯拉 Dojo:
采用臺(tái)積電7納米工藝的晶圓級(jí)系統(tǒng)
另一方面,特斯拉 Dojo 采用基于臺(tái)積電 7納米(N7)工藝節(jié)點(diǎn) 的模塊化片上系統(tǒng)(SoW)方法。
Dojo 的制造工藝遵循臺(tái)積電的 整合扇出(InFO)封裝技術(shù),該技術(shù)增強(qiáng)了芯片間連接性并降低了互連功耗。制造步驟包括:
預(yù)測(cè)試邏輯芯片:每個(gè) D1 芯片的制造過程與傳統(tǒng)芯片類似,但在集成前會(huì)單獨(dú)進(jìn)行測(cè)試,以減少與缺陷相關(guān)的故障。
載片組裝:預(yù)測(cè)試的芯片被放置在載片上,作為結(jié)構(gòu)基礎(chǔ)。
InFO 互連:臺(tái)積電的 InFO 封裝構(gòu)建了高密度互連網(wǎng)絡(luò),使25個(gè) D1 芯片能夠像一個(gè)處理器一樣工作。
填充空白處:芯片之間的空間用虛擬芯片填充,以增強(qiáng)結(jié)構(gòu)完整性。
高密度互連制造:使用倒裝芯片技術(shù)形成可靠且高密度的互連,這種技術(shù)以其性能和熱管理能力而聞名。
為了應(yīng)對(duì)與 Cerebras 相同的良率管理挑戰(zhàn),特斯拉也有自己的互連結(jié)構(gòu),稱為 以太網(wǎng)上的特斯拉傳輸協(xié)議(Tesla Transport Protocol over Ethernet,TTPoE),盡管它不如 SwarmX 那么引人注目,但提供了類似的好處。
總而言之,Cerebras WSE-3 和 特斯拉 Dojo 代表了 AI加速 的兩種不同的制造策略。WSE-3 的晶圓級(jí)架構(gòu)提供了無與倫比的片上帶寬和計(jì)算效率,得益于臺(tái)積電的5納米工藝和銅-銅混合鍵合。然而,它在單個(gè)晶圓之外面臨可擴(kuò)展性挑戰(zhàn),并且需要先進(jìn)的缺陷管理來確保良率效率。相反,特斯拉 Dojo 在臺(tái)積電7納米工藝上采用的 SoW 設(shè)計(jì)利用模塊化擴(kuò)展,臺(tái)積電的 InFO 技術(shù)確保了跨多個(gè) D1 芯片的高密度倒裝芯片互連。這種方法犧牲了一些原始計(jì)算密度,但提供了更大的靈活性和容錯(cuò)能力。表8總結(jié)了兩種硬件之間的制造差異。最終,WSE-3 和 Dojo 之間的選擇取決于特定工作負(fù)載的需求,WSE-3 在深度學(xué)習(xí)訓(xùn)練方面表現(xiàn)出色,而 Dojo 則為AI推理和自動(dòng)駕駛工作負(fù)載提供了可擴(kuò)展的、高帶寬處理能力。
晶圓級(jí)引擎(WSE)與GPU集群的
能效比較
能源消耗是評(píng)估現(xiàn)代計(jì)算架構(gòu)效率和實(shí)用性的關(guān)鍵因素。隨著計(jì)算需求的增長(zhǎng),優(yōu)化能效在平衡性能和可持續(xù)性方面變得至關(guān)重要。晶圓級(jí)處理器和傳統(tǒng)GPU在功耗利用方面存在顯著差異,每種方法在計(jì)算效率方面都有其自身的優(yōu)缺點(diǎn)。檢查每個(gè)計(jì)算任務(wù)的能耗可以深入了解這些架構(gòu)在HPC和AI工作負(fù)載中如何高效運(yùn)行。表9總結(jié)了不同WSE和GPU集群之間能效的比較。
隨著計(jì)算需求的激增,能效已成為評(píng)估現(xiàn)代處理架構(gòu)的關(guān)鍵因素。Cerebras WSE-3引入了一種新穎的能耗方法,在設(shè)計(jì)和性能上與傳統(tǒng)GPU形成對(duì)比。本分析深入探討了每個(gè)計(jì)算任務(wù)的能耗,將WSE-3與傳統(tǒng)GPU架構(gòu)進(jìn)行了比較。
Cerebras WSE-3:架構(gòu)創(chuàng)新與能效
WSE-3是處理器設(shè)計(jì)上的一個(gè)巨大飛躍,具有90萬個(gè)AI優(yōu)化計(jì)算核心和44 GB的片上SRAM,全部采用5納米工藝技術(shù)制造。這種集成帶來了125 PFLOPS的峰值性能,能夠處理高達(dá)24萬億參數(shù)的AI模型。單片晶圓級(jí)設(shè)計(jì)最大限度地減少了芯片間通信的需求,而這在多芯片系統(tǒng)中是常見的能效低下來源。通過將內(nèi)存和計(jì)算本地化,WSE-3減少了數(shù)據(jù)移動(dòng),從而提高了每個(gè)任務(wù)的能效。
GPU架構(gòu)中的能耗挑戰(zhàn)
GPU雖然設(shè)計(jì)用于高并行度,但本質(zhì)上受限于其對(duì)通過高速互連連接的分布式處理單元的依賴。例如,NVIDIA H100在GPU間通信方面消耗大量電力,導(dǎo)致大規(guī)模訓(xùn)練工作負(fù)載中的能效低下。雖然其操作效率為7.9 TFLOPS/w,但GPU仍然是AI任務(wù)強(qiáng)大但能耗密集型解決方案。GPU中的內(nèi)存層次結(jié)構(gòu)需要HBM和處理核心之間頻繁的數(shù)據(jù)交換,進(jìn)一步導(dǎo)致其整體功耗增加。與優(yōu)化本地化數(shù)據(jù)處理的晶圓級(jí)芯片不同,GPU必須在管理數(shù)據(jù)移動(dòng)方面消耗額外的能量,從而增加每個(gè)任務(wù)的能耗。
可擴(kuò)展性與功率分配
WSE-3的統(tǒng)一架構(gòu)確保了其龐大核心陣列的一致功率分配,消除了與多芯片互連相關(guān)的瓶頸。這種設(shè)計(jì)允許性能線性擴(kuò)展,而能耗不會(huì)相應(yīng)線性增加。然而,WSE-3不能超過半導(dǎo)體制造中使用的標(biāo)準(zhǔn)硅晶圓的尺寸。這種物理限制對(duì)可以集成到單個(gè)WSE-3處理器中的核心數(shù)量和片上內(nèi)存量施加了上限。盡管WSE-3的設(shè)計(jì)最大限度地減少了傳統(tǒng)多芯片系統(tǒng)中存在的一些同步開銷,但隨著互連系統(tǒng)數(shù)量的增加,功率分配、冷卻和數(shù)據(jù)一致性等挑戰(zhàn)變得更加突出。這些因素可能導(dǎo)致性能可擴(kuò)展性收益遞減,并可能影響系統(tǒng)的整體能效。相比之下,基于GPU的系統(tǒng)擴(kuò)展通常會(huì)導(dǎo)致非線性功率需求,這是由于同步多個(gè)處理單元的開銷所致。
計(jì)算工作負(fù)載中的能耗
WSE-3 在受益于最小化數(shù)據(jù)移動(dòng)的工作負(fù)載(例如 AI推理 和訓(xùn)練)方面表現(xiàn)出色。其架構(gòu)能夠以更低的延遲和功耗執(zhí)行大規(guī)模模型。例如,WSE-3 可以處理高達(dá) 24萬億參數(shù) 的AI模型,如果使用傳統(tǒng)的GPU集群嘗試完成此壯舉,將需要巨大的能源資源。
Cerebras WSE-3 展示了處理架構(gòu)的范式轉(zhuǎn)變,通過其晶圓級(jí)設(shè)計(jì)優(yōu)先考慮能效。通過集成前所未有的核心數(shù)量和片上內(nèi)存,它比傳統(tǒng)的GPU設(shè)置降低了每個(gè)計(jì)算任務(wù)的能耗。隨著計(jì)算工作負(fù)載的復(fù)雜性不斷增長(zhǎng),采用像WSE-3這樣的架構(gòu)對(duì)于實(shí)現(xiàn)可持續(xù)和高效的HPC將至關(guān)重要。
環(huán)境影響與考量,包括兩種架構(gòu)的
碳足跡、熱量產(chǎn)生和冷卻要求
對(duì)高性能計(jì)算(HPC)和人工智能(AI)日益增長(zhǎng)的依賴引發(fā)了人們對(duì)能源消耗、冷卻需求和整體環(huán)境可持續(xù)性的日益關(guān)注。晶圓級(jí)引擎(WSE)的引入在計(jì)算效率方面取得了顯著進(jìn)步;然而,它們的環(huán)境足跡,特別是與傳統(tǒng)GPU相比,需要進(jìn)一步評(píng)估。本節(jié)將探討與WSE相關(guān)的能源消耗、冷卻基礎(chǔ)設(shè)施、碳排放和可持續(xù)性挑戰(zhàn),同時(shí)評(píng)估它們對(duì)可持續(xù)計(jì)算的更廣泛影響。
能源消耗與碳足跡
計(jì)算對(duì)環(huán)境的影響主要來自系統(tǒng)運(yùn)行期間的能源消耗以及與硬件制造相關(guān)的碳排放。數(shù)據(jù)中心目前約占全球電力消耗的1%,且隨著AI和云計(jì)算需求的增長(zhǎng),預(yù)計(jì)到2030年這一比例可能增至7%。盡管AI加速器效率的提高有助于減少能源浪費(fèi),但計(jì)算系統(tǒng)的整體碳足跡仍在持續(xù)上升,這主要?dú)w因于硬件生產(chǎn)和部署的增加。
WSE的一個(gè)關(guān)鍵優(yōu)勢(shì)是它們能夠直接在單個(gè)晶圓上存儲(chǔ)和處理整個(gè)AI模型,從而消除了能源密集型內(nèi)存?zhèn)鬏?,而這正是傳統(tǒng)基于GPU架構(gòu)中的主要低效率來源。Cerebras Systems 已證明,與微軟Azure云平臺(tái)上的GPU相比,基于WSE的推理工作負(fù)載的成本可以降低三分之二,功耗可以降低六分之一。雖然這些改進(jìn)表明運(yùn)營(yíng)能耗有所降低,但WSE仍然需要大量電力,其熱設(shè)計(jì)功耗高達(dá)10,000 W,與大型GPU集群相當(dāng)。
除了直接能源消耗,利用WSE的AI驅(qū)動(dòng)型應(yīng)用已應(yīng)用于氣候建模、碳捕獲模擬和環(huán)境可持續(xù)性研究。研究表明,WSE加速的AI模型提高了碳捕獲建模的計(jì)算效率,顯著減少了運(yùn)行大規(guī)模氣候模擬所需的時(shí)間和能量。雖然這些優(yōu)化有助于可持續(xù)發(fā)展,但AI廣泛采用的更深層次影響也必須予以考慮。
冷卻要求與熱管理
WSE的高功率密度帶來了顯著的散熱挑戰(zhàn)。傳統(tǒng)風(fēng)冷對(duì)于此類架構(gòu)通常不足,因此需要采用液冷解決方案。例如,Cerebras WSE集成了利用水/丙二醇冷卻劑循環(huán)的液冷系統(tǒng),每單元能夠散發(fā)高達(dá)15 kW的熱量。
微流體冷卻技術(shù)的進(jìn)步為提高散熱效率提供了另一種方法。該技術(shù)在晶圓內(nèi)部采用蝕刻的微通道,使冷卻劑直接流過計(jì)算元件,顯著降低了熱阻和外部冷卻所需的能量。實(shí)驗(yàn)研究表明,微流體冷卻可以將WSE溫度保持在55.9°C以下,從而減輕熱效率低下的問題。然而,可擴(kuò)展性挑戰(zhàn)和制造復(fù)雜性的增加限制了其在商業(yè)HPC系統(tǒng)中的廣泛采用。
冷卻基礎(chǔ)設(shè)施仍然是數(shù)據(jù)中心能源消耗的關(guān)鍵組成部分,冷卻系統(tǒng)幾乎占總能源使用的40%。AI驅(qū)動(dòng)的熱管理算法的實(shí)施,結(jié)合直接芯片液冷技術(shù)的進(jìn)步,使得冷卻效率逐步提高。然而,隨著計(jì)算能力的持續(xù)擴(kuò)展,更積極的冷卻解決方案將是維持長(zhǎng)期效率提升所必需的。
生命周期和制造碳足跡
雖然能效的提高減少了運(yùn)營(yíng)碳排放,但計(jì)算硬件的制造和處置仍然是全球碳排放的重要貢獻(xiàn)者。研究表明,硬件制造現(xiàn)在占現(xiàn)代計(jì)算排放的大部分,高達(dá)86%的總碳足跡歸因于制造、組裝和供應(yīng)鏈過程。高純度硅和稀土金屬等原材料的提取和加工需要能源密集型制造過程,這些過程依賴于大規(guī)模半導(dǎo)體制造設(shè)施。除了生產(chǎn)之外,環(huán)境影響還延伸到芯片封裝、分銷和最終處置,所有這些都導(dǎo)致電子廢物的日益積累。
最近為減少與制造相關(guān)的碳排放所做的努力包括延長(zhǎng)硬件壽命以最大程度地降低周轉(zhuǎn)率,提高半導(dǎo)體組件的可回收性,以及整合節(jié)能芯片制造技術(shù)。公司也已開始探索低碳計(jì)算架構(gòu),這些架構(gòu)采用加工要求較低的替代材料。
可再生能源在可持續(xù)計(jì)算中的作用
計(jì)算行業(yè)向可再生能源的轉(zhuǎn)型一直是主要科技公司的重點(diǎn)。谷歌和Meta等公司已實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)營(yíng)100%使用可再生能源,有效減少了運(yùn)營(yíng)碳足跡。然而,制造對(duì)環(huán)境的影響基本保持不變,這強(qiáng)調(diào)了采取整體方法實(shí)現(xiàn)可持續(xù)計(jì)算的必要性。對(duì)數(shù)據(jù)中心碳強(qiáng)度分析揭示了可持續(xù)發(fā)展努力的區(qū)域差異。例如,美國(guó)數(shù)據(jù)中心報(bào)告的平均碳強(qiáng)度為每千瓦時(shí)380克二氧化碳,具體取決于能源來源。歐洲數(shù)據(jù)中心的碳強(qiáng)度較低(約295克二氧化碳/千瓦時(shí)),這是由于依賴可再生能源政策。包括中國(guó)臺(tái)灣和新加坡在內(nèi)的東南亞數(shù)據(jù)中心的碳強(qiáng)度較高(約500-600克二氧化碳/千瓦時(shí)),這是由于對(duì)煤炭和天然氣的依賴。
通過自適應(yīng)能源調(diào)度優(yōu)化AI工作負(fù)載,即在可再生能源可用性最高時(shí)執(zhí)行計(jì)算任務(wù),是進(jìn)一步減少排放的一種擬議策略。此外,減少對(duì)集中式數(shù)據(jù)中心依賴的去中心化計(jì)算框架可以減輕能源傳輸損耗并提高整體系統(tǒng)可持續(xù)性。
總的來說,WSE的部署標(biāo)志著HPC的變革性轉(zhuǎn)變,在計(jì)算效率方面提供了顯著的改進(jìn),同時(shí)也在能源消耗和可持續(xù)性方面帶來了新的挑戰(zhàn)。雖然WSE在AI推理任務(wù)中表現(xiàn)出顯著的能效提升,但其環(huán)境影響超出了運(yùn)營(yíng)效率,涵蓋了制造排放、冷卻基礎(chǔ)設(shè)施和資源消耗。為了應(yīng)對(duì)這些挑戰(zhàn)并開發(fā)平衡性能、效率和環(huán)境責(zé)任的計(jì)算基礎(chǔ)設(shè)施,持續(xù)的研究和行業(yè)合作將是必要的。
硬件采購(gòu)成本、功耗、冷卻要求和
性能指標(biāo)比較
盡管 WSE-3 和 H100 等較新的系統(tǒng)已經(jīng)問世,但 WSE-2 和 A100 仍然是衡量晶圓級(jí) AI 處理器和基于 GPU 的加速器的廣泛使用的基準(zhǔn),為架構(gòu)權(quán)衡提供了寶貴的見解。WSE-2 是一種晶圓級(jí) AI 處理器,每套系統(tǒng)成本在 200 萬至 300 萬美元之間,而 A100 作為一種基于 GPU 的加速器,則顯著更經(jīng)濟(jì),根據(jù)配置不同,價(jià)格范圍在 8,000 至 20,000 美元之間。功耗是它們的主要區(qū)別之一:WSE-2 每單元消耗約 15 kW,需要先進(jìn)的液體冷卻,而 A100 每塊 GPU 功耗約 400 W,通常采用空氣冷卻。
在性能方面,WSE-2 針對(duì)超過 120 萬億參數(shù)的模型進(jìn)行了優(yōu)化,消除了互連開銷,而 A100 提供了比前幾代產(chǎn)品 20 倍的性能提升,并支持多實(shí)例 GPU (MIG),實(shí)現(xiàn)靈活的工作負(fù)載管理。在可擴(kuò)展性方面,WSE-2 專為超大規(guī)模 AI 工作負(fù)載設(shè)計(jì),但缺乏模塊化擴(kuò)展能力,而 A100 在多 GPU 集群(如 DGX SuperPOD)和云服務(wù)中具有高度可擴(kuò)展性。
制造挑戰(zhàn)也不同,WSE-2 的晶圓級(jí)設(shè)計(jì)存在缺陷容忍問題,需要冗余核心和缺陷路由,而 A100 遵循傳統(tǒng)的基于芯片的方法,確保更高的良率和更易于更換。最終,WSE-2 在大規(guī)模深度學(xué)習(xí)應(yīng)用中表現(xiàn)出色,而 A100 仍然是可擴(kuò)展 AI 和 HPC 工作負(fù)載更實(shí)用和更廣泛采用的選擇。表 10 總結(jié)了 Cerebras WSE-2、Cerebras WSE-3、NVIDIA A100 和 NVIDIA H100 之間的主要區(qū)別,重點(diǎn)介紹了成本、功耗、冷卻要求、可擴(kuò)展性和缺陷容忍度方面的差異。
硬件采購(gòu)成本
獲取AI硬件的成本受到架構(gòu)設(shè)計(jì)和預(yù)期應(yīng)用場(chǎng)景等因素的影響。高性能的AI加速器,如Cerebras WSE-2和NVIDIA A100 GPU,由于其獨(dú)特的設(shè)計(jì)和能力,具有不同的成本結(jié)構(gòu)。據(jù)報(bào)道,Cerebras WSE-2,這款晶圓級(jí)AI加速器,單個(gè)系統(tǒng)的價(jià)格在200萬美元到300萬美元之間。這個(gè)價(jià)格反映了其單片架構(gòu),該架構(gòu)將整個(gè)硅片集成到一個(gè)AI處理器中,消除了芯片間通信瓶頸,并優(yōu)化了大規(guī)模深度學(xué)習(xí)工作負(fù)載。相比之下,廣泛用于AI和高性能計(jì)算(HPC)的NVIDIA A100 GPU有多種配置。40GB PCIe型號(hào)的價(jià)格約為8,000美元至10,000美元,而80GB SXM版本的價(jià)格在18,000美元至20,000美元之間。雖然WSE-2為極大規(guī)模AI模型提供了無與倫比的計(jì)算密度,但A100在需要可擴(kuò)展、多GPU解決方案的機(jī)構(gòu)中更具成本效益,這些方案可以部署在大型數(shù)據(jù)中心和云服務(wù)中。
AI芯片市場(chǎng)正在快速增長(zhǎng),科技巨頭和初創(chuàng)公司都在進(jìn)行大量投資。這個(gè)競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境正在推動(dòng)創(chuàng)新,并可能隨著新型、更高效設(shè)計(jì)的開發(fā)而降低成本。AI硬件的能源消耗和環(huán)境影響也是關(guān)鍵因素。例如,基于ARM的單板計(jì)算機(jī)提供了比傳統(tǒng)x86和GPU架構(gòu)更綠色且可能更具成本效益的替代方案,用于訓(xùn)練機(jī)器學(xué)習(xí)算法。AI模型的訓(xùn)練成本正在增加,其中AI加速器芯片是最大的開支之一。這一趨勢(shì)表明,只有資金充裕的組織才有可能負(fù)擔(dān)得起未來最先進(jìn)的AI硬件。AI硬件的獲取成本主要由架構(gòu)設(shè)計(jì)、市場(chǎng)競(jìng)爭(zhēng)和能源因素驅(qū)動(dòng)。雖然像Cerebras WSE-2這樣的高性能系統(tǒng)由于其先進(jìn)的架構(gòu)而昂貴,但基于芯片單元的系統(tǒng)和基于ARM的計(jì)算機(jī)等替代設(shè)計(jì)提供了更具成本效益的解決方案。AI能力需求的增長(zhǎng)繼續(xù)塑造市場(chǎng),影響著AI硬件的開發(fā)和定價(jià)。
冷卻要求和基礎(chǔ)設(shè)施考慮
由于其高功率密度,Cerebras WSE-2需要先進(jìn)的液冷系統(tǒng)來高效地散熱。晶圓級(jí)架構(gòu)由于其密集的核心集成,產(chǎn)生了顯著的熱負(fù)載,迫使數(shù)據(jù)中心必須配備專門的冷卻基礎(chǔ)設(shè)施。相比之下,NVIDIA A100主要采用空氣冷卻,盡管一些數(shù)據(jù)中心配置也采用液冷以優(yōu)化性能并減少熱限制。冷卻成本的影響因部署環(huán)境而異,WSE-2需要專門的冷卻系統(tǒng),而A100可以部署在現(xiàn)有的空氣冷卻GPU集群中。因此,在選擇這些架構(gòu)時(shí),必須考慮包括冷卻和能源支出在內(nèi)的基礎(chǔ)設(shè)施總成本。這些進(jìn)展表明,先進(jìn)的冷卻系統(tǒng),特別是液冷,對(duì)于管理現(xiàn)代數(shù)據(jù)中心中的高功率密度和熱負(fù)載至關(guān)重要,重點(diǎn)在于優(yōu)化能源效率和性能。
性能指標(biāo)和可擴(kuò)展性
Cerebras WSE-2和NVIDIA A100都是先進(jìn)的AI加速器,旨在增強(qiáng)深度學(xué)習(xí)和AI工作負(fù)載的性能和可擴(kuò)展性。Cerebras WSE-2專注于消除多GPU互連開銷,而NVIDIA A100提供顯著的性能提升,并支持多實(shí)例GPU分區(qū)。WSE-2通過使用晶圓大小的芯片架構(gòu),設(shè)計(jì)用于處理極大規(guī)模的機(jī)器學(xué)習(xí)模型。它提供了獨(dú)特的功能,如精細(xì)粒度的數(shù)據(jù)流計(jì)算核心和專為機(jī)器學(xué)習(xí)訓(xùn)練設(shè)計(jì)的互連系統(tǒng),這使其能夠在單一芯片上運(yùn)行大型模型而無需進(jìn)行分區(qū)。WSE-2的處理器通過解耦內(nèi)存和計(jì)算來實(shí)現(xiàn)高吞吐量和高效擴(kuò)展。
A100 GPU提供比其前身高出20倍的性能,具有第三代張量核心、異步數(shù)據(jù)移動(dòng)和改進(jìn)的內(nèi)存架構(gòu)等增強(qiáng)功能。它在AI工作負(fù)載中實(shí)現(xiàn)了高性能,特別是通過其優(yōu)化的張量核心,適用于混合精度算術(shù)運(yùn)算。在可擴(kuò)展性方面,WSE-2的架構(gòu)通過使用數(shù)據(jù)并行性實(shí)現(xiàn)無縫擴(kuò)展,避免了GPU集群常見的復(fù)雜性和差的擴(kuò)展性能。這是通過其獨(dú)特設(shè)計(jì)實(shí)現(xiàn)的,能夠高效地將計(jì)算和內(nèi)存需求集成到單個(gè)芯片上。A100支持MIG分區(qū),允許將單個(gè)GPU劃分為多個(gè)虛擬GPU,從而提高其在多樣化工作負(fù)載下的可擴(kuò)展性。然而,它的性能擴(kuò)展可能比較復(fù)雜,需要精心管理像異步數(shù)據(jù)移動(dòng)這樣的新架構(gòu)特性。Cerebras WSE-2和NVIDIA A100都在AI和深度學(xué)習(xí)任務(wù)的性能和可擴(kuò)展性方面取得了顯著進(jìn)展。WSE-2憑借其獨(dú)特的晶圓級(jí)架構(gòu),在處理大型模型方面表現(xiàn)出色,而A100則通過其多實(shí)例功能提供了顯著的性能提升和靈活性。它們各有優(yōu)勢(shì),WSE-2專注于消除互連開銷,而A100則通過創(chuàng)新的GPU功能提升性能。
缺陷容忍和制造產(chǎn)量考慮
晶圓級(jí)集成在缺陷容忍和制造產(chǎn)量方面提出了獨(dú)特的挑戰(zhàn),這直接影響整體生產(chǎn)成本。Cerebras WSE-2作為一款單片晶圓級(jí)處理器,由于其大型硅片尺寸,面臨更高的制造缺陷風(fēng)險(xiǎn)。晶圓內(nèi)的缺陷晶體管可能會(huì)降低整體芯片產(chǎn)量,需要內(nèi)置冗余機(jī)制來繞過故障區(qū)域。與此相反,NVIDIA A100采用傳統(tǒng)的單芯片設(shè)計(jì),其中有缺陷的單元可以被丟棄或替換,從而提高生產(chǎn)產(chǎn)量并降低每個(gè)單位的制造風(fēng)險(xiǎn)。因此,NVIDIA的模塊化方法提高了可擴(kuò)展性和可用性,而Cerebras的晶圓級(jí)技術(shù)則優(yōu)先考慮在增加制造復(fù)雜度的情況下實(shí)現(xiàn)峰值性能。在設(shè)計(jì)中加入冗余并在制造后重新配置電路是提高缺陷容忍度的常用策略。這些方法可以利用晶圓中的無故障部分,提高產(chǎn)量,而無需進(jìn)行昂貴的重構(gòu)。利用軟件控制的開關(guān)連接晶圓中無故障的部分提供了低成本的連接和運(yùn)行時(shí)故障容忍度,從而通過動(dòng)態(tài)適應(yīng)缺陷來提高產(chǎn)量。準(zhǔn)確的產(chǎn)量預(yù)測(cè)模型,如廣義泊松分布和負(fù)二項(xiàng)分布,對(duì)于模擬過度分散的缺陷模式和改善產(chǎn)量估算至關(guān)重要。
在半導(dǎo)體制造中,準(zhǔn)確預(yù)測(cè)產(chǎn)量和可靠性需要綜合模型,這些模型需要考慮缺陷聚集及其在晶圓探針和燒錄測(cè)試中的影響。這些模型的關(guān)鍵是深入理解缺陷的空間分布,包括聚集模式和徑向變化,這對(duì)于精確的產(chǎn)量預(yù)測(cè)和有效的工藝改進(jìn)至關(guān)重要。此外,穩(wěn)定制造過程以最小化缺陷密度變化對(duì)維持高產(chǎn)量和降低生產(chǎn)成本至關(guān)重要。這些結(jié)合了缺陷建模和過程控制的方法,對(duì)于優(yōu)化半導(dǎo)體制造至關(guān)重要。
晶圓級(jí)集成需要強(qiáng)大的缺陷容忍和產(chǎn)量增強(qiáng)策略,以應(yīng)對(duì)制造和缺陷分布的復(fù)雜性。冗余、重新配置和先進(jìn)的統(tǒng)計(jì)建模等技術(shù)對(duì)于提高產(chǎn)量和確保成本效益生產(chǎn)至關(guān)重要。準(zhǔn)確的產(chǎn)量預(yù)測(cè)和過程穩(wěn)定性是應(yīng)對(duì)缺陷變異性挑戰(zhàn)的關(guān)鍵。
AI硬件的新興趨勢(shì)
3D集成
3D集成通過將內(nèi)存直接堆疊在計(jì)算單元上,增強(qiáng)了處理速度并減少了延遲,改善了帶寬利用率,并最小化了數(shù)據(jù)移動(dòng)。這項(xiàng)技術(shù)對(duì)于像圖形處理、個(gè)性化推薦系統(tǒng)和圖卷積網(wǎng)絡(luò)(GCNs)這樣的內(nèi)存和計(jì)算密集型應(yīng)用特別有益。3D集成也被視為提高能源效率的突破。通過減少數(shù)據(jù)必須傳輸?shù)木嚯x,降低了功耗,使其成為對(duì)能源效率至關(guān)重要的移動(dòng)設(shè)備和服務(wù)器系統(tǒng)的一個(gè)有吸引力的選擇。3D堆疊的計(jì)算內(nèi)存(CIM)架構(gòu)對(duì)于GCNs特別有效,因?yàn)镚CNs既計(jì)算密集又內(nèi)存密集。通過將輕量級(jí)計(jì)算單元集成到內(nèi)存存儲(chǔ)區(qū)附近,像GCIM這樣的架構(gòu)可以顯著減少處理延遲和數(shù)據(jù)傳輸開銷。對(duì)于基于深度學(xué)習(xí)的個(gè)性化推薦系統(tǒng),使用3D堆疊DRAM的近內(nèi)存處理(NMP)可以緩解內(nèi)存帶寬瓶頸。像RecPIM這樣的架構(gòu)利用3D堆疊內(nèi)存的高存儲(chǔ)器級(jí)帶寬,實(shí)現(xiàn)了顯著的加速和能源節(jié)省。
3D堆疊DRAM架構(gòu)非常適合以內(nèi)存為中心計(jì)算系統(tǒng),在內(nèi)存密集型應(yīng)用中,其性能優(yōu)于傳統(tǒng)CPU和GPU。這些系統(tǒng)通過最大化數(shù)據(jù)帶寬利用率,可以實(shí)現(xiàn)高并行計(jì)算性能。3D集成的主要挑戰(zhàn)之一是處理不規(guī)則內(nèi)存訪問,這可能導(dǎo)致數(shù)據(jù)移動(dòng)效率低下。像GCNim這樣的解決方案通過采用混合計(jì)算模型和高效數(shù)據(jù)放置算法來平衡工作負(fù)載,從而解決這一問題。雖然通過硅通孔(TSVs)提供了高帶寬,但其擴(kuò)展性較差,這限制了其效能。需要?jiǎng)?chuàng)新架構(gòu)來克服這些限制,充分發(fā)揮3D堆疊內(nèi)存的潛力。隨著內(nèi)存技術(shù)的擴(kuò)展,可靠性和安全性問題(如RowHammer現(xiàn)象)變得更加突出。解決這些挑戰(zhàn)需要新的解決方案和架構(gòu),以確保數(shù)據(jù)完整性和系統(tǒng)穩(wěn)定性。
總之,3D集成技術(shù)為在堆疊架構(gòu)中結(jié)合計(jì)算和內(nèi)存提供了一條有前景的路徑,可實(shí)現(xiàn)更快的處理速度和更低的延遲。然而,必須解決不規(guī)則內(nèi)存訪問和TSV帶寬限制等挑戰(zhàn),以充分發(fā)揮這項(xiàng)技術(shù)的潛力。
光子芯片
將光子芯片集成到AI加速器中是一種有前景的方法,可增強(qiáng)數(shù)據(jù)傳輸能力,與傳統(tǒng)電子系統(tǒng)相比,提供更高的帶寬和能效。該技術(shù)利用光線的獨(dú)特屬性,克服了電子數(shù)據(jù)傳輸?shù)南拗?,特別是在AI日益增長(zhǎng)的計(jì)算需求背景下。光子芯片在帶寬和延遲方面具有顯著優(yōu)勢(shì)。使用光線實(shí)現(xiàn)高速數(shù)據(jù)傳輸,這對(duì)于需要快速處理大型數(shù)據(jù)集的AI應(yīng)用至關(guān)重要。光子集成電路(PICs)通過波分復(fù)用(WDM)等技術(shù)實(shí)現(xiàn)高帶寬和低延遲,允許多個(gè)數(shù)據(jù)流通過單根光纖同時(shí)傳輸。
光子芯片的關(guān)鍵優(yōu)勢(shì)之一是其能效。光學(xué)數(shù)據(jù)鏈接的能耗遠(yuǎn)低于電子鏈接,某些系統(tǒng)可實(shí)現(xiàn)低至120 fJ/位的通信能耗。這種效率通過光子和電子組件的密集集成實(shí)現(xiàn),減少了數(shù)據(jù)傳輸所需的能量。光子加速器還利用非易失性存儲(chǔ)器和被動(dòng)組件,進(jìn)一步降低操作期間的功耗。
光子芯片通常與現(xiàn)有電子系統(tǒng)集成以提升性能。這種混合方法結(jié)合了兩者的優(yōu)勢(shì),利用光子技術(shù)進(jìn)行數(shù)據(jù)傳輸,電子技術(shù)進(jìn)行邏輯控制和數(shù)據(jù)存儲(chǔ)。硅光子技術(shù)與互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)工藝的兼容性促進(jìn)了這種集成,實(shí)現(xiàn)了可擴(kuò)展的制造。
為了最大限度地發(fā)揮光子芯片的潛力,創(chuàng)新架構(gòu)正在開發(fā)中,例如時(shí)分復(fù)用動(dòng)態(tài)光子張量核和光子神經(jīng)網(wǎng)絡(luò)加速器。這些架構(gòu)采用定制的光子器件和先進(jìn)的復(fù)用技術(shù),以實(shí)現(xiàn)高計(jì)算效率和并行性,這對(duì)于處理復(fù)雜的AI任務(wù)至關(guān)重要。
盡管光子芯片具有諸多優(yōu)勢(shì),但仍面臨挑戰(zhàn),例如光子器件尺寸較大和需要專用光學(xué)元件。解決這些問題需要電光材料和封裝策略方面的進(jìn)步,以提高光子系統(tǒng)的性能和集成度。
高熵合金(High-entropy alloys)
高熵合金(HEAs)是一類由多種主要元素以近乎等摩爾分?jǐn)?shù)組成的新型材料。這些合金因其獨(dú)特的性能而備受關(guān)注,適用于多種應(yīng)用,包括改善散熱和增強(qiáng)AI工作負(fù)載的芯片可靠性。HEAs具有優(yōu)異的熱穩(wěn)定性和高強(qiáng)度,使其成為高溫應(yīng)用的理想選擇。與鎳基超合金不同,HEAs在高溫下仍能保持強(qiáng)度,使其成為替代傳統(tǒng)材料的強(qiáng)有力候選者。
HEAs提供卓越的耐腐蝕和抗氧化性能,這對(duì)于在惡劣環(huán)境下的可靠性至關(guān)重要。其獨(dú)特的微觀結(jié)構(gòu)和相組成增強(qiáng)了這種韌性。例如,CoCrFeMnNi HEA在室溫下的屈服強(qiáng)度約為600 MPa,即使在低溫(77 K)下仍保持高延展性(約50%)。AlCoCrFeNi HEA的維氏硬度約為700 HV,遠(yuǎn)高于傳統(tǒng)不銹鋼(約200 HV)。某些HEAs(如AlCrFeNiTi)在1000°C時(shí)形成保護(hù)性氧化層,與傳統(tǒng)超合金相比具有更強(qiáng)的抗氧化性。CoCrFeNiTi等HEAs的磨損率約為2 × 10 mm/Nm,遠(yuǎn)低于常規(guī)鋼材。一些HEAs在高輻射環(huán)境中比傳統(tǒng)鋼材的空隙膨脹率低5–10倍。
HEAs以其高強(qiáng)度、硬度和優(yōu)異的機(jī)械性能而聞名,即使在低溫下也是如此。這包括卓越的延展性和斷裂韌性,這些對(duì)于要求苛刻的應(yīng)用中材料的耐久性和壽命至關(guān)重要。HEAs的高熱穩(wěn)定性和導(dǎo)熱性增強(qiáng)了電子元件的散熱能力,確保AI工作負(fù)載的持續(xù)性能和可靠性。由于其機(jī)械魯棒性和對(duì)環(huán)境劣化的抵抗力,HEAs提高了AI應(yīng)用中芯片的可靠性,降低了故障率并延長(zhǎng)了使用壽命。
總之,高熵合金(HEAs)為開發(fā)滿足現(xiàn)代AI工作負(fù)載苛刻要求的材料提供了一條有前景的途徑。其獨(dú)特的性能,結(jié)合克服制造和設(shè)計(jì)挑戰(zhàn)的持續(xù)研究,使HEAs成為未來高性能計(jì)算(HPC)和電子領(lǐng)域的關(guān)鍵材料。
計(jì)算存儲(chǔ)一體化(CIM)
內(nèi)存計(jì)算和計(jì)算存儲(chǔ)一體化(CIM)是新興的計(jì)算范式,旨在克服傳統(tǒng)馮·諾伊曼架構(gòu)的限制,特別是內(nèi)存墻問題。這些方法將計(jì)算集成到內(nèi)存單元中,顯著提高能效和吞吐量,特別適用于深度學(xué)習(xí)等數(shù)據(jù)密集型應(yīng)用。這種方法通過直接在內(nèi)存單元內(nèi)執(zhí)行計(jì)算,減少了在獨(dú)立處理單元和內(nèi)存單元之間傳輸數(shù)據(jù)的需要。它利用內(nèi)存設(shè)備的物理屬性(如電阻切換)來原地執(zhí)行計(jì)算任務(wù)。CIM正在探索多種內(nèi)存技術(shù),包括SRAM、RRAM和新興的二維(2D)材料。這些技術(shù)在速度、能效和可擴(kuò)展性方面具有不同的優(yōu)勢(shì)。CIM對(duì)深度學(xué)習(xí)工作負(fù)載尤其有益,可以顯著提高乘加運(yùn)算的速度和能效,這是神經(jīng)網(wǎng)絡(luò)處理的核心組成部分。通過將計(jì)算集成到內(nèi)存中,CIM可以更高效地處理大規(guī)模數(shù)據(jù)中心應(yīng)用,降低數(shù)據(jù)移動(dòng)相關(guān)的時(shí)間和能耗成本。CIM的主要挑戰(zhàn)之一是平衡能效與計(jì)算精度。內(nèi)存中的模擬計(jì)算可能受到變異和非理想因素的影響,從而影響精度。隨著CIM技術(shù)的進(jìn)步,向更小技術(shù)節(jié)點(diǎn)的擴(kuò)展帶來了機(jī)遇和挑戰(zhàn)。特別是基于SRAM的數(shù)字CIM因其在先進(jìn)節(jié)點(diǎn)上有效擴(kuò)展的潛力而受到關(guān)注。未來的研究重點(diǎn)是開發(fā)能夠充分利用CIM潛力的架構(gòu),包括流水線模式和稀疏感知技術(shù),以提升性能和效率。
總之,CIM技術(shù)為克服傳統(tǒng)計(jì)算架構(gòu)的限制提供了一個(gè)有前景的方向,特別適用于需要高數(shù)據(jù)吞吐量和能效的應(yīng)用。然而,精度、可擴(kuò)展性和集成方面的挑戰(zhàn)仍是活躍的研究和開發(fā)領(lǐng)域。
新興硬件趨勢(shì)比較
在AI硬件的3D集成、光子芯片和高熵合金(HEAs)中,光子芯片可能是最昂貴的,原因有以下幾點(diǎn)。首先,其制造成本高,需要專門的半導(dǎo)體代工廠和精密的納米制造技術(shù)。此外,其材料和設(shè)計(jì)的復(fù)雜性增加了成本,因?yàn)樗鼈円蕾囉诠韫庾印⒘谆熀外壦徜嚨忍厥獠牧?。此外,光子芯片的大?guī)模生產(chǎn)受限,因?yàn)樗鼈內(nèi)蕴幱谠缙诓捎秒A段,缺乏大規(guī)模制造效率。最后,其專門的封裝和集成增加了成本,因?yàn)樗鼈冃枰c電子組件共同封裝,增加了復(fù)雜性和總體費(fèi)用。
在AI硬件的效率方面,光子芯片在AI工作負(fù)載中能效最高,因?yàn)樗鼈兪褂霉庑盘?hào)而非電信號(hào),顯著降低了功耗和散熱。它們?cè)诔鞌?shù)據(jù)傳輸和并行處理方面表現(xiàn)出色,非常適合高速計(jì)算。3D集成通過最小化內(nèi)存和計(jì)算單元之間的數(shù)據(jù)移動(dòng)瓶頸來提高效率,從而降低延遲并改善每瓦性能。同時(shí),HEAs通過增強(qiáng)熱學(xué)和機(jī)械效率提高了硬件的耐用性和抗磨損能力,盡管它們對(duì)計(jì)算效率的直接提升有限。總體而言,光子芯片在功耗效率和速度方面表現(xiàn)最佳,特別適用于處理大規(guī)模計(jì)算的AI加速器。
先進(jìn)半導(dǎo)體制造:
工藝節(jié)點(diǎn)縮放與現(xiàn)代范式
工藝節(jié)點(diǎn)縮放的演變
半導(dǎo)體縮放的歷史軌跡,通常由摩爾定律概括,傳統(tǒng)上強(qiáng)調(diào)每個(gè)后續(xù)工藝節(jié)點(diǎn)在晶體管速度、能效和每晶體管成本方面的提升。然而,隨著行業(yè)發(fā)展到16納米節(jié)點(diǎn)之后,縮放的動(dòng)機(jī)和成果發(fā)生了變化。早期的節(jié)點(diǎn),如7納米和5納米,在晶體管密度、動(dòng)態(tài)功耗降低和每瓦性能提升方面帶來了顯著收益,但這些優(yōu)勢(shì)在3納米和2納米節(jié)點(diǎn)上變得不那么明顯。當(dāng)代縮放努力優(yōu)先考慮晶體管密度和異構(gòu)集成,而不是單純提升開關(guān)速度或電源效率。
在這些先進(jìn)節(jié)點(diǎn)上,僅靠尺寸縮小已無法保證性能和功耗的縮放。漏電流增加、工藝變異性和互連寄生效應(yīng)等因素削弱了較小幾何尺寸的傳統(tǒng)優(yōu)勢(shì)。相反,現(xiàn)代半導(dǎo)體進(jìn)步依賴于架構(gòu)創(chuàng)新和系統(tǒng)級(jí)優(yōu)化。環(huán)繞柵極(GAA)和互補(bǔ)場(chǎng)效應(yīng)晶體管(CFET)架構(gòu)已成為密度縮放和改善靜電控制的關(guān)鍵推動(dòng)因素,特別是在低于5納米的尺寸下。此外,設(shè)計(jì)-技術(shù)協(xié)同優(yōu)化(DTCO)、多芯片封裝以及新型材料和晶體管結(jié)構(gòu)的引入在維持進(jìn)步中扮演著日益關(guān)鍵的角色。
例如,雖然3納米工藝相比7納米工藝可實(shí)現(xiàn)高達(dá)70%的晶體管密度提升,但性能和功耗收益在很大程度上取決于工作負(fù)載特性和架構(gòu)設(shè)計(jì)。為解決漏電和變異性等挑戰(zhàn),高級(jí)技術(shù)——包括三閾值CMOS、自適應(yīng)體偏置和工藝變異感知設(shè)計(jì)——已成為不可或缺的手段。此外,2D材料、陡坡晶體管和單片3D集成等探索性方法正在研究中,以緩解功耗、熱量和變異性約束,同時(shí)延長(zhǎng)縮放的可行性。
晶體管架構(gòu):從FinFET到GAA和CFET
從鰭式場(chǎng)效應(yīng)晶體管(FinFET)到環(huán)繞柵極(GAA)架構(gòu)的轉(zhuǎn)變代表了晶體管設(shè)計(jì)的重大演變,解決了5納米以下節(jié)點(diǎn)短溝道效應(yīng)和漏電流的限制。GAA晶體管以堆疊納米片F(xiàn)ET為代表,通過柵極環(huán)繞溝道增強(qiáng)靜電控制,從而改善驅(qū)動(dòng)電流、短溝道行為和相比FinFET的可擴(kuò)展性。這些特性使GAA成為先進(jìn)節(jié)點(diǎn)(如三星的3納米工藝)的基石。
在GAA基礎(chǔ)上,互補(bǔ)場(chǎng)效應(yīng)晶體管(CFET)架構(gòu)引入了n型和p型GAA晶體管的垂直堆疊配置,有效在相同占地面積內(nèi)將晶體管密度翻倍。這一創(chuàng)新為超越橫向縮放限制、延續(xù)摩爾定律提供了途徑。然而,GAA和CFET技術(shù)的采用并非沒有挑戰(zhàn)。制造復(fù)雜性,包括線邊緣粗糙度、功函數(shù)變異性和熱預(yù)算限制,對(duì)良率和成本可擴(kuò)展性構(gòu)成了重大障礙。針對(duì)高遷移率材料(如鍺和二維半導(dǎo)體)的研究旨在克服這些制造和性能壁壘。
先進(jìn)封裝:臺(tái)積電的CoWoS平臺(tái)
與晶體管級(jí)進(jìn)步并行,封裝技術(shù)在推動(dòng)系統(tǒng)級(jí)性能方面變得至關(guān)重要。臺(tái)積電的CoWoS平臺(tái)通過硅中介層實(shí)現(xiàn)計(jì)算和內(nèi)存芯片的高密度集成,體現(xiàn)了這一趨勢(shì)。CoWoS支持高帶寬內(nèi)存(HBM)集成、大型芯片聚合以及高效的熱管理和電源管理,使其成為AI和高性能計(jì)算(HPC)應(yīng)用的關(guān)鍵。
CoWoS-S和CoWoS-L等變體增強(qiáng)了電源傳輸和信號(hào)完整性,而微冷卻解決方案和深槽電容器等補(bǔ)充創(chuàng)新則在高熱負(fù)荷下提升了性能可靠性。這些發(fā)展凸顯了行業(yè)向異構(gòu)集成和3D系統(tǒng)架構(gòu)的更廣泛轉(zhuǎn)變,這些架構(gòu)日益取代傳統(tǒng)縮放來驅(qū)動(dòng)性能提升。
半導(dǎo)體行業(yè)已進(jìn)入一個(gè)新時(shí)代,工藝節(jié)點(diǎn)縮放超越了簡(jiǎn)單的尺寸縮小,擁抱架構(gòu)創(chuàng)新、系統(tǒng)級(jí)集成和先進(jìn)封裝以維持進(jìn)步。雖然GAA和CFET架構(gòu)推動(dòng)了晶體管密度和控制的邊界,但CoWoS等封裝解決方案重新定義了性能范式。然而,變異性、成本和熱管理方面的挑戰(zhàn)需要材料、設(shè)計(jì)方法和制造工藝的持續(xù)創(chuàng)新,以充分發(fā)揮這些進(jìn)步的潛力。
結(jié)論
未來十年,人工智能硬件的演變將經(jīng)歷重大變革,受到對(duì)計(jì)算能力、效率和可擴(kuò)展性日益增長(zhǎng)的需求的推動(dòng)。對(duì)晶圓級(jí)系統(tǒng)(WSEs)與基于GPU架構(gòu)的比較分析表明,盡管WSEs在能效和吞吐量方面展現(xiàn)了顯著進(jìn)步,但由于其靈活性和對(duì)現(xiàn)有AI工作負(fù)載的優(yōu)化,GPU集群在AI模型訓(xùn)練中仍占據(jù)主導(dǎo)地位。例如,Cerebras WSE-3和特斯拉Dojo訓(xùn)練瓦片在訓(xùn)練大規(guī)模AI模型方面表現(xiàn)出色。Cerebras WSE-3采用臺(tái)積電5納米工藝,擁有90萬個(gè)AI核心和44GB片上SRAM,互連帶寬高達(dá)21 PB/s。這種高帶寬和低延遲顯著減少了數(shù)據(jù)移動(dòng),提升了性能,尤其對(duì)萬億參數(shù)模型有利,使訓(xùn)練百億參數(shù)模型在一天內(nèi)成為可能。
另一方面,以NVIDIA H100為代表的GPU集群在MLPerf基準(zhǔn)測(cè)試中繼續(xù)占據(jù)主導(dǎo)地位,性能比其前代A100提高了6.7倍。然而,在超大規(guī)模模型訓(xùn)練中,GPU架構(gòu)可能受限于芯片間通信開銷。在能效方面,WSE-3在不增加功耗的情況下將訓(xùn)練速度翻倍,展示了其在規(guī)模擴(kuò)展應(yīng)用中的巨大潛力。盡管如此,基于GPU的集群也在持續(xù)優(yōu)化架構(gòu)以提高效率。兩種架構(gòu)都面臨高功耗、冷卻需求以及制造過程碳足跡的挑戰(zhàn)。
本研究對(duì)現(xiàn)有的晶圓級(jí)AI加速器和傳統(tǒng)單芯片GPU進(jìn)行了全面比較分析。分析表明,隨著AI模型擴(kuò)展到萬億參數(shù),傳統(tǒng)GPU架構(gòu)在可擴(kuò)展性、能效和通信帶寬方面的限制變得日益明顯。相比之下,Cerebras WSE-3和特斯拉Dojo等晶圓級(jí)系統(tǒng)采用單片設(shè)計(jì),在單一晶圓上集成數(shù)十億晶體管和數(shù)十萬核心。這種架構(gòu)大幅降低了芯片間通信延遲并提升了吞吐量,從而無需復(fù)雜模型分區(qū)即可高效訓(xùn)練超大規(guī)模AI模型。
隨著領(lǐng)域的發(fā)展,未來的進(jìn)步可能集中在3D集成、光學(xué)互連和更高效的電源管理技術(shù)上,進(jìn)一步縮小WSE與GPU之間的性能差距。這些技術(shù)在半導(dǎo)體創(chuàng)新和AI工作負(fù)載優(yōu)化的驅(qū)動(dòng)下,將塑造下一代計(jì)算,在萬億參數(shù)AI模型時(shí)代平衡可擴(kuò)展性、效率和可持續(xù)性。
NVIDIA首席執(zhí)行官黃仁勛一再?gòu)?qiáng)調(diào),摩爾定律已不足以滿足AI工作負(fù)載的指數(shù)增長(zhǎng)。相反,計(jì)算的未來將依賴于加速計(jì)算、特定領(lǐng)域架構(gòu)以及超越傳統(tǒng)晶體管縮放的創(chuàng)新。他的愿景與向晶圓級(jí)計(jì)算、基于小芯片的架構(gòu)和異構(gòu)計(jì)算模型的轉(zhuǎn)變相一致。在未來5-10年,AI硬件預(yù)計(jì)將經(jīng)歷變革性進(jìn)步,受到更高計(jì)算效率(圖5)、能源優(yōu)化和可擴(kuò)展性需求的推動(dòng)。
圖5. AI硬件的預(yù)測(cè)性能和關(guān)鍵指標(biāo)增益。(A) 2025年至2030年晶圓級(jí)系統(tǒng)(WSEs)、傳統(tǒng)GPU和新興AI硬件技術(shù)的預(yù)測(cè)性能和效率趨勢(shì)。預(yù)計(jì)晶圓級(jí)系統(tǒng)保持性能領(lǐng)先,而新興技術(shù)由于快速創(chuàng)新將在后期逐漸縮小差距。(B) 2025年和2030年WSE、GPU和新興技術(shù)在三個(gè)關(guān)鍵指標(biāo)——FLOPS、功耗降低和可擴(kuò)展性——的比較分析。數(shù)據(jù)顯示顯著的預(yù)測(cè)改進(jìn),特別是WSE在可擴(kuò)展性方面和新興技術(shù)在效率方面的提升,凸顯了AI硬件平臺(tái)不同的優(yōu)勢(shì)和未來發(fā)展方向。
術(shù)語(yǔ)解釋
性能:指系統(tǒng)的計(jì)算能力,通常以每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)衡量,量化系統(tǒng)在給定時(shí)間內(nèi)可以執(zhí)行的計(jì)算量。
功耗:指系統(tǒng)運(yùn)行所消耗的電能,通常以瓦特(W)或千瓦(kW)為單位。
可擴(kuò)展性:指系統(tǒng)通過增強(qiáng)單個(gè)單元(垂直擴(kuò)展)或添加更多單元(水平擴(kuò)展)來增加計(jì)算能力,以滿足不斷增長(zhǎng)的工作負(fù)載需求,如更大規(guī)模的AI模型或更廣泛的應(yīng)用。
新興技術(shù):包括3D集成、光子芯片和高熵合金(HEAs)。
晶圓級(jí)計(jì)算是最有前景的方向之一,以Cerebras WSE-3和特斯拉Dojo為代表,在單一晶圓上集成數(shù)千核心,并擴(kuò)展到整個(gè)系統(tǒng)中的數(shù)百萬核心。這種方法消除了互連瓶頸,大幅降低延遲,特別適合訓(xùn)練萬億參數(shù)AI模型。到2030年,3D集成、近內(nèi)存計(jì)算和光學(xué)嵌入的進(jìn)一步進(jìn)步可能將晶圓級(jí)架構(gòu)推向更高效率,每晶圓可能超過數(shù)艾F(xiàn)LOPS的計(jì)算能力(圖5A)。
與此同時(shí),GPU將通過模塊化、基于小芯片的設(shè)計(jì)繼續(xù)演變。NVIDIA、AMD和Intel已在開發(fā)下一代GPU,利用HBM4內(nèi)存、AI專用張量核心和稀疏感知計(jì)算提升訓(xùn)練效率(表11)。到2030年,多GPU集群可能整合類似晶圓級(jí)的架構(gòu),縮小分布式GPU系統(tǒng)與單片WSE之間的性能差距。此外,通過低于2納米工藝節(jié)點(diǎn)、動(dòng)態(tài)電壓縮放和液體浸沒冷卻等能效改進(jìn),GPU功耗可能降低30%-40%,推動(dòng)其在邊緣AI和實(shí)時(shí)推理應(yīng)用中的更廣泛部署。
超越硅,新型半導(dǎo)體材料,如HEAs、碳納米管晶體管和光子計(jì)算,可能重塑AI硬件格局。光子芯片通過光速計(jì)算顯著降低功耗并提升吞吐量,可集成到AI加速器中。近內(nèi)存計(jì)算的進(jìn)一步發(fā)展對(duì)數(shù)據(jù)密集型應(yīng)用(如深度學(xué)習(xí))尤為有效(表11)。量子輔助AI計(jì)算,結(jié)合量子-經(jīng)典混合處理器處理特定優(yōu)化和加密任務(wù),可能在本世紀(jì)末開始出現(xiàn)。
從系統(tǒng)級(jí)視角看,未來十年將更加注重能效和可持續(xù)性(圖5B)。AI訓(xùn)練已消耗大量能源,需要綠色計(jì)算舉措,如使用可再生能源驅(qū)動(dòng)的AI硬件、碳感知調(diào)度和自適應(yīng)冷卻策略。公司需在計(jì)算能力與環(huán)境影響之間取得平衡,塑造下一代高性能計(jì)算基礎(chǔ)設(shè)施。
總之,AI硬件格局將沿著多條軌跡繼續(xù)演變——晶圓級(jí)集成、基于小芯片的GPU、新型材料和量子-經(jīng)典混合架構(gòu)。隨著AI工作負(fù)載規(guī)模和復(fù)雜性的擴(kuò)展,這些技術(shù)的融合將定義AI計(jì)算的未來,推動(dòng)性能、效率和可持續(xù)性的邊界。
感謝本文作者:
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。