
AI 需求暴增,數(shù)據(jù)中心建設(shè)面臨挑戰(zhàn)
算力需求的激增已經(jīng)不僅僅是停留在預(yù)測層面,根據(jù)國家數(shù)據(jù)局披露的信息顯示,2024 年初中國日均 Token 消耗量為 1000 億,到 2024 年底已增長至 3000 億量級。而這個數(shù)字到了今年 6 月則是達到驚人的 30 萬億的量級,與 2024 年初的 1000 億相比,增長 300 多倍。
此外,IDC 報告顯示,2024 年全年中國公有云大模型調(diào)用量為 114 萬億 Tokens,而 2025 年上半年即飆升至 536.7 萬億,反映出 AI 應(yīng)用進入規(guī)?;l(fā)階段。
而 AI 應(yīng)用的爆發(fā),自然也帶動智能算力需求的激增,在這背后,是對底層算力基礎(chǔ)設(shè)施帶來的考驗,而 AI 也正以 " 算力吞噬者 " 的姿態(tài)重構(gòu)數(shù)字基礎(chǔ)設(shè)施格局,全球 20 億活躍 AI 用戶產(chǎn)生的海量數(shù)據(jù)處理需求,使得 AIDC 從 " 輔助設(shè)施 " 升級為 " 核心生產(chǎn)力 "。
在 AI 時代,傳統(tǒng)的數(shù)據(jù)中心建設(shè)顯然已經(jīng)不能滿足當(dāng)前智算對于底層設(shè)施的需求,華為發(fā)布的《智能世界 2035》和《全球數(shù)智化指數(shù) 2025》報告中明確,計算領(lǐng)域?qū)⑼黄苽鹘y(tǒng)馮諾依曼架構(gòu)的束縛,在計算架構(gòu)、材料器件、工程工藝、計算范式四大核心層面實現(xiàn)顛覆性創(chuàng)新,最終催生新型計算的全面興起。
在華為中國數(shù)字能源數(shù)據(jù)中心能源拓展部部長石憶看來,算力增長的同時,也對基礎(chǔ)設(shè)施造成了極大的沖擊," 當(dāng)前,智算中心建設(shè)主要面臨安全、彈性、高功率、高能耗等挑戰(zhàn)。除此之外,作為長期運營的重資產(chǎn)項目,數(shù)據(jù)中心建設(shè)還需要適度超前。"
安全方面,AI 大模型訓(xùn)練對算力連續(xù)性的要求較傳統(tǒng)通算提升兩個量級:10MW 智算中心的算力密度相當(dāng)于 100 個傳統(tǒng)通算中心,一旦發(fā)生供電中斷,每秒鐘將造成數(shù)十萬元的算力損失。對此,石憶表示," 傳統(tǒng)數(shù)據(jù)中心故障響應(yīng)時間要求 2 分鐘以內(nèi),但智算中心需壓縮至 30 秒,且故障影響半徑擴大 3 倍,任何單點故障都可能引發(fā)集群癱瘓。"
安全事件在帶來數(shù)據(jù)、服務(wù)器等直接損失之外,更可能導(dǎo)致數(shù)月模型訓(xùn)練成果付諸東流。同時,安全事件的發(fā)生還會對 IDC 服務(wù)商的品牌價值,以及客戶對其信任度帶來不小的沖擊。
更嚴峻的是,傳統(tǒng)集中式架構(gòu)存在單點故障風(fēng)險,而 AI 計算的連續(xù)性要求,使得這種風(fēng)險被放大 10 倍以上。AIDC 的安全已不是 " 概率問題 ",而是 " 底線問題 ",任何一次故障都可能終結(jié)企業(yè)的 AI 競爭資格。
除了安全問題之外,隨著 ChatGPT 的問世,人們開始發(fā)現(xiàn)機柜的功率越來越高,原本 300W 的單顆 CPU,已經(jīng)不足以支撐業(yè)務(wù),500W 的單顆 CPU 芯片成為主流。與此同時,AI 對于 GPU 的需求,也讓單機柜的功率進一步提升。2.5kW 標準機柜已經(jīng)是過去式,8kW、10kW,甚至 20、50kW 的機柜的不斷出現(xiàn),也讓單機柜功率越來越高。與此同時,隨著摩爾定律逐漸失效,在后摩爾定律時代下,芯片算力與其功耗仍將大幅提升。機柜功率的不斷攀升,也對數(shù)據(jù)中心的供配電系統(tǒng)提出了新的挑戰(zhàn)。
這個挑戰(zhàn)一方面是來自供配電穩(wěn)定性和連續(xù)性的保障;另一方面,更容易被人們所忽視的是:傳統(tǒng)數(shù)據(jù)中心 " 白空間 "(服務(wù)器區(qū))與 " 黑空間 "(配電區(qū))的比例大致為 2:1,而在 AIDC 時代,這個比例將被徹底逆轉(zhuǎn),部分高密 AIDC 甚至出現(xiàn) 1:3 的極端情況,這意味著 3/4 的場地被配電、散熱設(shè)備占據(jù)。而對于 IDC 客戶而言," 白空間 " 是用來創(chuàng)造價值的," 黑空間 " 則屬于純成本支出,獲得更多的 " 白空間 " 才能獲得更大的收益。
與此同時,在 AI 時代,用戶對于數(shù)據(jù)中心交付周期的要求也越來越高。而作為算力的底層支撐,數(shù)據(jù)中心的建設(shè)周期之長,是業(yè)內(nèi)的共識。
而 AI 等 IT 技術(shù)的演進日新月異,數(shù)據(jù)中心機柜密度也隨之飛速提升," 傳統(tǒng)建設(shè)方式,規(guī)劃階段規(guī)劃的單柜功率普遍在 5-10kW/ 標準柜,而目前單臺支持大模型的 AI 服務(wù)器功耗就已達 10kW 以上,數(shù)據(jù)中心的規(guī)劃建設(shè)速度難以滿足各行業(yè)對算力持續(xù)高速增長的迫切需求。" 此外,還有一個尖銳的矛盾擺在面前:服務(wù)器的更新周期是 3 到 5 年,而數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計壽命是 10 至 15 年。對此,石憶告訴筆者,傳統(tǒng)數(shù)據(jù)中心 18 到 24 個月的建設(shè)周期,與算力 " 一年一迭代 " 的速度形成致命錯配。客戶交付周期要求從‘年’,壓縮至‘月’,甚至出現(xiàn)‘ 6 個月必須上線’的硬性指標,這種情況對數(shù)據(jù)中心的建設(shè)速度提出了更高的要求。
而在這些挑戰(zhàn)的背后,還有一個不容忽視的問題—— AI 時代帶來的傳統(tǒng)異步計算向同步計算的轉(zhuǎn)型。這個過程使得供電、制冷、網(wǎng)絡(luò)的協(xié)同要求達到 " 微秒級 ",而現(xiàn)有基礎(chǔ)設(shè)施的 " 煙囪式 " 架構(gòu)根本無法實現(xiàn)這種協(xié)同。更嚴峻的是,技術(shù)迭代帶來的標準混亂問題——不同廠商的 GPU、液冷設(shè)備接口不統(tǒng)一,導(dǎo)致 AIDC 建設(shè)陷入 " 定制化陷阱 ",進一步拉長周期、推高成本。
安全是 AIDC 的首要條件
面對挑戰(zhàn),華為數(shù)字能源在 2025 全聯(lián)接大會上提出的 RAS 理念(Reliable 安全可靠、Agile 彈性敏捷、Sustainable 綠色低碳),而華為也正是沿著這三條路徑向前推進 AIDC 建設(shè)的。
而 RAS 理念中,最為重要的就是 "R" ——安全。AIDC 的安全底線不僅關(guān)乎設(shè)備存續(xù),更決定算力服務(wù)的連續(xù)性。" 安全是 1,沒有安全,一切都是 0。"
IDC 的安全可靠不僅是某個環(huán)節(jié)的安全可靠,更是要構(gòu)建涵蓋數(shù)據(jù)中心全生命周期的防護體系。不同于傳統(tǒng)數(shù)據(jù)中心的單點防護思維,華為構(gòu)建了覆蓋產(chǎn)品、架構(gòu)、管理、運維的四層防護體系,實現(xiàn)從器件到系統(tǒng)的全生命周期可靠。
數(shù)據(jù)中心安全體系化,首先要做的就是將原有的集中式的架構(gòu)轉(zhuǎn)變?yōu)榉植际郊軜?gòu)。摒棄集中式設(shè)計,確保單一故障點不會引發(fā)系統(tǒng)性崩潰。例如,制冷系統(tǒng)需要實現(xiàn)風(fēng)冷或液冷單元相互隔離,按需部署,一臺故障時其他單元能迅速補上冷量。
其次是主動安全,特別是在高風(fēng)險環(huán)節(jié)如鋰電池儲能上。智算時代,通過鋰電池取代原有占地面積大、生命周期短的鉛酸電池,已經(jīng)成為數(shù)據(jù)中心降低后續(xù)運營成本,提升數(shù)據(jù)中心 " 白空間 " 面積的重要舉措之一。
作為國內(nèi)較早探索鋰電池應(yīng)用的企業(yè)之一,華為在數(shù)據(jù)中心鋰電池安全方面提出了 " 既要快速響應(yīng),也要預(yù)知風(fēng)險 " 的策略。石憶告訴筆者,鋰電池出現(xiàn)安全風(fēng)險之時實現(xiàn)快速處置,避免損失僅僅是基礎(chǔ)操作,更為重要的是,在故障發(fā)生前就能精準定位并更換有風(fēng)險的電池,如此才能將風(fēng)險降到最低。目前,華為對鋰電池告警的覆蓋率達到了 92%,報警的準確率是 97%,而且這個告警最高可以提前七天。
彈性需求如何滿足?
" 行百里者半九十 ",當(dāng)安全基礎(chǔ) " 打牢 " 之后,如何滿足用戶在智算時代的需求,成為服務(wù)商能否獲得更多份額的關(guān)鍵。" 智算時代唯一不變的就是變化,彈性是應(yīng)對變化的唯一選擇 " ——這句話已經(jīng)成為行業(yè)內(nèi)公認的事實,也指出了當(dāng)前很多數(shù)據(jù)中心 " 建成即過時 " 的痛點。
面對此,華為給出了 " 解耦化、模塊化、預(yù)制化、高密融合 " 的 " 四化 " 解決方案。通過此,讓 AIDC 建設(shè)速度與 IT 技術(shù)迭代實現(xiàn)同頻共振,相較于傳統(tǒng)方案,將數(shù)據(jù)中心的交付周期縮短 60% 以上。
這個過程中,最為重要的一步是——實現(xiàn)子系統(tǒng)的解耦。傳統(tǒng)數(shù)據(jù)中心,基礎(chǔ)設(shè)施層與服務(wù)器的供配電、供冷系統(tǒng)是緊耦合的狀態(tài),一旦一方發(fā)生變化,無異于將數(shù)據(jù)中心 " 推倒重建 "。即便在通算時代,一代服務(wù)器的 " 壽命 " 平均在 5 年左右,而數(shù)據(jù)中心基礎(chǔ)設(shè)施層的 " 壽命 " 則應(yīng)在 10~15 年左右。這也就意味著,一個數(shù)據(jù)中心需要兼容三代服務(wù)器的更迭。
而當(dāng)時間來到智算時代,服務(wù)器更迭速度只會比通算時代快,緊耦合的狀態(tài),對于需求敏捷的客戶來說,一點也不敏捷。所以,在石憶看來,數(shù)據(jù)中心實現(xiàn)彈性的第一步就是實現(xiàn)解耦。" 華為將 AIDC 拆分為 IT、供配電、制冷三大獨立子系統(tǒng),實現(xiàn)串行施工向并行施工的轉(zhuǎn)變。" 石憶介紹道。
在華為云(蕪湖)數(shù)據(jù)中心項目中,基礎(chǔ)設(shè)施與服務(wù)器的解耦設(shè)計,使得機電安裝僅用 71 天完成,較傳統(tǒng)方案節(jié)省 50% 時間,整體項目耗時 3 個月。不僅于此,石憶表示,這種設(shè)計還支持 " 按需擴容 "," 客戶可先部署基礎(chǔ)框架,待確定服務(wù)器功率后再上配電單元。" 石憶進一步指出。
當(dāng)系統(tǒng)都實現(xiàn)解耦之后,就可以進一步通過模塊化的方式,在工廠預(yù)生產(chǎn)后,進行現(xiàn)場組裝即可完成數(shù)據(jù)中心建設(shè)。
互聯(lián)網(wǎng) " 快 " 的特點也在新一輪人工智能的浪潮下得以延續(xù),用戶對于數(shù)據(jù)中心交付周期的要求也越來越高。模塊化似乎已經(jīng)逐漸成為近年來數(shù)據(jù)中心建設(shè)的主流方式,石憶告訴筆者,模塊化不是終點,還要將模塊預(yù)制化,減少現(xiàn)場施工工程量,將現(xiàn)場的設(shè)備安裝、集成、調(diào)試提前到工廠來完成,實現(xiàn)工程產(chǎn)品化。其最大的價值就是用工廠的標準化、高質(zhì)量生產(chǎn)和測試,確保了高效率以及高質(zhì)量,把現(xiàn)場的工程變得最小化,極大減少現(xiàn)場安裝,助力 AIDC 快速高質(zhì)量建設(shè)。
通過模塊化方式,還能實現(xiàn)硬件設(shè)備的即插即用——通過預(yù)留通用接口的方式,讓后續(xù)無論是制冷系統(tǒng),還是服務(wù)器的更換都可以 " 傻瓜式 " 即插即用,進一步提升了部署速度。
不僅于此,模塊化的方式,還能大幅降低數(shù)據(jù)中心在建設(shè)過程中的碳排放,實現(xiàn)全生命周期內(nèi)的降碳,這點也正好呼應(yīng)了 RAS 理念中——綠色低碳。
綠色低碳從 " 責(zé)任 " 變成 " 生存需求 "
在 " 雙碳 " 目標與能源危機的雙重驅(qū)動下,綠色低碳已從社會責(zé)任升級為 AIDC 的生存需求。傳統(tǒng)模式下,IDC 服務(wù)商與客戶都存在 " 降低能耗總量 " 的誤區(qū)。然而,隨著機柜功率不斷攀升,降低總能耗已經(jīng)是一條 " 不可行之路 ",面對此,華為提出了 " 提升系統(tǒng)效率 " 的核心思路,通過高效供電、高效制冷、系統(tǒng)高效、算電協(xié)同等四大路徑,實現(xiàn)全鏈路降碳。
高效供電方面,通過技術(shù)創(chuàng)新降低損耗。例如,華為 UPS 在 S-ECO 模式下效率高達 99.1%。
高效制冷方面,隨著智算時代液冷的普及,制冷能耗得到進一步降低,但風(fēng)冷系統(tǒng)仍將繼續(xù)存在,風(fēng)冷和液冷系統(tǒng)走向融合化,冷源統(tǒng)一化,通過 AI 手段對制冷系統(tǒng)做系統(tǒng)級能效調(diào)優(yōu),進一步降低制冷能耗,提升制冷效率。
系統(tǒng)協(xié)同方面,通過系統(tǒng)協(xié)同,實現(xiàn)能源與算力的智能匹配。" 打通 L1 能源基礎(chǔ)設(shè)施與 L2 算力基礎(chǔ)設(shè)施的信息流,通過 AI 算法根據(jù)負載波動調(diào)節(jié)設(shè)備狀態(tài),讓每瓦電力都能承載更多算力。" 石憶強調(diào)。
算電協(xié)同方面,綠電直供,就近消納是目前數(shù)據(jù)中心綠色低碳化的不可或缺的一步,而從國家規(guī)劃的八個算力樞紐節(jié)點布局上就不難看出國家在綠電直供,就近消納的布局。八個節(jié)點除了北上廣這樣的一線算力需求高度集中的城市之外,其余節(jié)點幾乎都處于盛產(chǎn)綠電的地方。
在面對行業(yè)存在 " 安全與低碳不可兼得 " 的誤區(qū)——認為冗余設(shè)計會增加能耗,節(jié)能措施會犧牲安全,石憶表示,高安全與高能效可以協(xié)同實現(xiàn),關(guān)鍵在于系統(tǒng)級的優(yōu)化設(shè)計。
整體來看,數(shù)據(jù)中心正在向超高功率、超高密度和超大規(guī)模發(fā)展,智算中心的建設(shè)不僅是應(yīng)對當(dāng)前挑戰(zhàn)的務(wù)實選擇,更是贏得未來 AI 競爭的戰(zhàn)略布局。同時數(shù)據(jù)中心的設(shè)計思路也在變化,從 " 大系統(tǒng) " 向 " 標準化 + 模塊化分布式架構(gòu) " 演變,更彈性應(yīng)對未來需求的不確定性,此外還要從軟硬件層面考慮網(wǎng)絡(luò)安全、供應(yīng)安全和備電安全等問題。
可以說,AI 算力的洪流既帶來了 " 最好的時代 " 的機遇,也引發(fā)了 " 最焦慮的時代 " 的挑戰(zhàn)。在這場 AIDC 變革中,唯有以全棧專業(yè)能力與經(jīng)驗沉淀為底色,才能實現(xiàn)智能進化、再造卓越,而華為正在這條路上挺進。(文|Leo 張 ToB 雜談,作者|張申宇,編輯丨蓋虹達)