文 | 融中財經(jīng)
一個登頂,一個起跳,4.2 萬億美元與 60 億美元的落差,為 AI 芯片戰(zhàn)局埋下新變量。
一邊是英偉達(dá)市值沖破 4.2 萬億美元,成為歷史上首家達(dá)到這一規(guī)模的科技公司——這個數(shù)字超過了英國所有上市公司的市值總和,堪稱商業(yè)史上 " 大象級 " 的存在。
7 月 15 日,英偉達(dá) CEO 黃仁勛年內(nèi)第三次訪華,宣布美國批準(zhǔn)恢復(fù)向中國出口定制的 H20 芯片,重啟占其總營收 13%(約 170 億美元)的中國市場,彰顯其鞏固 AI 時代統(tǒng)治地位的雄心。
另一邊,2016 年成立的加州初創(chuàng)公司 Groq 正洽談新一輪融資:以 60 億美元(約 430 億人民幣)的投后估值募集 3-5 億美元的資金,用于履行與沙特阿拉伯的重磅合同。
當(dāng)黃仁勛在東方意氣風(fēng)發(fā)之際,Groq 創(chuàng)始人喬納森 · 羅斯正盯著沙特的數(shù)據(jù)中心屏幕——那里由 1.9 萬顆自研芯片組成的 AI 推理集群,從 2024 年 12 月搭建到投入運行僅用了 8 天,成為中東加速 AI 基建的核心引擎。
60 億對 4.2 萬億,Groq 以不足英偉達(dá) 0.2% 的體量,展開了一場 " 不對稱 " 的芯片競賽。
這家公司被視為英偉達(dá)最強(qiáng)的競爭對手之一。它以 LPU 芯片的 SRAM 架構(gòu)和 TSP 流式計算專攻推理,靠 80TB/s 片上帶寬和靜態(tài)調(diào)度砍掉延遲,瞄準(zhǔn)英偉達(dá) H100 的推理短板;英偉達(dá)則憑 CUDA 生態(tài)和 HBM 顯存壟斷,一邊用 H200 強(qiáng)化推理能效,一邊通過供應(yīng)鏈控制(如買斷 HBM 產(chǎn)能)壓制對手。
前者借沙特布局和開源模型突圍,后者靠開發(fā)者綁定和全棧優(yōu)勢死守,在推理市場上演 " 精準(zhǔn)狙擊 " 與 " 生態(tài)護(hù)城河 " 的攻防戰(zhàn)。
創(chuàng)企中的 " 金湯玩家 "
這家 2016 年誕生于硅谷的公司,從誕生就自帶 " 明星基因 "。
創(chuàng)始人喬納森 · 羅斯(Jonathan Ross)的履歷本身就是塊金字招牌——他是谷歌第一代張量處理單元(TPU)的核心研發(fā)成員,親歷了 AI 芯片從實驗室走向產(chǎn)業(yè)化的關(guān)鍵階段。公司的另一位創(chuàng)始人是谷歌 Alphabet 的 X 實驗室工程師道格拉斯 · 懷特曼(Douglas Wightman)。同樣值得關(guān)注的是 Groq 的硬件工程副總裁吉姆 · 米勒(Jim Miller),這位行業(yè)老兵既主導(dǎo)過亞馬遜 AWS 云計算硬件的開發(fā)與交付,也曾在英特爾領(lǐng)銜 Pentium II 處理器項目,橫跨消費電子與企業(yè)級硬件兩大領(lǐng)域。
羅斯和米勒的履歷吸引了前谷歌 TPU 團(tuán)隊 80% 的核心成員加入 Groq,這種人才聚集效應(yīng)在 2024 年 Groq 的沙特投資后進(jìn)一步放大—— Groq 與 Meta 合作,為其官方 Llama API 提供推理加速服務(wù);Meta 首席 AI 科學(xué)家 Yann LeCun 以技術(shù)顧問身份支持 Groq; 英特爾前晶圓廠負(fù)責(zé)人 Stuart Pann 則出任 Groq 首席運營官(COO)。
頂級團(tuán)隊自然吸引頂級資本。
2024 年 8 月,黑石集團(tuán)(BlackRock)領(lǐng)投了 Groq 6.4 億美元的 D 輪融資,思科、三星 Catalyst 基金等機(jī)構(gòu)跟投,讓 Groq 的估值一舉沖到 28 億美元。短短一年后,其估值即將翻倍至 60 億美元,成為 AI 芯片賽道成長最快的獨角獸之一。
此次 Groq 募資 3-5 億美元,除了履行和沙特的合同,幫助其 AI 推理數(shù)據(jù)中心項目快速落地外,還包括構(gòu)建北美本土供應(yīng)鏈、擴(kuò)張 GroqCloud 開發(fā)者生態(tài),以及應(yīng)對英偉達(dá) H200 芯片量產(chǎn)帶來的競爭壓力。盡管沙特協(xié)議帶來長期收入預(yù)期,但里程碑式付款條款導(dǎo)致 2025 年上半年需補(bǔ)充流動資金以應(yīng)對產(chǎn)能爬坡前的資金缺口。
Groq 的融資帶著明確的戰(zhàn)略意圖。
2024 年底,Groq 以閃電般的速度開啟在沙特的戰(zhàn)略布局。早在 2024 年 9 月,Groq 便與沙特阿美的數(shù)字與技術(shù)子公司 Aramco Digital 簽署諒解備忘錄,計劃在沙特達(dá)曼建設(shè)全球最大規(guī)模的 AI 推理數(shù)據(jù)中心。
作為落地的第一步,Groq 于 2024 年 12 月在達(dá)曼快速部署了包含 1.9 萬個 LPU(語言處理單元)的推理集群,僅用 8 天時間即完成上線,每日可處理數(shù)十億 Tokens(詞元),展現(xiàn)出驚人的執(zhí)行效率。
為適配沙特的高溫環(huán)境,Groq 對硬件設(shè)計進(jìn)行了針對性優(yōu)化,同時啟動阿拉伯語 NLP 模型的本地化開發(fā),以滿足中東市場的特定需求。
該項目被納入沙特 "2030 愿景 ",沙特阿美為此提供了上億美元的資金支持,目標(biāo)在 2025 年將處理能力提升至每日數(shù)千億 Tokens,并最終部署 10.8 萬個 LPU 芯片,形成全球最大的 AI 推理基礎(chǔ)設(shè)施之一。這一布局依托沙特的地緣優(yōu)勢、低廉的能源成本和充足的建設(shè)空間。Groq 的快速行動為其后續(xù)獲得沙特 15 億美元投資承諾奠定了基礎(chǔ)。
2025 年 2 月,沙特主權(quán)基金通過沙特阿美旗下 Aramco Digital 向其拋出 15 億美元投資承諾,條件是協(xié)助沙特建設(shè)本土 AI 基礎(chǔ)設(shè)施。這筆錢不僅讓 Groq 的現(xiàn)金流底氣十足,更讓其業(yè)績預(yù)期飆升:2025 年營收有望實現(xiàn)跨越式增長,達(dá)到 5 億美元,使 Groq 邁入 " 億級營收俱樂部 "。
不碰 " 訓(xùn)練 " 主戰(zhàn)場,專啃 " 推理 " 硬骨頭
Groq 從沒想過與英偉達(dá)在 AI 訓(xùn)練芯片市場正面交鋒。
當(dāng)英偉達(dá)的 GPU 憑借 CUDA 生態(tài)在訓(xùn)練領(lǐng)域占據(jù)超 80% 市場份額時,它選了條差異化路線:專注于 AI 推理芯片。
這步棋精準(zhǔn)踩中了行業(yè)痛點。AI 計算的 " 訓(xùn)練 " 與 " 推理 " 環(huán)節(jié)有著本質(zhì)區(qū)別:訓(xùn)練像 " 教學(xué)生 ",需要海量數(shù)據(jù)反復(fù)調(diào)整模型參數(shù),對算力的通用性和精度要求極高;推理則像 " 學(xué)生答題 ",需要在毫秒級時間內(nèi)給出結(jié)果,更強(qiáng)調(diào)低延遲、高并發(fā)和低成本。
英偉達(dá)的 GPU 本是為圖形渲染設(shè)計的,改造后用于 AI 訓(xùn)練合適,但拿來做推理卻有些 " 大材小用 " ——其硬件資源中,有相當(dāng)一部分是為支持訓(xùn)練時的復(fù)雜梯度計算而設(shè)計,在推理階段反而成了冗余負(fù)擔(dān)。
Groq 的核心產(chǎn)品 LPU(Language Processing Unit)就是沖著推理場景的痛點來的。它不追求 " 全能型 " 算力,而是聚焦 " 推理專項優(yōu)化 ":讓 Meta 的 Llama、谷歌的 Gemma 等已訓(xùn)練完成的大模型,在執(zhí)行文本生成、語義理解等任務(wù)時跑得更快、更省電。
根據(jù) Groq 官方在 2024 年底發(fā)布的基準(zhǔn)測試結(jié)果,搭載 LPU 芯片的 Llama 模型,在大模型推理任務(wù)中每秒能生成 500 個 Tokens(文本詞元),對比英偉達(dá) H100(FP16)的 150 個 Tokens 每秒的速度快了約 3 倍,對比英偉達(dá) H200 的 200 Tokens 每秒的速度,也快了兩倍多。
在商業(yè)模式上,Groq 也與英偉達(dá)走出了完全不同的路徑。
英偉達(dá)靠 " 硬件銷售 + 軟件生態(tài) " 的組合拳盈利——既賣 GPU 芯片和 DGX 服務(wù)器等硬件,又通過 CUDA 平臺綁定開發(fā)者;
Groq 則另辟蹊徑,采用 " 芯片即服務(wù) " 模式:自己建設(shè)數(shù)據(jù)中心,將 LPU 芯片組成服務(wù)器集群,向客戶提供云端推理算力租用服務(wù)。這種模式讓客戶無需直接采購硬件,直接通過 API 調(diào)用就能體驗其芯片性能,大大降低了嘗試門檻。
今年 7 月,Groq 宣布在歐洲芬蘭建設(shè)新的數(shù)據(jù)中心,進(jìn)一步擴(kuò)大云端服務(wù)版圖,顯然是想通過 " 服務(wù)先行 " 策略快速占領(lǐng)市場。
Groq 的技術(shù)手冊里藏著不少 " 反套路 " 設(shè)計。
當(dāng)行業(yè)巨頭們比拼 4nm、5nm、7nm 先進(jìn)制程時,它反其道而行之,選擇相對成熟的 14nm 工藝;當(dāng)英偉達(dá)的 H100 GPU 依賴 HBM 高帶寬顯存提升性能時,Groq 在 LPU 芯片里塞進(jìn)了 230MB SRAM 高速緩存,靠架構(gòu)創(chuàng)新彌補(bǔ)制程差距。
這步險棋意外走通了。大帶寬 SRAM 讓 LPU 的片上內(nèi)存帶寬達(dá)到 80TB/s,數(shù)據(jù)可以在芯片內(nèi)部高速流轉(zhuǎn),不必頻繁訪問板載顯存,直接將推理延遲砍掉一半以上。
更關(guān)鍵的是,這種設(shè)計讓 Groq 避開了 HBM 顯存的供應(yīng)鏈瓶頸——英偉達(dá)的 H100 之所以常年缺貨,很大程度上受制于 HBM 顯存的產(chǎn)能,而 SRAM 的供應(yīng)相對穩(wěn)定,讓 LPU 的量產(chǎn)更有保障。
架構(gòu)層面的差異更具顛覆性。
英偉達(dá) GPU 采用 "SIMD" 架構(gòu),擅長同時處理大量相似任務(wù),但需要動態(tài)調(diào)度線程,存在一定算力閑置;Groq 的 TSP(Tensor Streaming Processor)架構(gòu)則采用 " 流式計算 " 模式,將推理任務(wù)拆解成固定流水線,通過靜態(tài)調(diào)度讓每個時鐘周期的算力都得到充分利用。這種設(shè)計讓單顆 LPU 芯片的算力達(dá)到 1000 萬億次運算每秒(1000 TOPS),在部分機(jī)器學(xué)習(xí)模型上,速度比常規(guī) GPU 甚至谷歌 TPU 快 10 到 100 倍。
Groq 的技術(shù)路線雖在推理場景展現(xiàn)優(yōu)勢,但也存在顯著短板。
LPU 芯片內(nèi)置 230MB SRAM 雖能實現(xiàn)高帶寬,但單芯片內(nèi)存遠(yuǎn)低于英偉達(dá) H100 的 80GB HBM 顯存,導(dǎo)致運行大模型時需大規(guī)模集群拆分。
正如原阿里技術(shù)副總裁賈揚清的推算,運行 Llama-70b 模型理論上需 572 顆 LPU(單芯片 2 萬美元,總成本超 1100 萬美元),而 8 顆 H100(總成本約 30 萬美元)即可實現(xiàn)相當(dāng)性能,硬件成本差距達(dá) 30 倍以上。盡管實際部署中可通過模型分片優(yōu)化,但大規(guī)模集群的運維復(fù)雜度和能耗(576 顆 LPU 集群功耗約 100kW,8 卡 H100 約 30kW)仍顯著高于 GPU 方案。
更關(guān)鍵的是專用架構(gòu)的場景局限性:專用硬件的靜態(tài)調(diào)度優(yōu)勢在算法迭代頻繁時反而成為劣勢,難以像 GPU 通過軟件更新快速適配新模型。
生態(tài)破局與市場裂縫
技術(shù)再強(qiáng),沒有生態(tài)支撐也難成氣候。英偉達(dá)的 CUDA 平臺已積累超 400 萬開發(fā)者,形成 " 硬件 - 軟件 - 開發(fā)者 " 的穩(wěn)固三角,這是任何挑戰(zhàn)者都繞不開的高墻。Groq 的破局策略是 " 借船出海 ":盡可能對接現(xiàn)有開源生態(tài),降低開發(fā)者的遷移成本。
它首先瞄準(zhǔn)了開源大模型社群。Groq 團(tuán)隊花了大量精力優(yōu)化 Meta 的 Llama 系列、谷歌的 Gemma 等熱門開源模型在 LPU 芯片上的運行效率,這些模型本身已積累數(shù)百萬開發(fā)者,只要證明 LPU 能讓模型跑得更快,自然能吸引開發(fā)者嘗試。更關(guān)鍵的是,Groq 在 2025 年推出了開發(fā)者控制臺,通過友好的編程接口和免費算力(每月 1000 萬 Tokens 的額度)試用政策,目前吸引了 7.5 萬名開發(fā)者注冊。
價格策略同樣服務(wù)于生態(tài)擴(kuò)張。LPU 芯片 2 萬美元出頭的定價,不僅比英偉達(dá) H100 的 2.5-3 萬美元低,也比部分中端 GPU 更具吸引力。Groq CEO 喬納森 · 羅斯曾表示,到 2025 年底,Groq 計劃部署 150 萬顆推理芯片,占據(jù)全球一半的 AI 推理計算能力。這番話雖有營銷成分,卻精準(zhǔn)點出了行業(yè)趨勢—— AI 算力投入的重心正從模型訓(xùn)練階段向推理階段傾斜。
英偉達(dá)當(dāng)然不會坐視 "Groq 們 " 蠶食市場。
面對推理芯片的崛起,它已迅速調(diào)整策略:推出基于安培架構(gòu)的 A30/A10 等推理專用 GPU,優(yōu)化 TensorRT 軟件庫的推理延遲,并通過 Triton 推理服務(wù)器提供端到端加速方案,試圖將訓(xùn)練領(lǐng)域的優(yōu)勢延伸到推理市場。
更難撼動的是 CUDA 生態(tài)的 " 慣性 "。開發(fā)者在 CUDA 平臺上積累了大量代碼和工具鏈,遷移到新平臺需要重新學(xué)習(xí)和調(diào)試,這種 " 路徑依賴 " 讓很多企業(yè)寧愿忍受 GPU 的高成本,也不愿冒險嘗試新方案。
有行業(yè)人士透露,部分企業(yè)在與 Groq 接觸時異常謹(jǐn)慎,生怕消息走漏后被英偉達(dá) " 穿小鞋 " ——比如延遲交付 GPU,這種隱形壓力客觀上抬高了新芯片的推廣門檻。
然而,市場永遠(yuǎn)存在裂縫。
2024 年以來的 "GPU 荒 " 讓客戶苦不堪言:云計算廠商為了搶購英偉達(dá)芯片,不得不提前幾個月下單,否則就可能排不上產(chǎn)能。這種供需失衡讓企業(yè)開始主動尋找 " 第二供應(yīng)商 ",降低對單一廠商的依賴,這為 Groq 創(chuàng)造了窗口期。
更重要的是,AI 芯片市場并非 " 二元對立 "。除了英偉達(dá)和 Groq,英國的 Graphcore、中國的寒武紀(jì)、美國的 Cerebras 等玩家都在各自的技術(shù)路線上發(fā)力,形成 " 一超多強(qiáng) " 的競爭格局。
Groq 的優(yōu)勢在于,它抓住了沙特等新興市場的需求——中東國家正雄心勃勃地建設(shè) AI 基礎(chǔ)設(shè)施,既有錢又有場景,還樂于扶持非美國主流的技術(shù)供應(yīng)商以實現(xiàn)技術(shù)自主,這種地緣需求為 Groq 提供了理想的 " 試驗田 "。
然而,面對新興市場的爭奪,初創(chuàng)公司如 Groq 需加速布局——因為巨頭們也沒有停下腳步。繼去年 12 月 Groq 在沙特布局后,今年 5 月,英偉達(dá)與 AMD 也發(fā)現(xiàn)了這一新興市場,相繼宣布在沙特建設(shè)芯片制造及 AI 基礎(chǔ)設(shè)施基地,直接切入中東 AI 算力核心市場,這無疑給后來者增添了競爭壓力。
全球 AI 芯片的競合態(tài)勢,在中國市場呈現(xiàn)出更復(fù)雜的張力。
近期,英偉達(dá)宣布 H20 芯片將重新在中國市場銷售,雖 H20 受限于算力閾值(較 H100 略有下調(diào)),但憑借成熟的 CUDA 生態(tài)和高性能,短期內(nèi)仍會分流部分對高端算力有迫切需求的企業(yè)(如大模型訓(xùn)練機(jī)構(gòu)、云端服務(wù)商),給華為昇騰、寒武紀(jì)、壁仞科技等國內(nèi)芯片企業(yè)帶來直接競爭壓力——尤其在需要兼容國際主流框架的場景中,國產(chǎn)芯片的生態(tài)適配成本仍需時間抹平。
這種壓力也在迫使中國 AI 芯片市場加速 " 場景化突圍 "。
不同于國際市場聚焦通用算力,中國市場的核心機(jī)會藏在垂直場景的深度綁定中:在智慧城市領(lǐng)域,海光芯片支撐的邊緣計算節(jié)點,能高效處理交通攝像頭的實時視頻流(每秒解析 30 路 4K 畫面),適配國內(nèi)復(fù)雜的路況算法;自動駕駛賽道,地平線系列芯片已搭載于比亞迪、長城、理想等車企的多款車型,在輔助駕駛系統(tǒng)中負(fù)責(zé)視覺感知任務(wù)。
中國 AI 芯片市場的突圍路徑,正通過垂直場景的深度綁定逐步清晰——避開通用算力的正面競爭,在本土特色場景中打磨技術(shù)與生態(tài)。
結(jié)語
這場 60 億對 4.2 萬億的較量,才剛剛開始。
它的結(jié)局大概不是 " 你死我活 " 的零和游戲,而是形成 " 多元共生 " 的生態(tài)平衡:英偉達(dá)繼續(xù)主導(dǎo)高端 AI 訓(xùn)練市場,Groq 等新銳在推理細(xì)分賽道分得一杯羹。
這一格局恰似行業(yè)演進(jìn)的常態(tài):正如智能手機(jī)時代,蘋果、三星錨定高端市場,小米、傳音則在中低端與新興市場開辟空間,彼此并非替代而是互補(bǔ);又如 AI 領(lǐng)域,通用大模型與垂直場景的 AI Agent 各司其職——前者支撐基礎(chǔ)能力,后者深耕具體需求。
對整個行業(yè)來說,這種競爭是好事。Groq 的出現(xiàn)至少能迫使英偉達(dá)優(yōu)化推理芯片的成本和性能,讓更多企業(yè)用得起 AI 算力。畢竟,AI 應(yīng)用的場景豐富——從智能客服到自動駕駛,從醫(yī)療診斷到工業(yè)質(zhì)檢,不同場景對算力的需求千差萬別,既需要英偉達(dá)這樣的 " 全能選手 ",也需要 Groq 這樣的 " 專精玩家 "。
" 某種程度上,我們的存在對英偉達(dá)反而是一種利好,"Groq CEO 羅斯說。" 他們可以繼續(xù)生產(chǎn)那些高利潤訓(xùn)練用的 GPU,而我們則接手他們不太想做、低利潤但高產(chǎn)量的推理業(yè)務(wù)。"
當(dāng)年沒人能想到,一家顯卡公司能成為 AI 時代的 " 賣鏟人 ";同理,今天估值 60 億美元的 Groq,十年后或許會在 AI 芯片版圖中占據(jù)重要一席。
羅斯直言:" 你的工作不是跟隨浪潮,而是要提前站位,準(zhǔn)備好迎接它。"
無論 Groq 最終能否撼動英偉達(dá),它所代表的創(chuàng)新精神和差異化打法都為行業(yè)帶來了新的思考:在巨頭林立的 AI 時代,小團(tuán)隊依然有機(jī)會憑借卓越的洞察和執(zhí)行,實現(xiàn)對大象的 " 螞蟻撼樹 " ——或許不能將之推倒,卻足以令大象為之側(cè)目,不得不改變方向。
這正是技術(shù)進(jìn)步最迷人的地方,也是市場競爭的價值所在。