編譯 | 陳駿達(dá)
編輯 | 云鵬
智東西 8 月 11 日?qǐng)?bào)道,近日,智譜發(fā)布了其最新一代旗艦?zāi)P?GLM-4.5 的完整技術(shù)報(bào)告。GLM-4.5 融合了推理、編程和智能體能力,并在上述場景的 12 項(xiàng)基準(zhǔn)測試中,綜合性能取得了發(fā)布之際的全球開源模型 SOTA(即排名第一)、國產(chǎn)模型第一、全球模型第三的成績,發(fā)布后不到 48 小時(shí),便登頂開源平臺(tái) Hugging Face 趨勢榜第一。
智東西此前已對(duì) GLM-4.5 的能力進(jìn)行了介紹與測試,在技術(shù)報(bào)告中,智譜進(jìn)一步分享了這款模型在預(yù)訓(xùn)練、中期訓(xùn)練和后訓(xùn)練階段進(jìn)行的創(chuàng)新。
GLM-4.5 借鑒了部分 DeepSeek-V3 架構(gòu),但縮小了模型的寬度,增加了模型深度,從而提升模型的推理能力。在傳統(tǒng)的預(yù)訓(xùn)練和后訓(xùn)練之外,智譜引入了中期訓(xùn)練,并在這一階段提升了模型在理解代碼倉庫、推理、長上下文與智能體 3 個(gè)場景的性能。
后訓(xùn)練階段,GLM-4.5 進(jìn)行了有監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí),其強(qiáng)化學(xué)習(xí)針對(duì)推理、智能體和通用場景分別進(jìn)行了訓(xùn)練,還使用了智譜自研并開源的基礎(chǔ)設(shè)施框架 Slime,進(jìn)一步提升了強(qiáng)化學(xué)習(xí)的效率。
在多項(xiàng)基準(zhǔn)測試中,GLM-4.5 與 DeepSeek-R1-0528、Kimi K2、OpenAI o3、Claude 4 Sonnet 等頭部開閉源模型處于同一梯隊(duì),并在部分測試中取得了 SOTA。
https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf
以下是對(duì) GLM-4.5 技術(shù)報(bào)告核心內(nèi)容的梳理:
一、從知識(shí)庫到求解器,"ARC" 成新一代模型重要能力
GLM-4.5 團(tuán)隊(duì)提出,大模型正逐漸從 " 通用知識(shí)庫 " 的角色,迅速向 " 通用問題求解器 " 演進(jìn),目標(biāo)是實(shí)現(xiàn)通用人工智能(AGI)。這意味著,它們不僅要在單一任務(wù)中做到最好,還要像人類一樣具備復(fù)雜問題求解、泛化能力和自我提升能力等。
智譜提出了三項(xiàng)關(guān)鍵且相互關(guān)聯(lián)的能力:Agentic 能力(與外部工具及現(xiàn)實(shí)世界交互的能力)、復(fù)雜推理能力(解決數(shù)學(xué)、科學(xué)等領(lǐng)域多步驟問題的能力)、以及高級(jí)編程能力(應(yīng)對(duì)真實(shí)世界軟件工程任務(wù)的能力),并將其統(tǒng)稱為 ARC。
要具備上述能力,數(shù)據(jù)是基礎(chǔ)。GLM-4.5 的預(yù)訓(xùn)練數(shù)據(jù)主要包含網(wǎng)頁、多語言數(shù)據(jù)、代碼、數(shù)學(xué)與科學(xué)等領(lǐng)域,并使用多種方法評(píng)估了數(shù)據(jù)質(zhì)量,并對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行上采樣(Up-Sampling),即增加這部分?jǐn)?shù)據(jù)在訓(xùn)練集中的出現(xiàn)頻率。
例如,代碼數(shù)據(jù)收集自 GitHub 和其他代碼托管平臺(tái),先進(jìn)行基于規(guī)則的初步過濾,再使用針對(duì)不同編程語言的質(zhì)量模型,將數(shù)據(jù)分為高 / 中 / 低質(zhì)量,上采樣高質(zhì)量、剔除低質(zhì)量,源代碼數(shù)據(jù)使用 Fill-In-the-Middle 目標(biāo)訓(xùn)練,能讓模型獲得更好地代碼補(bǔ)全能力。對(duì)于代碼相關(guān)的網(wǎng)頁,GLM-4.5 采用通過雙階段檢索與質(zhì)量評(píng)估篩選,并用細(xì)粒度解析器保留格式與內(nèi)容。
模型架構(gòu)方面,GLM-4.5 系列參考 DeepSeek-V3,采用了 MoE(混合專家)架構(gòu),從而提升了訓(xùn)練和推理的計(jì)算效率。對(duì)于 MoE 層,GLM-4.5 引入了無損平衡路由(loss-free balance routing)和 sigmoid 門控機(jī)制。同時(shí),GLM-4.5 系列還擁有更小的模型寬度(隱藏維度和路由專家數(shù)量),更大的模型深度,這種調(diào)整能提升模型的推理能力。
在自注意力模塊中,GLM-4.5 系列采用了分組查詢注意力(Grouped-Query Attention)并結(jié)合部分 RoPE(旋轉(zhuǎn)位置編碼)。智譜將注意力頭的數(shù)量提升到原來的 2.5 倍(96 個(gè)注意力頭)。有趣的是,雖然增加注意力頭數(shù)量并未帶來比少頭模型更低的訓(xùn)練損失,但模型在 MMLU 和 BBH 等推理類基準(zhǔn)測試上的表現(xiàn)得到提升。
GLM-4.5 還使用了 QK-Norm 技術(shù),用于穩(wěn)定注意力 logits 的取值范圍,可以防止注意力過度集中或過于分散,改善模型在長序列或復(fù)雜任務(wù)上的表現(xiàn)。同時(shí),GLM-4.5 系列均在 MTP(多 Token 預(yù)測)層中加入了一個(gè) MoE 層,以支持推理階段的推測式解碼,提升推理速度和質(zhì)量。
預(yù)訓(xùn)練完成后,GLM-4.5 還經(jīng)歷了一個(gè) " 中期訓(xùn)練 " 階段,采用中等規(guī)模的領(lǐng)域特定數(shù)據(jù)集,主要在 3 個(gè)場景提升模型性能:
(1)倉庫級(jí)代碼訓(xùn)練:通過拼接同一倉庫的多個(gè)代碼文件及相關(guān)開發(fā)記錄,幫助模型理解跨文件依賴和軟件工程實(shí)際場景,提升代碼理解與生成能力,同時(shí)通過加長序列支持大型項(xiàng)目。
(2)合成推理數(shù)據(jù)訓(xùn)練:利用數(shù)學(xué)、科學(xué)和編程競賽題目及答案,結(jié)合推理模型合成推理過程數(shù)據(jù),增強(qiáng)模型的復(fù)雜邏輯推理和問題解決能力。
(3)長上下文與智能體訓(xùn)練:通過擴(kuò)展序列長度和上采樣長文檔,加強(qiáng)模型對(duì)超長文本的理解與生成能力,并加入智能體軌跡數(shù)據(jù),提升模型在交互和多步?jīng)Q策任務(wù)中的表現(xiàn)。
二、兩步走完成后訓(xùn)練,自研開源基礎(chǔ)設(shè)施框架立功
GLM-4.5 團(tuán)隊(duì)將模型后訓(xùn)練劃分為兩個(gè)階段,在階段一(專家訓(xùn)練)中,該團(tuán)隊(duì)打造了專注于推理、智能體和通用對(duì)話這 3 個(gè)領(lǐng)域的專家模型。在階段二(統(tǒng)一訓(xùn)練)中,該團(tuán)隊(duì)采用自我蒸餾技術(shù)將多個(gè)專家模型整合,最終產(chǎn)出一個(gè)融合推理與非推理兩種模式的綜合模型。
在上述兩個(gè)階段中,GLM-4.5 都經(jīng)歷了有監(jiān)督微調(diào)(SFT)。
專家訓(xùn)練中,SFT 使用帶有思維鏈的小規(guī)模數(shù)據(jù)集,對(duì)專家模型進(jìn)行基礎(chǔ)能力的預(yù)訓(xùn)練,確保模型在進(jìn)入強(qiáng)化學(xué)習(xí)前具備必要的推理和工具使用能力。
整體 SFT 中,GLM-4.5 利用數(shù)百萬涵蓋多領(lǐng)域任務(wù)(推理、通用對(duì)話、智能體任務(wù)及長上下文理解)的樣本,基于 128K 上下文長度的基礎(chǔ)模型進(jìn)行訓(xùn)練。通過從多個(gè)專家模型輸出中蒸餾知識(shí),模型學(xué)會(huì)在不同任務(wù)中靈活應(yīng)用推理,同時(shí)兼顧部分不需復(fù)雜推理的場景,支持反思和即時(shí)響應(yīng)兩種工作模式,形成混合推理能力。
在 SFT 過程中,GLM-4.5 團(tuán)隊(duì)采用了幾種方式,以提升訓(xùn)練效果:
(1)減少函數(shù)調(diào)用模板中的字符轉(zhuǎn)義:針對(duì)函數(shù)調(diào)用參數(shù)中代碼大量轉(zhuǎn)義帶來的學(xué)習(xí)負(fù)擔(dān),提出用 XML 風(fēng)格特殊標(biāo)記包裹鍵值的新模板,大幅降低轉(zhuǎn)義需求,同時(shí)保持函數(shù)調(diào)用性能不變。
(2)拒絕采樣(Rejection Sampling):設(shè)計(jì)了多階段過濾流程,去除重復(fù)、無效或格式不符的樣本,驗(yàn)證客觀答案正確性,利用獎(jiǎng)勵(lì)模型篩選主觀回答,并確保工具調(diào)用場景符合規(guī)范且軌跡完整。
(3)提示選擇與回復(fù)長度調(diào)整:通過剔除較短的提示樣本,提升數(shù)學(xué)和科學(xué)任務(wù)表現(xiàn) 2%-4%;對(duì)難度較高的提示詞進(jìn)行回復(fù)長度的調(diào)整,并生成多條回復(fù),進(jìn)一步帶來 1%-2% 的性能提升。
(4)自動(dòng)構(gòu)建智能體 SFT 數(shù)據(jù):包括收集智能體框架和工具、自動(dòng)合成單步及多步工具調(diào)用任務(wù)、生成工具調(diào)用軌跡并轉(zhuǎn)換為多輪對(duì)話,以及通過多評(píng)判代理篩選保留高質(zhì)量任務(wù)軌跡,確保訓(xùn)練數(shù)據(jù)的多樣性與實(shí)用性。
SFT 之后,GLM-4.5 又進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。推理強(qiáng)化學(xué)習(xí)(Reasoning RL)重點(diǎn)針對(duì)數(shù)學(xué)、代碼和科學(xué)等可驗(yàn)證領(lǐng)域,采用了難度分級(jí)的課程學(xué)習(xí)。因?yàn)樵缙谟?xùn)練時(shí),模型能力較弱,過難數(shù)據(jù)則會(huì)導(dǎo)致獎(jiǎng)勵(lì)全為 0,無法有效從數(shù)據(jù)中學(xué)習(xí)。分級(jí)學(xué)習(xí)后,模型學(xué)習(xí)效率得到了提升。
在科學(xué)領(lǐng)域的強(qiáng)化學(xué)習(xí)中,數(shù)據(jù)質(zhì)量和類型尤為關(guān)鍵。GPQA-Diamond 基準(zhǔn)測試顯示,僅用專家驗(yàn)證的多選題進(jìn)行強(qiáng)化學(xué)習(xí),效果明顯優(yōu)于使用混合質(zhì)量或未經(jīng)驗(yàn)證的數(shù)據(jù),凸顯嚴(yán)格過濾高質(zhì)量數(shù)據(jù)的重要性。
智能體強(qiáng)化學(xué)習(xí)(Agentic RL)則聚焦網(wǎng)頁搜索和代碼生成智能體,利用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的 Scaling。為進(jìn)一步提升強(qiáng)化訓(xùn)練的效率,GLM-4.5 團(tuán)隊(duì)還采用了迭代自蒸餾提升技術(shù),也就是在強(qiáng)化學(xué)習(xí)訓(xùn)練一定步驟或達(dá)到平臺(tái)期后,用強(qiáng)化學(xué)習(xí)模型生成的響應(yīng)替換原始冷啟動(dòng)數(shù)據(jù),形成更優(yōu)的 SFT 模型,再對(duì)其繼續(xù)強(qiáng)化學(xué)習(xí)。
該團(tuán)隊(duì)還觀察到,在智能體任務(wù)中,隨著與環(huán)境交互輪數(shù)的增加,模型性能顯著提升。與常見的使用更多 token 進(jìn)行推理,實(shí)現(xiàn)性能提升不同,智能體任務(wù)利用測試時(shí)計(jì)算資源持續(xù)與環(huán)境交互,實(shí)現(xiàn)性能提升。例如反復(fù)搜索難以獲取的網(wǎng)頁信息,或?yàn)榫幋a任務(wù)編寫測試用例以進(jìn)行自我驗(yàn)證和自我修正。智能體任務(wù)的準(zhǔn)確率隨著測試時(shí)計(jì)算資源的增加而平滑提升。
通用強(qiáng)化學(xué)習(xí)(General RL)融合規(guī)則反饋、人類反饋和模型反饋等多源獎(jiǎng)勵(lì)體系,提升模型整體能力。包括使用指令遵循 RL,減少獎(jiǎng)勵(lì)作弊,確保穩(wěn)定進(jìn)步;函數(shù)調(diào)用 RL 分為逐步規(guī)則和端到端多輪兩種方式,提升工具調(diào)用的準(zhǔn)確性和自主規(guī)劃能力;異常行為 RL 通過針對(duì)性數(shù)據(jù)集高效減少低頻錯(cuò)誤。
強(qiáng)化學(xué)習(xí)訓(xùn)練中,智譜使用了其自研并開源的基礎(chǔ)設(shè)施框架 Slime,針對(duì)靈活性、效率和可擴(kuò)展性進(jìn)行了多項(xiàng)關(guān)鍵優(yōu)化。其最大特點(diǎn)是在同一套統(tǒng)一系統(tǒng)中,同時(shí)支持靈活的訓(xùn)練模式和數(shù)據(jù)生成策略,以滿足不同 RL 任務(wù)的差異化需求。同步共置模式適用于通用 RL 任務(wù)或增強(qiáng)模型推理能力,可顯著減少 GPU 空閑時(shí)間并最大化資源利用率。異步分離模式適用于軟件工程(SWE)等智能體任務(wù),可實(shí)現(xiàn)訓(xùn)練與推理 GPU 獨(dú)立調(diào)度,利用 Ray 框架靈活分配資源,使智能體環(huán)境能持續(xù)生成數(shù)據(jù)而不被訓(xùn)練周期阻塞。
為了提升 RL 訓(xùn)練中的數(shù)據(jù)生成效率,GLM-4.5 在訓(xùn)練階段采用 BF16 精度,而在推理階段使用 FP8 精度進(jìn)行混合精度推理加速。具體做法是在每次策略更新迭代時(shí),對(duì)模型參數(shù)執(zhí)行在線分塊 FP8 量化,再將其派發(fā)至 Rollout 階段,從而實(shí)現(xiàn)高效的 FP8 推理,大幅提升數(shù)據(jù)收集的吞吐量。這種優(yōu)化有效緩解了 Rollout 階段的性能瓶頸,讓數(shù)據(jù)生成速度與訓(xùn)練節(jié)奏更好匹配。
針對(duì)智能體任務(wù)中 Rollout 過程耗時(shí)長、環(huán)境交互復(fù)雜的問題,該團(tuán)隊(duì)構(gòu)建了全異步、解耦式 RL 基礎(chǔ)設(shè)施。系統(tǒng)通過高并發(fā) Docker 運(yùn)行環(huán)境為每個(gè)任務(wù)提供隔離環(huán)境,減少 Rollout 開銷;并將 GPU 分為 Rollout 引擎與訓(xùn)練引擎,前者持續(xù)生成軌跡,后者更新模型并定期同步權(quán)重,避免長或多樣化軌跡阻塞訓(xùn)練流程。此外,智譜還引入統(tǒng)一的 HTTP 接口與集中式數(shù)據(jù)池,兼容多種智能體框架并保持訓(xùn)練與推理一致性,所有軌跡集中存儲(chǔ),支持定制化過濾與動(dòng)態(tài)采樣,確保不同任務(wù)下 RL 訓(xùn)練數(shù)據(jù)的質(zhì)量與多樣性。
三、進(jìn)行 12 項(xiàng)核心基準(zhǔn)測試,編程任務(wù)完成率接近 Claude
智譜對(duì)多款 GLM-4.5 模型的性能進(jìn)行了測試。
未經(jīng)過指令微調(diào)的基礎(chǔ)模型 GLM-4.5-Base 在英語、代碼、數(shù)學(xué)和中文等不同基準(zhǔn)測試中表現(xiàn)穩(wěn)定,較好地融合了各領(lǐng)域能力。
在智能體領(lǐng)域,基準(zhǔn)測試主要考查了模型調(diào)用用戶自定義函數(shù)以回答用戶查詢的能力和在復(fù)雜問題中找到正確答案的能力。GLM-4.5 在四項(xiàng)測試中的得分與平均分位列參與測試的模型前列,平均分僅次于 OpenAI o3。
測試結(jié)果如下:
GLM-4.5 vs Claude 4 Sonnet:勝率 40.4%,平局 9.6%,敗率 50.0%。
GLM-4.5 vs Kimi K2:勝率 53.9%,平局 17.3%,敗率 28.8%。
GLM-4.5 vs Qwen3-Coder:勝率 80.8%,平局 7.7%,敗率 11.5%。
智譜還在技術(shù)報(bào)告中分享了 GLM-4.5 在通用能力、安全、翻譯、實(shí)際上手體驗(yàn)方面的特點(diǎn)。
結(jié)語:中國開源 AI 生態(tài)蓬勃
有越來越多的企業(yè)正采取模型權(quán)重開源 + 詳細(xì)技術(shù)報(bào)告的開源模式,這種方式不僅能讓企業(yè)第一時(shí)間用上開源模型,還能讓大模型玩家們從彼此的研究成果中借鑒,并獲得下一次技術(shù)突破的靈感。
在 DeepSeek 現(xiàn)象之后,國內(nèi) AI 企業(yè)通過密集的開源,已經(jīng)逐漸形成了良性的國產(chǎn)開源 AI 生態(tài),有多家企業(yè)在其他開源模型的研究成果上完成了創(chuàng)新。這種集體式的創(chuàng)新,或許有助于推動(dòng)國產(chǎn)大模型獲得競爭優(yōu)勢。