Kimi K2 稱霸全球開(kāi)源模型的秘籍公開(kāi)了!
沒(méi)錯(cuò),就是整整 32 頁(yè)的 Kimi K2 官方技術(shù)報(bào)告。業(yè)內(nèi)人士第一波 repo 已火速出爐:
這篇論文中有很多令人印象深刻的內(nèi)容。
上線僅一周,它就在競(jìng)技場(chǎng)千人盲評(píng)中擊敗 DeepSeek,登頂全球最強(qiáng)開(kāi)源模型,而且能媲美 Grok 4、GPT 4.5 等頂尖閉源模型。
那它是咋做到的呢?
別急,這篇最新論文來(lái)給答案了——一次性大公開(kāi) Kimi K2 的訓(xùn)練過(guò)程及 " 秘密配方 "。
包括但不限于大家已經(jīng)熱議的:MuonClip 優(yōu)化器、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成、通用強(qiáng)化學(xué)習(xí)等等。
都有哪些技術(shù)亮點(diǎn)
首先,Kimi 團(tuán)隊(duì)認(rèn)為,現(xiàn)如今大語(yǔ)言模型正從靜態(tài)模仿學(xué)習(xí)向 Agentic Intelligence 轉(zhuǎn)型。
這意味著,模型需要具備在復(fù)雜動(dòng)態(tài)環(huán)境中自主感知、規(guī)劃、推理和行動(dòng)的能力。
要實(shí)現(xiàn)這一點(diǎn),當(dāng)面人們面臨兩大挑戰(zhàn):
預(yù)訓(xùn)練需在高質(zhì)量數(shù)據(jù)有限的約束下,通過(guò)提升每 token 效率構(gòu)建通用先驗(yàn)(universal prior)。
后訓(xùn)練需將先驗(yàn)轉(zhuǎn)化為可行動(dòng)行為,但 Agentic 能力在自然數(shù)據(jù)中稀缺且難以規(guī)?;?。
對(duì)此,團(tuán)隊(duì)在 Kimi K2 中采用了三大核心創(chuàng)新技術(shù):
1、MuonClip 優(yōu)化器:拋棄傳統(tǒng)的 Adam 優(yōu)化器,創(chuàng)新性地使用了 Muon 優(yōu)化器。結(jié)合 Muon 的 token 效率與 QK-Clip 的穩(wěn)定性,支持 15.5 萬(wàn)億 token 無(wú)損失 spike 預(yù)訓(xùn)練。
2、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成:構(gòu)建可大規(guī)模生成多輪工具使用場(chǎng)景的合成 pipeline,覆蓋數(shù)百領(lǐng)域、數(shù)千工具。
3、通用強(qiáng)化學(xué)習(xí)框架:結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)和自我批判評(píng)估獎(jiǎng)勵(lì),將對(duì)齊從靜態(tài)擴(kuò)展到開(kāi)放域。
得益于以上技術(shù),Kimi K2 在 SWE Bench Verified、Tau2、AceBench 等基準(zhǔn)性能測(cè)試中,均取得開(kāi)源模型中的 SOTA 成績(jī)。
預(yù)訓(xùn)練階段
在 Kimi K2 預(yù)訓(xùn)練階段,團(tuán)隊(duì)主要對(duì)優(yōu)化器和數(shù)據(jù)進(jìn)行了優(yōu)化。
整體而言,其預(yù)訓(xùn)練采用了MoE 架構(gòu) + 穩(wěn)定優(yōu)化器 + 高效 token 利用這一全新組合拳,以此構(gòu)建通用語(yǔ)言和推理能力。
模型架構(gòu)上,一共包含 384 個(gè)專家,每層激活其中 8 個(gè),通過(guò)這種高度稀疏的設(shè)計(jì)在保證性能的同時(shí)優(yōu)化計(jì)算效率。
在注意力機(jī)制上,K2 使用 MLA(Multi-head Latent Attention)結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的密集注意力(dense attention),有效減少了計(jì)算量和帶寬壓力。
而且將每層的注意力頭數(shù)量降至 64 個(gè),與同類模型相比進(jìn)一步降低了推理過(guò)程中的資源消耗,使模型能更好地處理長(zhǎng)上下文。
這一機(jī)制會(huì)定期檢查模型注意力的關(guān)鍵參數(shù)(query 和 key),如果它們的值太大,就自動(dòng) " 收緊 ",防止計(jì)算過(guò)程出現(xiàn)異常,從而顯著提升了訓(xùn)練穩(wěn)定性。
團(tuán)隊(duì)最終也發(fā)現(xiàn),借助 MuonClip 可讓 K2 在 15.5 萬(wàn)億 token 的預(yù)訓(xùn)練過(guò)程中實(shí)現(xiàn)零損失 spike,確保了大規(guī)模訓(xùn)練的連續(xù)性和有效性。
數(shù)據(jù)方面,其核心目標(biāo)為,在高質(zhì)量數(shù)據(jù)有限時(shí),通過(guò)提升每 token 的有效學(xué)習(xí)信號(hào)(token 效用)來(lái)增強(qiáng)訓(xùn)練效率,避免重復(fù)訓(xùn)練導(dǎo)致的過(guò)擬合。
而為了讓模型 " 吃透 " 有限的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),K2 團(tuán)隊(duì)采取了一種所謂的" 重述法 "。
對(duì)知識(shí)類文本:不是簡(jiǎn)單重復(fù)讀,而是換著說(shuō)法再講一遍。
對(duì)數(shù)學(xué)類文本:把枯燥的教材式內(nèi)容改寫(xiě)成更易理解的 " 學(xué)習(xí)筆記 " 風(fēng)格,還加入了多語(yǔ)言版本的翻譯文本,讓模型見(jiàn)多識(shí)廣。
一言以蔽之,K2 的訓(xùn)練數(shù)據(jù)覆蓋網(wǎng)頁(yè)、代碼、數(shù)學(xué)、知識(shí)四大板塊,所有數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格的質(zhì)量篩選,確保模型學(xué)到的都是有用的信息。
而且它不是靠 " 多刷題 " 訓(xùn)練出來(lái)的,而是靠 " 換種說(shuō)法講一遍 " 讓模型真正理解知識(shí)。
只用重寫(xiě)一次的數(shù)據(jù)訓(xùn)練一輪(28.94%),準(zhǔn)確率就超過(guò)原始數(shù)據(jù)訓(xùn)練十輪(23.76%)。
K2 后訓(xùn)練階段主要涉及監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。
值得一提的就是大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成,主要流程如下:
工具生成:3000 多真實(shí) MCP 工具 +20000 多合成工具,覆蓋金融、機(jī)器人控制等領(lǐng)域;
Agentic 與任務(wù)生成:為工具集生成多樣化 Agentic(系統(tǒng)提示 + 工具組合)和帶評(píng)估標(biāo)準(zhǔn)的任務(wù);
軌跡生成:模擬用戶交互、工具執(zhí)行環(huán)境(含狀態(tài)更新和隨機(jī)結(jié)果),生成多輪工具使用軌跡;
結(jié)合真實(shí)執(zhí)行沙箱(如編碼任務(wù)),確保數(shù)據(jù)真實(shí)性。
最終,Judge Agent 會(huì)依據(jù)任務(wù) rubrics 對(duì)軌跡質(zhì)量進(jìn)行判斷,只保留高質(zhì)量樣本用于訓(xùn)練。
這一過(guò)程本質(zhì)上是一種大規(guī)模拒絕采樣(rejection sampling)機(jī)制,結(jié)合模擬規(guī)模與真實(shí)反饋,實(shí)現(xiàn)了大范圍、高保真的訓(xùn)練數(shù)據(jù)構(gòu)建。
第一,構(gòu)建可驗(yàn)證的獎(jiǎng)勵(lì)環(huán)境(Verifiable Rewards Gym)。
簡(jiǎn)單說(shuō),團(tuán)隊(duì)為不同任務(wù)設(shè)計(jì)了 " 可打分 " 的訓(xùn)練場(chǎng)景,讓模型的表現(xiàn)可以被客觀評(píng)估。
比如對(duì)于編碼場(chǎng)景,團(tuán)隊(duì)利用真實(shí)世界的數(shù)據(jù)(如程序競(jìng)賽題目、GitHub 的 PR 和 issue)構(gòu)建任務(wù),并通過(guò)自動(dòng)化測(cè)試來(lái)驗(yàn)證模型的代碼是否正確運(yùn)行。
第二,除了外部評(píng)判,還訓(xùn)練模型自己評(píng)估自己,即引入自我評(píng)估獎(jiǎng)勵(lì)機(jī)制(Self-Critique Rubric Reward)。
具體而言,模型會(huì)將自己的多個(gè)輸出結(jié)果進(jìn)行兩兩比較,并根據(jù)一套明確的標(biāo)準(zhǔn)(如語(yǔ)言清晰度、對(duì)話是否連貫、是否啰嗦或拍馬屁)給出獎(jiǎng)勵(lì)分,同時(shí)還引入一些規(guī)則約束(如 " 不要無(wú)腦稱贊用戶 ")來(lái)避免生成套路化或迎合性回答。
這個(gè)機(jī)制不僅增強(qiáng)了模型的自我反饋能力,也能將客觀任務(wù)中的評(píng)估信號(hào)遷移到主觀對(duì)話場(chǎng)景(如回答開(kāi)放性問(wèn)題等人類主觀評(píng)判場(chǎng)景),形成閉環(huán)優(yōu)化。
第三,為了更高效、穩(wěn)定地進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,K2 還對(duì)算法進(jìn)行了多項(xiàng)改進(jìn)。
包括但不限于下面這些:
預(yù)算控制機(jī)制:限制每個(gè)樣本的最大 token 數(shù),避免生成啰嗦、重復(fù)或無(wú)意義的長(zhǎng)文本。
引入 PTX 輔助損失:使用高質(zhì)量預(yù)訓(xùn)練樣本時(shí)再加一個(gè)損失項(xiàng),以防模型在 RL 階段 " 遺忘 " 已有知識(shí)。
溫度衰減策略:訓(xùn)練初期用高溫度鼓勵(lì)模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩(wěn)定、更收斂。
最后據(jù)論文介紹,K2 的訓(xùn)練依托于由 NVIDIA H800 構(gòu)成的大規(guī)模高帶寬 GPU 集群,通過(guò)混合并行策略,既保證了訓(xùn)練效率,又能在不同規(guī)模資源下靈活適配。
每個(gè)節(jié)點(diǎn)配備 2TB 內(nèi)存,并通過(guò) NVLink 和 NVSwitch 將 8 塊 GPU 在節(jié)點(diǎn)內(nèi)部高速互聯(lián)。不同節(jié)點(diǎn)之間則使用 8 × 400 Gbps 的 RoCE 網(wǎng)絡(luò)互聯(lián),以實(shí)現(xiàn)節(jié)點(diǎn)間的高效通信。
就在剛剛,阿里通義 Qwen3 模型也更新了——
正式由 Qwen3-235B-A22B 更新至Qwen3-235B-A22B-2507。
官方表示,他們停用了混合思維模式,改為分別訓(xùn)練 Instruct 和 Thinking 模型以提升質(zhì)量,并正式發(fā)布性能更強(qiáng)的 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本。
而且官方測(cè)評(píng)顯示,最新版 Qwen3 又擊敗了 Kimi K2 模型,開(kāi)源新王或?qū)⒃俅我字鳌?/p>
[ 1 ] https://x.com/timfduffy/status/1947424245463847417
[ 2 ] https://x.com/thomasahle/status/1947421078524969107
[ 3 ] https://x.com/nrehiew_/status/1947420382312730706
[ 4 ] https://x.com/Alibaba_Qwen/status/1947344511988076547
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問(wèn)題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~
進(jìn)群后,你將直接獲得:
最新最專業(yè)的 AI 產(chǎn)品信息及分析
不定期發(fā)放的熱門(mén)產(chǎn)品內(nèi)測(cè)碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)