中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 56分鐘前

      Kimi K2 官方技術(shù)報(bào)告出爐:采用 384 個(gè)專家,訓(xùn)練不靠刷題靠“用自己的話再講一遍”

      Kimi K2 稱霸全球開(kāi)源模型的秘籍公開(kāi)了!

      沒(méi)錯(cuò),就是整整 32 頁(yè)的 Kimi K2 官方技術(shù)報(bào)告。業(yè)內(nèi)人士第一波 repo 已火速出爐:

      這篇論文中有很多令人印象深刻的內(nèi)容。

      nice!它分享了很多關(guān)于 Kimi(以及中國(guó)實(shí)驗(yàn)室)對(duì)這些模型的看法(他們關(guān)注 / 優(yōu)化的內(nèi)容)。

      Kimi K2,作為 Kimi 最新 MoE 基礎(chǔ)模型,總參數(shù) 1T,激活參數(shù) 32B,能力領(lǐng)先性尤其展現(xiàn)在代碼、Agent、數(shù)學(xué)推理任務(wù)上。

      上線僅一周,它就在競(jìng)技場(chǎng)千人盲評(píng)中擊敗 DeepSeek,登頂全球最強(qiáng)開(kāi)源模型,而且能媲美 Grok 4、GPT 4.5 等頂尖閉源模型。

      那它是咋做到的呢?

      別急,這篇最新論文來(lái)給答案了——一次性大公開(kāi) Kimi K2 的訓(xùn)練過(guò)程及 " 秘密配方 "

      包括但不限于大家已經(jīng)熱議的:MuonClip 優(yōu)化器、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成、通用強(qiáng)化學(xué)習(xí)等等。

      下面詳細(xì)來(lái)看。

      都有哪些技術(shù)亮點(diǎn)

      首先,Kimi 團(tuán)隊(duì)認(rèn)為,現(xiàn)如今大語(yǔ)言模型正從靜態(tài)模仿學(xué)習(xí)向 Agentic Intelligence 轉(zhuǎn)型。

      這意味著,模型需要具備在復(fù)雜動(dòng)態(tài)環(huán)境中自主感知、規(guī)劃、推理和行動(dòng)的能力。

      要實(shí)現(xiàn)這一點(diǎn),當(dāng)面人們面臨兩大挑戰(zhàn):

      預(yù)訓(xùn)練需在高質(zhì)量數(shù)據(jù)有限的約束下,通過(guò)提升每 token 效率構(gòu)建通用先驗(yàn)(universal prior)。

      后訓(xùn)練需將先驗(yàn)轉(zhuǎn)化為可行動(dòng)行為,但 Agentic 能力在自然數(shù)據(jù)中稀缺且難以規(guī)?;?。

      對(duì)此,團(tuán)隊(duì)在 Kimi K2 中采用了三大核心創(chuàng)新技術(shù)

      1、MuonClip 優(yōu)化器:拋棄傳統(tǒng)的 Adam 優(yōu)化器,創(chuàng)新性地使用了 Muon 優(yōu)化器。結(jié)合 Muon 的 token 效率與 QK-Clip 的穩(wěn)定性,支持 15.5 萬(wàn)億 token 無(wú)損失 spike 預(yù)訓(xùn)練。

      2、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成:構(gòu)建可大規(guī)模生成多輪工具使用場(chǎng)景的合成 pipeline,覆蓋數(shù)百領(lǐng)域、數(shù)千工具。

      3、通用強(qiáng)化學(xué)習(xí)框架:結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)和自我批判評(píng)估獎(jiǎng)勵(lì),將對(duì)齊從靜態(tài)擴(kuò)展到開(kāi)放域。

      得益于以上技術(shù),Kimi K2 在 SWE Bench Verified、Tau2、AceBench 等基準(zhǔn)性能測(cè)試中,均取得開(kāi)源模型中的 SOTA 成績(jī)。

      以下為技術(shù)細(xì)節(jié)部分:

      預(yù)訓(xùn)練階段

      在 Kimi K2 預(yù)訓(xùn)練階段,團(tuán)隊(duì)主要對(duì)優(yōu)化器和數(shù)據(jù)進(jìn)行了優(yōu)化。

      整體而言,其預(yù)訓(xùn)練采用了MoE 架構(gòu) + 穩(wěn)定優(yōu)化器 + 高效 token 利用這一全新組合拳,以此構(gòu)建通用語(yǔ)言和推理能力。

      模型架構(gòu)上,一共包含 384 個(gè)專家,每層激活其中 8 個(gè),通過(guò)這種高度稀疏的設(shè)計(jì)在保證性能的同時(shí)優(yōu)化計(jì)算效率。

      在注意力機(jī)制上,K2 使用 MLA(Multi-head Latent Attention)結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的密集注意力(dense attention),有效減少了計(jì)算量和帶寬壓力。

      而且將每層的注意力頭數(shù)量降至 64 個(gè),與同類模型相比進(jìn)一步降低了推理過(guò)程中的資源消耗,使模型能更好地處理長(zhǎng)上下文。

      優(yōu)化器選擇上,K2 采用了 MuonClip 優(yōu)化器,其核心是在 Muon 優(yōu)化器基礎(chǔ)上融合了 QK-Clip 機(jī)制。

      這一機(jī)制會(huì)定期檢查模型注意力的關(guān)鍵參數(shù)(query 和 key),如果它們的值太大,就自動(dòng) " 收緊 ",防止計(jì)算過(guò)程出現(xiàn)異常,從而顯著提升了訓(xùn)練穩(wěn)定性。

      團(tuán)隊(duì)最終也發(fā)現(xiàn),借助 MuonClip 可讓 K2 在 15.5 萬(wàn)億 token 的預(yù)訓(xùn)練過(guò)程中實(shí)現(xiàn)零損失 spike,確保了大規(guī)模訓(xùn)練的連續(xù)性和有效性。

      數(shù)據(jù)方面,其核心目標(biāo)為,在高質(zhì)量數(shù)據(jù)有限時(shí),通過(guò)提升每 token 的有效學(xué)習(xí)信號(hào)(token 效用)來(lái)增強(qiáng)訓(xùn)練效率,避免重復(fù)訓(xùn)練導(dǎo)致的過(guò)擬合。

      而為了讓模型 " 吃透 " 有限的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),K2 團(tuán)隊(duì)采取了一種所謂的" 重述法 "。

      對(duì)知識(shí)類文本:不是簡(jiǎn)單重復(fù)讀,而是換著說(shuō)法再講一遍。

      對(duì)數(shù)學(xué)類文本:把枯燥的教材式內(nèi)容改寫(xiě)成更易理解的 " 學(xué)習(xí)筆記 " 風(fēng)格,還加入了多語(yǔ)言版本的翻譯文本,讓模型見(jiàn)多識(shí)廣。

      一言以蔽之,K2 的訓(xùn)練數(shù)據(jù)覆蓋網(wǎng)頁(yè)、代碼、數(shù)學(xué)、知識(shí)四大板塊,所有數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格的質(zhì)量篩選,確保模型學(xué)到的都是有用的信息。

      而且它不是靠 " 多刷題 " 訓(xùn)練出來(lái)的,而是靠 " 換種說(shuō)法講一遍 " 讓模型真正理解知識(shí)。

      只用重寫(xiě)一次的數(shù)據(jù)訓(xùn)練一輪(28.94%),準(zhǔn)確率就超過(guò)原始數(shù)據(jù)訓(xùn)練十輪(23.76%)。

      概括而言,K2 采用了與 DeepSeek-V3 相似的多頭潛在注意力(MLA),具體對(duì)比如下:

      后訓(xùn)練階段

      K2 后訓(xùn)練階段主要涉及監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。

      值得一提的就是大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成,主要流程如下:

      工具生成:3000 多真實(shí) MCP 工具 +20000 多合成工具,覆蓋金融、機(jī)器人控制等領(lǐng)域;

      Agentic 與任務(wù)生成:為工具集生成多樣化 Agentic(系統(tǒng)提示 + 工具組合)和帶評(píng)估標(biāo)準(zhǔn)的任務(wù);

      軌跡生成:模擬用戶交互、工具執(zhí)行環(huán)境(含狀態(tài)更新和隨機(jī)結(jié)果),生成多輪工具使用軌跡;

      結(jié)合真實(shí)執(zhí)行沙箱(如編碼任務(wù)),確保數(shù)據(jù)真實(shí)性。

      最終,Judge Agent 會(huì)依據(jù)任務(wù) rubrics 對(duì)軌跡質(zhì)量進(jìn)行判斷,只保留高質(zhì)量樣本用于訓(xùn)練。

      這一過(guò)程本質(zhì)上是一種大規(guī)模拒絕采樣(rejection sampling)機(jī)制,結(jié)合模擬規(guī)模與真實(shí)反饋,實(shí)現(xiàn)了大范圍、高保真的訓(xùn)練數(shù)據(jù)構(gòu)建。

      而在強(qiáng)化學(xué)習(xí)階段,K2 主要經(jīng)歷了三大步驟:

      第一,構(gòu)建可驗(yàn)證的獎(jiǎng)勵(lì)環(huán)境(Verifiable Rewards Gym)。

      簡(jiǎn)單說(shuō),團(tuán)隊(duì)為不同任務(wù)設(shè)計(jì)了 " 可打分 " 的訓(xùn)練場(chǎng)景,讓模型的表現(xiàn)可以被客觀評(píng)估。

      比如對(duì)于編碼場(chǎng)景,團(tuán)隊(duì)利用真實(shí)世界的數(shù)據(jù)(如程序競(jìng)賽題目、GitHub 的 PR 和 issue)構(gòu)建任務(wù),并通過(guò)自動(dòng)化測(cè)試來(lái)驗(yàn)證模型的代碼是否正確運(yùn)行。

      第二,除了外部評(píng)判,還訓(xùn)練模型自己評(píng)估自己,即引入自我評(píng)估獎(jiǎng)勵(lì)機(jī)制(Self-Critique Rubric Reward)。

      具體而言,模型會(huì)將自己的多個(gè)輸出結(jié)果進(jìn)行兩兩比較,并根據(jù)一套明確的標(biāo)準(zhǔn)(如語(yǔ)言清晰度、對(duì)話是否連貫、是否啰嗦或拍馬屁)給出獎(jiǎng)勵(lì)分,同時(shí)還引入一些規(guī)則約束(如 " 不要無(wú)腦稱贊用戶 ")來(lái)避免生成套路化或迎合性回答。

      這個(gè)機(jī)制不僅增強(qiáng)了模型的自我反饋能力,也能將客觀任務(wù)中的評(píng)估信號(hào)遷移到主觀對(duì)話場(chǎng)景(如回答開(kāi)放性問(wèn)題等人類主觀評(píng)判場(chǎng)景),形成閉環(huán)優(yōu)化。

      第三,為了更高效、穩(wěn)定地進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,K2 還對(duì)算法進(jìn)行了多項(xiàng)改進(jìn)。

      包括但不限于下面這些:

      預(yù)算控制機(jī)制:限制每個(gè)樣本的最大 token 數(shù),避免生成啰嗦、重復(fù)或無(wú)意義的長(zhǎng)文本。

      引入 PTX 輔助損失:使用高質(zhì)量預(yù)訓(xùn)練樣本時(shí)再加一個(gè)損失項(xiàng),以防模型在 RL 階段 " 遺忘 " 已有知識(shí)。

      溫度衰減策略:訓(xùn)練初期用高溫度鼓勵(lì)模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩(wěn)定、更收斂。

      最后據(jù)論文介紹,K2 的訓(xùn)練依托于由 NVIDIA H800 構(gòu)成的大規(guī)模高帶寬 GPU 集群,通過(guò)混合并行策略,既保證了訓(xùn)練效率,又能在不同規(guī)模資源下靈活適配。

      每個(gè)節(jié)點(diǎn)配備 2TB 內(nèi)存,并通過(guò) NVLink 和 NVSwitch 將 8 塊 GPU 在節(jié)點(diǎn)內(nèi)部高速互聯(lián)。不同節(jié)點(diǎn)之間則使用 8 × 400 Gbps 的 RoCE 網(wǎng)絡(luò)互聯(lián),以實(shí)現(xiàn)節(jié)點(diǎn)間的高效通信。

      One More Thing

      就在剛剛,阿里通義 Qwen3 模型也更新了——

      正式由 Qwen3-235B-A22B 更新至Qwen3-235B-A22B-2507

      官方表示,他們停用了混合思維模式,改為分別訓(xùn)練 Instruct 和 Thinking 模型以提升質(zhì)量,并正式發(fā)布性能更強(qiáng)的 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本。

      而且官方測(cè)評(píng)顯示,最新版 Qwen3 又擊敗了 Kimi K2 模型,開(kāi)源新王或?qū)⒃俅我字鳌?/p>

      參考鏈接:

      [ 1 ] https://x.com/timfduffy/status/1947424245463847417

      [ 2 ] https://x.com/thomasahle/status/1947421078524969107

      [ 3 ] https://x.com/nrehiew_/status/1947420382312730706

      [ 4 ] https://x.com/Alibaba_Qwen/status/1947344511988076547

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問(wèn)題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~

      進(jìn)群后,你將直接獲得:

      最新最專業(yè)的 AI 產(chǎn)品信息及分析

      不定期發(fā)放的熱門(mén)產(chǎn)品內(nèi)測(cè)碼

      內(nèi)部專屬內(nèi)容與專業(yè)討論

      點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見(jiàn)

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了