中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<nav id="wsig4"></nav>

<center id="wsig4"><acronym id="wsig4"></acronym></center><bdo id="wsig4"></bdo>

<kbd id="wsig4"></kbd><button id="wsig4"></button><dl id="wsig4"><xmp id="wsig4"></xmp></dl>

量子位 56分鐘前

Kimi K2 官方技術(shù)報(bào)告出爐：采用 384 個(gè)專家，訓(xùn)練不靠刷題靠“用自己的話再講一遍”

Kimi K2 稱霸全球開(kāi)源模型的秘籍公開(kāi)了！

沒(méi)錯(cuò)，就是整整 32 頁(yè)的 Kimi K2 官方技術(shù)報(bào)告。業(yè)內(nèi)人士第一波 repo 已火速出爐：

這篇論文中有很多令人印象深刻的內(nèi)容。

nice！它分享了很多關(guān)于 Kimi（以及中國(guó)實(shí)驗(yàn)室）對(duì)這些模型的看法（他們關(guān)注 / 優(yōu)化的內(nèi)容）。

Kimi K2，作為 Kimi 最新 MoE 基礎(chǔ)模型，總參數(shù) 1T，激活參數(shù) 32B，能力領(lǐng)先性尤其展現(xiàn)在代碼、Agent、數(shù)學(xué)推理任務(wù)上。

上線僅一周，它就在競(jìng)技場(chǎng)千人盲評(píng)中擊敗 DeepSeek，登頂全球最強(qiáng)開(kāi)源模型，而且能媲美 Grok 4、GPT 4.5 等頂尖閉源模型。

那它是咋做到的呢？

別急，這篇最新論文來(lái)給答案了——一次性大公開(kāi) Kimi K2 的訓(xùn)練過(guò)程及 " 秘密配方 "。

包括但不限于大家已經(jīng)熱議的：MuonClip 優(yōu)化器、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成、通用強(qiáng)化學(xué)習(xí)等等。

下面詳細(xì)來(lái)看。

都有哪些技術(shù)亮點(diǎn)

首先，Kimi 團(tuán)隊(duì)認(rèn)為，現(xiàn)如今大語(yǔ)言模型正從靜態(tài)模仿學(xué)習(xí)向 Agentic Intelligence 轉(zhuǎn)型。

這意味著，模型需要具備在復(fù)雜動(dòng)態(tài)環(huán)境中自主感知、規(guī)劃、推理和行動(dòng)的能力。

要實(shí)現(xiàn)這一點(diǎn)，當(dāng)面人們面臨兩大挑戰(zhàn)：

預(yù)訓(xùn)練需在高質(zhì)量數(shù)據(jù)有限的約束下，通過(guò)提升每 token 效率構(gòu)建通用先驗(yàn)（universal prior）。

后訓(xùn)練需將先驗(yàn)轉(zhuǎn)化為可行動(dòng)行為，但 Agentic 能力在自然數(shù)據(jù)中稀缺且難以規(guī)?；?。

對(duì)此，團(tuán)隊(duì)在 Kimi K2 中采用了三大核心創(chuàng)新技術(shù)：

1、MuonClip 優(yōu)化器：拋棄傳統(tǒng)的 Adam 優(yōu)化器，創(chuàng)新性地使用了 Muon 優(yōu)化器。結(jié)合 Muon 的 token 效率與 QK-Clip 的穩(wěn)定性，支持 15.5 萬(wàn)億 token 無(wú)損失 spike 預(yù)訓(xùn)練。

2、大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成：構(gòu)建可大規(guī)模生成多輪工具使用場(chǎng)景的合成 pipeline，覆蓋數(shù)百領(lǐng)域、數(shù)千工具。

3、通用強(qiáng)化學(xué)習(xí)框架：結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)（RLVR）和自我批判評(píng)估獎(jiǎng)勵(lì)，將對(duì)齊從靜態(tài)擴(kuò)展到開(kāi)放域。

得益于以上技術(shù)，Kimi K2 在 SWE Bench Verified、Tau2、AceBench 等基準(zhǔn)性能測(cè)試中，均取得開(kāi)源模型中的 SOTA 成績(jī)。

以下為技術(shù)細(xì)節(jié)部分：

預(yù)訓(xùn)練階段

在 Kimi K2 預(yù)訓(xùn)練階段，團(tuán)隊(duì)主要對(duì)優(yōu)化器和數(shù)據(jù)進(jìn)行了優(yōu)化。

整體而言，其預(yù)訓(xùn)練采用了MoE 架構(gòu) + 穩(wěn)定優(yōu)化器 + 高效 token 利用這一全新組合拳，以此構(gòu)建通用語(yǔ)言和推理能力。

模型架構(gòu)上，一共包含 384 個(gè)專家，每層激活其中 8 個(gè)，通過(guò)這種高度稀疏的設(shè)計(jì)在保證性能的同時(shí)優(yōu)化計(jì)算效率。

在注意力機(jī)制上，K2 使用 MLA（Multi-head Latent Attention）結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的密集注意力（dense attention），有效減少了計(jì)算量和帶寬壓力。

而且將每層的注意力頭數(shù)量降至 64 個(gè)，與同類模型相比進(jìn)一步降低了推理過(guò)程中的資源消耗，使模型能更好地處理長(zhǎng)上下文。

優(yōu)化器選擇上，K2 采用了 MuonClip 優(yōu)化器，其核心是在 Muon 優(yōu)化器基礎(chǔ)上融合了 QK-Clip 機(jī)制。

這一機(jī)制會(huì)定期檢查模型注意力的關(guān)鍵參數(shù)（query 和 key），如果它們的值太大，就自動(dòng) " 收緊 "，防止計(jì)算過(guò)程出現(xiàn)異常，從而顯著提升了訓(xùn)練穩(wěn)定性。

團(tuán)隊(duì)最終也發(fā)現(xiàn)，借助 MuonClip 可讓 K2 在 15.5 萬(wàn)億 token 的預(yù)訓(xùn)練過(guò)程中實(shí)現(xiàn)零損失 spike，確保了大規(guī)模訓(xùn)練的連續(xù)性和有效性。

數(shù)據(jù)方面，其核心目標(biāo)為，在高質(zhì)量數(shù)據(jù)有限時(shí)，通過(guò)提升每 token 的有效學(xué)習(xí)信號(hào)（token 效用）來(lái)增強(qiáng)訓(xùn)練效率，避免重復(fù)訓(xùn)練導(dǎo)致的過(guò)擬合。

而為了讓模型 " 吃透 " 有限的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，K2 團(tuán)隊(duì)采取了一種所謂的" 重述法 "。

對(duì)知識(shí)類文本：不是簡(jiǎn)單重復(fù)讀，而是換著說(shuō)法再講一遍。

對(duì)數(shù)學(xué)類文本：把枯燥的教材式內(nèi)容改寫(xiě)成更易理解的 " 學(xué)習(xí)筆記 " 風(fēng)格，還加入了多語(yǔ)言版本的翻譯文本，讓模型見(jiàn)多識(shí)廣。

一言以蔽之，K2 的訓(xùn)練數(shù)據(jù)覆蓋網(wǎng)頁(yè)、代碼、數(shù)學(xué)、知識(shí)四大板塊，所有數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格的質(zhì)量篩選，確保模型學(xué)到的都是有用的信息。

而且它不是靠 " 多刷題 " 訓(xùn)練出來(lái)的，而是靠 " 換種說(shuō)法講一遍 " 讓模型真正理解知識(shí)。

只用重寫(xiě)一次的數(shù)據(jù)訓(xùn)練一輪（28.94%），準(zhǔn)確率就超過(guò)原始數(shù)據(jù)訓(xùn)練十輪（23.76%）。

概括而言，K2 采用了與 DeepSeek-V3 相似的多頭潛在注意力（MLA），具體對(duì)比如下：

后訓(xùn)練階段

K2 后訓(xùn)練階段主要涉及監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。

值得一提的就是大規(guī)模 Agentic Tool Use 數(shù)據(jù)合成，主要流程如下：

工具生成：3000 多真實(shí) MCP 工具 +20000 多合成工具，覆蓋金融、機(jī)器人控制等領(lǐng)域；

Agentic 與任務(wù)生成：為工具集生成多樣化 Agentic（系統(tǒng)提示 + 工具組合）和帶評(píng)估標(biāo)準(zhǔn)的任務(wù)；

軌跡生成：模擬用戶交互、工具執(zhí)行環(huán)境（含狀態(tài)更新和隨機(jī)結(jié)果），生成多輪工具使用軌跡；

結(jié)合真實(shí)執(zhí)行沙箱（如編碼任務(wù)），確保數(shù)據(jù)真實(shí)性。

最終，Judge Agent 會(huì)依據(jù)任務(wù) rubrics 對(duì)軌跡質(zhì)量進(jìn)行判斷，只保留高質(zhì)量樣本用于訓(xùn)練。

這一過(guò)程本質(zhì)上是一種大規(guī)模拒絕采樣（rejection sampling）機(jī)制，結(jié)合模擬規(guī)模與真實(shí)反饋，實(shí)現(xiàn)了大范圍、高保真的訓(xùn)練數(shù)據(jù)構(gòu)建。

而在強(qiáng)化學(xué)習(xí)階段，K2 主要經(jīng)歷了三大步驟：

第一，構(gòu)建可驗(yàn)證的獎(jiǎng)勵(lì)環(huán)境（Verifiable Rewards Gym）。

簡(jiǎn)單說(shuō)，團(tuán)隊(duì)為不同任務(wù)設(shè)計(jì)了 " 可打分 " 的訓(xùn)練場(chǎng)景，讓模型的表現(xiàn)可以被客觀評(píng)估。

比如對(duì)于編碼場(chǎng)景，團(tuán)隊(duì)利用真實(shí)世界的數(shù)據(jù)（如程序競(jìng)賽題目、GitHub 的 PR 和 issue）構(gòu)建任務(wù)，并通過(guò)自動(dòng)化測(cè)試來(lái)驗(yàn)證模型的代碼是否正確運(yùn)行。

第二，除了外部評(píng)判，還訓(xùn)練模型自己評(píng)估自己，即引入自我評(píng)估獎(jiǎng)勵(lì)機(jī)制（Self-Critique Rubric Reward）。

具體而言，模型會(huì)將自己的多個(gè)輸出結(jié)果進(jìn)行兩兩比較，并根據(jù)一套明確的標(biāo)準(zhǔn)（如語(yǔ)言清晰度、對(duì)話是否連貫、是否啰嗦或拍馬屁）給出獎(jiǎng)勵(lì)分，同時(shí)還引入一些規(guī)則約束（如 " 不要無(wú)腦稱贊用戶 "）來(lái)避免生成套路化或迎合性回答。

這個(gè)機(jī)制不僅增強(qiáng)了模型的自我反饋能力，也能將客觀任務(wù)中的評(píng)估信號(hào)遷移到主觀對(duì)話場(chǎng)景（如回答開(kāi)放性問(wèn)題等人類主觀評(píng)判場(chǎng)景），形成閉環(huán)優(yōu)化。

第三，為了更高效、穩(wěn)定地進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，K2 還對(duì)算法進(jìn)行了多項(xiàng)改進(jìn)。

包括但不限于下面這些：

預(yù)算控制機(jī)制：限制每個(gè)樣本的最大 token 數(shù)，避免生成啰嗦、重復(fù)或無(wú)意義的長(zhǎng)文本。

引入 PTX 輔助損失：使用高質(zhì)量預(yù)訓(xùn)練樣本時(shí)再加一個(gè)損失項(xiàng)，以防模型在 RL 階段 " 遺忘 " 已有知識(shí)。

溫度衰減策略：訓(xùn)練初期用高溫度鼓勵(lì)模型大膽嘗試、廣泛探索，后期逐步降低溫度，讓模型輸出更穩(wěn)定、更收斂。

最后據(jù)論文介紹，K2 的訓(xùn)練依托于由 NVIDIA H800 構(gòu)成的大規(guī)模高帶寬 GPU 集群，通過(guò)混合并行策略，既保證了訓(xùn)練效率，又能在不同規(guī)模資源下靈活適配。

每個(gè)節(jié)點(diǎn)配備 2TB 內(nèi)存，并通過(guò) NVLink 和 NVSwitch 將 8 塊 GPU 在節(jié)點(diǎn)內(nèi)部高速互聯(lián)。不同節(jié)點(diǎn)之間則使用 8 × 400 Gbps 的 RoCE 網(wǎng)絡(luò)互聯(lián)，以實(shí)現(xiàn)節(jié)點(diǎn)間的高效通信。

One More Thing

就在剛剛，阿里通義 Qwen3 模型也更新了——

正式由 Qwen3-235B-A22B 更新至Qwen3-235B-A22B-2507。

官方表示，他們停用了混合思維模式，改為分別訓(xùn)練 Instruct 和 Thinking 模型以提升質(zhì)量，并正式發(fā)布性能更強(qiáng)的 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本。

而且官方測(cè)評(píng)顯示，最新版 Qwen3 又擊敗了 Kimi K2 模型，開(kāi)源新王或?qū)⒃俅我字鳌?/p>

參考鏈接：

[ 1 ] https://x.com/timfduffy/status/1947424245463847417

[ 2 ] https://x.com/thomasahle/status/1947421078524969107

[ 3 ] https://x.com/nrehiew_/status/1947420382312730706

[ 4 ] https://x.com/Alibaba_Qwen/status/1947344511988076547

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群，只聊 AI 產(chǎn)品最落地的真問(wèn)題 掃碼添加小助手，發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群～

進(jìn)群后，你將直接獲得：

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門(mén)產(chǎn)品內(nèi)測(cè)碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai gpu

相關(guān)閱讀

又一知名快餐品牌入局，要跟瑞幸、星巴克搶生意

財(cái)經(jīng)新聞 45分鐘前

實(shí)在是厲害！MacBook觸控板秒變電子秤：只需一款開(kāi)源軟件

數(shù)碼測(cè)評(píng) 4小時(shí)前

稱親自開(kāi)上了陡坡余承東曬享界S9T實(shí)車：顏值與實(shí)力并存

快科技 56分鐘前

紅魔10 Air烈焰橙12+256G上線：紅魔最薄真全面屏 3149元

快科技 20分鐘前

vivo在印度市場(chǎng)連續(xù)4季度銷量奪冠：Q2狂銷810萬(wàn)臺(tái)

快科技 32分鐘前

iPhone 17 Pro 的新屏幕，幫你立省 99 塊

愛(ài)范兒 1小時(shí)前

挑戰(zhàn)谷歌地位 Perplexity欲手機(jī)上預(yù)裝 AI 瀏覽器

21世紀(jì)經(jīng)濟(jì)報(bào)道 1小時(shí)前

CPO+華為，Ta全資子公司光模塊廠商全球排名第八，已推出3.2T模塊解決方案

財(cái)聯(lián)社 3小時(shí)前

NVIDIA筆記本CPU突遭變故推遲！三點(diǎn)原因曝光：微軟也要背鍋

快科技 3小時(shí)前

215克全球最輕！三星Galaxy Z Fold7全面評(píng)測(cè)：新一代折疊霸主誕生

快科技 4小時(shí)前

芯寒智能完成數(shù)千萬(wàn)元種子輪融資，推動(dòng)下一代算力散熱方案落地

鈦媒體 4小時(shí)前

中信證券：ASIC行業(yè)有望保持寡頭壟斷的競(jìng)爭(zhēng)格局

36氪 6小時(shí)前

技術(shù)路線再獲重大突破！這一板塊未來(lái)3-5年有望迎來(lái)招標(biāo)關(guān)鍵窗口期

鈦媒體 6小時(shí)前

蔚來(lái)點(diǎn)了杯茶顏悅色，喝起來(lái)……

autocarweekly 1小時(shí)前

最新評(píng)論

沒(méi)有更多評(píng)論了

量子位

訂閱

覺(jué)得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門(mén)推薦

Blockchain News

<table id="4aqmc"><xmp id="4aqmc"></xmp></table>

<abbr id="4aqmc"><optgroup id="4aqmc"></optgroup></abbr>

<samp id="4aqmc"><strong id="4aqmc"></strong></samp><abbr id="4aqmc"><optgroup id="4aqmc"></optgroup></abbr>

<button id="4aqmc"><strong id="4aqmc"></strong></button>