中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作

      華為首個(gè)開(kāi)源大模型來(lái)了!Pro MoE 720 億參數(shù),4000 顆昇騰訓(xùn)練

      國(guó)產(chǎn)大模型開(kāi)源競(jìng)爭(zhēng)進(jìn)入新階段,華為首次開(kāi)源盤(pán)古大模型核心能力。

      6 月 30 日,華為宣布開(kāi)源盤(pán)古 70 億參數(shù)稠密模型和盤(pán)古 Pro MoE 720 億參數(shù)混合專(zhuān)家模型,同時(shí)開(kāi)放基于昇騰的模型推理技術(shù)。這是華為首次將盤(pán)古大模型的核心能力對(duì)外開(kāi)源。

      華為表示,720 億參數(shù)的盤(pán)古 Pro MoE 模型在昇騰 800I A2 上實(shí)現(xiàn)單卡 1148 tokens/s 的推理吞吐性能,通過(guò)投機(jī)加速技術(shù)可進(jìn)一步提升至 1528 tokens/s,顯著優(yōu)于同等規(guī)模的稠密模型。

      此次開(kāi)源正值國(guó)產(chǎn)大模型開(kāi)源浪潮興起之際。繼 DeepSeek-R1 成功后,MiniMax、阿里巴巴、月之暗面等頭部廠商陸續(xù)升級(jí)開(kāi)源模型,推動(dòng)大模型價(jià)格下探 60%-80%,加速應(yīng)用普及。

      模型引入 " 快思考 " 和 " 慢思考 " 雙系統(tǒng)

      華為此次開(kāi)源包括三個(gè)主要組件:盤(pán)古 Pro MoE 72B 模型權(quán)重和基礎(chǔ)推理代碼已正式上線開(kāi)源平臺(tái),基于昇騰的超大規(guī)模 MoE 模型推理代碼同步發(fā)布,盤(pán)古 7B 相關(guān)模型權(quán)重與推理代碼將于近期上線。

      據(jù)開(kāi)源開(kāi)發(fā)者平臺(tái) GitGo 信息,盤(pán)古 Pro MoE 基于 MoGE 架構(gòu)構(gòu)建,總參數(shù)量 720 億,激活參數(shù)量 160 億。該模型專(zhuān)門(mén)針對(duì)昇騰硬件優(yōu)化,在昇騰 300I Duo 推理服務(wù)器上提供極具性?xún)r(jià)比的模型推理方案。

      根據(jù)華為官方介紹,盤(pán)古 Embedded 7B 模型引入 " 快思考 " 和 " 慢思考 " 雙系統(tǒng),簡(jiǎn)單問(wèn)題用快速模式響應(yīng),復(fù)雜問(wèn)題用深度模式推理,可自動(dòng)切換。

      方案在專(zhuān)家選擇階段采用分組機(jī)制,具體來(lái)說(shuō),先將專(zhuān)家劃分為若干等規(guī)模的分組,再?gòu)拿總€(gè)分組中選取相同數(shù)量的專(zhuān)家進(jìn)行激活。在典型的分布式部署中,每個(gè)專(zhuān)家分組對(duì)應(yīng)獨(dú)立的計(jì)算設(shè)備,從而 MoGE 天然地實(shí)現(xiàn)了跨設(shè)備的計(jì)算負(fù)載均衡。這一設(shè)計(jì)顯著提升了訓(xùn)練和推理場(chǎng)景下的系統(tǒng)吞吐量。

      在預(yù)訓(xùn)練階段,華為使用了 4000 個(gè)昇騰 NPU,在包含 13 萬(wàn)億 tokens 的高質(zhì)量語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,分為通用、推理和退火三個(gè)階段,逐步提升模型能力。

      在后訓(xùn)練階段,其通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步增強(qiáng)推理能力,還采用了檢查點(diǎn)合并等技術(shù)優(yōu)化模型。

      最終,盤(pán)古 Pro MoE 在昇騰 800I A2 上實(shí)現(xiàn)了單卡 1148 tokens/s 的推理吞吐性能,并可進(jìn)一步通過(guò)投機(jī)加速等技術(shù)提升至 1528 tokens/s,顯著優(yōu)于同等規(guī)模的 320 億和 720 億個(gè)參數(shù)的稠密模型;在昇騰 300I Duo 推理服務(wù)器上,華為也實(shí)現(xiàn)了極具性?xún)r(jià)比的模型推理方案。

      千億內(nèi)總參數(shù)模型中處于領(lǐng)先

      華為表示,昇騰 NPU 能夠支持盤(pán)古 Pro MoE 的大規(guī)模并行訓(xùn)練。多項(xiàng)公開(kāi)基準(zhǔn)測(cè)試結(jié)果表明,盤(pán)古 Pro MoE 在千億內(nèi)總參數(shù)模型中處于領(lǐng)先地位。

      在英文基準(zhǔn)領(lǐng)域,盤(pán)古 Pro MoE 在 MMLU-PRO 上以顯著優(yōu)勢(shì)超越當(dāng)前主流的稠密模型(包括 Qwen3-32B、GLM-Z1-32B 和 Gemma3-27B)及 MoE 架構(gòu)的 Llama4-Scout 模型,創(chuàng)下新的性能標(biāo)桿。

      在閱讀理解領(lǐng)域,盤(pán)古 ProMoE 于 DROP 基準(zhǔn)測(cè)試中獲得 91.2 的優(yōu)異成績(jī),與當(dāng)前最優(yōu)的 Qwen3-32B 模型(91.3)基本持平,充分驗(yàn)證其具備與前沿模型相當(dāng)?shù)挠⑽奈谋纠斫馀c推理能力。

      在中文領(lǐng)域評(píng)估中,盤(pán)古 Pro MoE 展現(xiàn)出專(zhuān)業(yè)化的語(yǔ)言理解優(yōu)勢(shì)。

      具體而言,在知識(shí)密集型評(píng)測(cè) C-Eval(EM)中,盤(pán)古 Pro MoE 以 91.1 的卓越成績(jī)超越 Qwen3-32B(89.2)等現(xiàn)有百億參數(shù)量級(jí)最優(yōu)模型。針對(duì)中文常識(shí)推理任務(wù),盤(pán)古 Pro MoE 在 CLUEWSC(EM)基準(zhǔn)上取得 94.7 的高分,較 Qwen3-32B(94.6)實(shí)現(xiàn)微幅提升,并明顯領(lǐng)先于 Gemma3-27B(91.3)等其他對(duì)比模型。

      推理基準(zhǔn)盤(pán)古 Pro MoE 在保持高效推理的同時(shí),展現(xiàn)出優(yōu)異的邏輯推理能力。

      代碼生成方面, 在 MBPP+(Pass@1)的指標(biāo)達(dá)到 80.2,與 Qwen3-32B(82.0)處于同一性能區(qū)間。數(shù)學(xué)推理任務(wù)中,MATH-500 測(cè)試以 96.8 分超越 Qwen3-32B(96.6),CNMO2024 基準(zhǔn) Pass@1 指標(biāo) 70.8 亦較后者(70.4)提升 0.4 分。特別在 SuperGPQA 復(fù)雜問(wèn)題解答基準(zhǔn)中,54.8 的 Pass@1 得分顯著優(yōu)于 GLM-Z1-32B(52.6)和 Qwen3-32B(49.8)等稠密模型。

      值得注意的是,在僅激活 160 億參數(shù)的配置下,盤(pán)古 Pro MoE 的推理能力即可媲美 320 億(32B)量級(jí)的先進(jìn)模型。這種高效率源于創(chuàng)新的 MoGE 架構(gòu)設(shè)計(jì),該架構(gòu)在保證邏輯推理精度的同時(shí),保障了高效的推理速度。

      " 工業(yè)奇跡 "

      根據(jù) SuperCLUE 中文大模型基準(zhǔn)測(cè)評(píng) 5 月的數(shù)據(jù),盤(pán)古 72B 在開(kāi)源排行榜中位列第五,總分為 58.75 分,超越 Qwen3-14B、Qwen3-8B,僅次于 DeepSeek-R1 滿(mǎn)血版、DeepSeek-V3 滿(mǎn)血版以及 Qwen3-32B 和 235B。

      有媒體評(píng)論稱(chēng),華為通過(guò)從芯片(昇騰 NPU)、到框架(MindSpore),再到模型(盤(pán)古)形成了完整的垂直整合體系。昇騰和盤(pán)古生態(tài)系統(tǒng)是一項(xiàng)里程碑式的技術(shù)成就。它證明在英偉達(dá)主導(dǎo)的單一產(chǎn)業(yè)格局之外,存在一種可行的高性能替代方案。

      國(guó)產(chǎn)大模型開(kāi)源競(jìng)爭(zhēng)加劇

      華為開(kāi)源盤(pán)古大模型正值國(guó)產(chǎn) AI 開(kāi)源浪潮興起。2025 年開(kāi)年,DeepSeek-R1 的成功在全球掀起開(kāi)源風(fēng)潮,隨后國(guó)產(chǎn)大模型開(kāi)源消息接連不斷,涵蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)等多個(gè)領(lǐng)域。

      2025 年 6 月,MiniMax、阿里巴巴、月之暗面等國(guó)內(nèi)頭部大模型廠商陸續(xù)升級(jí)多款開(kāi)源大模型。研究報(bào)告顯示,這些廠商在有限算力支持下,通過(guò)算法升級(jí)促進(jìn)模型性能持續(xù)提升。

      大模型價(jià)格同步快速下探。MiniMax-M1、豆包大模型 1.6 定價(jià)比 DeepSeek-R1 降低約 60%-80%,更高性?xún)r(jià)比將加快應(yīng)用普及速度。華為此次開(kāi)源舉措有望進(jìn)一步推動(dòng)人工智能技術(shù)在千行百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。

      相關(guān)標(biāo)簽

      最新評(píng)論

      沒(méi)有更多評(píng)論了
      全天候科技

      全天候科技

      提供專(zhuān)業(yè)快速完整的科技商業(yè)資訊

      訂閱

      覺(jué)得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門(mén)推薦

      查看更多內(nèi)容