中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      雷鋒網(wǎng) 41分鐘前

      AI 的下一個(gè)戰(zhàn)場:小模型崛起

      過去一段時(shí)間,大模型行業(yè)經(jīng)歷了一場風(fēng)切變。

      八月初,騰訊官宣 " 混元系列小模型 " 落地,不久后,阿里跟進(jìn)了兩款通義 Qwen3-4B。

      起初,大家以為只是國內(nèi)大廠對轟,互秀肌肉罷了。

      幾天后,劇情愈演愈烈,大洋彼岸的 OpenAI 也加入戰(zhàn)斗,破天荒開源 gpt-oss-20B 等兩款模型,同樣聚焦在小模型上。

      頭部玩家們?nèi)绱苏R劃一的舉動(dòng),很難讓人不浮想翩翩:

      在大集群訓(xùn)練、大集群部署之外,小模型要重回舞臺中央。

      小模型重回大眾視野

      小模型不是一個(gè)新名詞。

      但這次回歸的,不是停留在論文上的小模型,而是真正落地在終端的小模型。

      在 2020 年 GPT-3 發(fā)布之前,全世界都在訓(xùn)小模型,只不過大多數(shù)小模型成果,都在論文里或者實(shí)驗(yàn)室里,屬于普羅大眾眼里紙上談兵的 " 小模型 "。

      但 GPT-3 連帶著 ChatGPT 橫空出世,從學(xué)術(shù)界出圈,成為了人工智能領(lǐng)域史詩級的商業(yè)化產(chǎn)品。

      有了資本加持,人工智能的發(fā)展從「大煉模型」邁入了「煉大模型」時(shí)代。

      2021 年到 2024 年,AI 的技術(shù)路線可以總結(jié)成五個(gè)字:大力出奇跡 "。

      堆數(shù)據(jù),堆算力,打補(bǔ)丁,改 prompt,以及做 post training 的大模型思路,成了人工智能的正統(tǒng),小模型至此徹底被雪藏了。

      但去年底,OpenAI 的前首席科學(xué)家 Ilya Sutskever 正式預(yù)警:「數(shù)據(jù)壓榨到頭了」。

      大家逐漸意識到,數(shù)據(jù)會枯竭,算力永遠(yuǎn)不夠。

      于是今年開始,大模型領(lǐng)域玩家開始分化。

      除了一部分頭部玩家仍追隨 OpenAI 的腳步,死磕大參數(shù)基模外,剩下很多燒不起錢的玩家開始轉(zhuǎn)頭擁抱應(yīng)用端。

      然而,在這兩個(gè)主流之外,還有一小撮 " 非共識 " 的玩家,把目光落在了小模型上。

      但這次,不少創(chuàng)業(yè)公司重新拾起的小模型,和文章開頭提到 ChatGPT 出現(xiàn)前十年間停留在論文上的小模型完全不一樣。

      它們是真正落地在終端的小模型,并且有了另一個(gè)名字:

      端側(cè)小模型或端側(cè)智能。

      嶄露頭角的端側(cè)小模型公司們

      今年以來,不少端側(cè)小模型已經(jīng)開始嶄露頭角了。

      前一段的 WAIC 上,西門子 MindSphere 展臺上圍滿了專業(yè)觀眾。

      大家正在看一個(gè)展臺上一個(gè)小于 50MB 的端側(cè)部署小模型,它能夠預(yù)測現(xiàn)場的三臺沖壓設(shè)備故障,并發(fā)出警報(bào)。

      在這之前,車間里沖壓機(jī)床只有累到趴窩才會被工人察覺,緊接著就需要停擺檢修,造成全車間流水線暫停,帶來巨大人力和財(cái)力損失。

      因此在沖壓機(jī)床出故障前,預(yù)警功能就非常重要。

      面對這樣的小場景,大模型算力再強(qiáng),moe 結(jié)構(gòu)設(shè)計(jì)再精妙,也無法處理。

      但這樣一個(gè)精準(zhǔn)的端側(cè)小模型,就能夠輕松應(yīng)對。

      這就是落地在終端小模型的冰山一角。

      在這條窄路上前進(jìn)的,還有一些獨(dú)角獸公司,比如 base 北京的 AI 初創(chuàng)公司面壁智能。

      之所以關(guān)注這家企業(yè),是因?yàn)檫@家公司今年五月的一次成功融資。

      在 DeepSeek 大火后,國內(nèi)大模型公司融資難度堪比抵地獄級。一方面是行業(yè)共識認(rèn)為大模型已收斂,另一方面,有 DeepSeek 珠玉在前,你實(shí)在太難說服投資人為什么要投你了。

      但面壁智能卻能持續(xù)拿到融資。

      我問了很多業(yè)內(nèi)人士,得到一個(gè)答案,關(guān)鍵在于它早早找到了自己的道路:小模型。

      AI 科技評論獨(dú)家知悉,就在這幾天,面壁的全體員工,收到了一封特殊的 " 內(nèi)部信 "。

      郵件來自公司決策層,借著公司三周年周慶,高層向全體員工回答了一個(gè)問題:為什么公司從大模型切入,卻 all in 端側(cè)小模型?

      郵件講述了一些底層思考,內(nèi)容非常爆炸,即使是外人看來,也能從一家 AI 初創(chuàng)公司的生存視角,有所收獲。

      按照郵件內(nèi)的時(shí)間節(jié)點(diǎn)描述,面壁智能的創(chuàng)立初期是 100% 堅(jiān)定大模型方向的。

      它的創(chuàng)立時(shí)間是 2022 年,甚至早于 DeepSeek。

      創(chuàng)始團(tuán)隊(duì)出身于清華系,來自清華大學(xué)自然語言處理實(shí)驗(yàn)室。

      在創(chuàng)立之前,面壁的創(chuàng)始團(tuán)隊(duì)就主力參與北京智源人工智能研究院的 " 悟道 ",從時(shí)間來看,面壁智能應(yīng)該吃到一波融資的紅利,但我們先去分析過,國內(nèi)的 AI 科技 VC 有一些路徑依賴,更愿意選擇一些 " 曾經(jīng)打過勝仗的連續(xù)創(chuàng)業(yè)者 ",導(dǎo)致面壁智能雖然起的大早,但并沒有成為資本的寵兒,而是靠自己硬拚出來的天地。

      2022-2023 年間,面壁一直在死磕大模型,當(dāng)初他們的愿景是做出平民版大模型,我們曾經(jīng)寫過稿件,認(rèn)為他是國內(nèi)和 DeepSeek 愿景最類似的公司。

      當(dāng)然,面壁也做出了不少成績,比如訓(xùn)練出多個(gè)百億、千億參數(shù)規(guī)模的大模型。

      轉(zhuǎn)折點(diǎn)發(fā)生在 2023 年。

      2023 年,隨著 Llama 開源,眾多資本涌入,那一年里,大模型的創(chuàng)業(yè)公司增加到了十幾家。

      面壁智能迅速發(fā)現(xiàn),千億大模型燒錢太快,并且商業(yè)化方面難以落地,于是果斷選擇了調(diào)整戰(zhàn)略,決定轉(zhuǎn)向訓(xùn)練參數(shù)規(guī)模更小、算力更低、但性能更強(qiáng)的端側(cè)模型。

      轉(zhuǎn)型之初,面壁并不容易。

      一方面,端側(cè)智能算是在黑暗中摸索,另一方面,市場上噪音很多,比如 DeepSeek V3 以少勝多的戰(zhàn)役,也曾讓面壁的創(chuàng)始人懷疑,如果堅(jiān)持不轉(zhuǎn)型,是否自己也有機(jī)會在大模型上攀上一座高峰。(后續(xù)的行情,證明面壁智能果斷轉(zhuǎn)型是明智的)

      但彼時(shí),面壁已經(jīng)全盤 all in 端側(cè)小模型,已經(jīng)失去驗(yàn)證 " 更低成本訓(xùn)練更強(qiáng)大模型 " 的機(jī)會了。

      好在小模型并不是邪修,面壁團(tuán)隊(duì)迅速在端側(cè)小模型賽道找到感覺,有了一些自己的思路。

      03 想成為端側(cè)小模型的 " 開拓者 ",并不容易

      從時(shí)間上看,面壁智能不僅比文章開頭提到的 " 混元 " 和 " 通義 Qwen3" 更早開啟小模型的探索,并且在端側(cè)探索上,幾乎是領(lǐng)先行業(yè)一年半的身位。

      提前一年半的布局,讓面壁有不少成果。

      第一是模型層面,面壁的端側(cè)模型被稱為小鋼炮 MiniCPM 系列。

      至今已經(jīng)完成多次迭代,最新的是上周開源的 minicpm v4.0 ,一款 8B 能做到 5% 的極高稀疏度,端側(cè)能跑長文本、深思考,另一款 0.5B 更是能適配非常多的終端場景,能做到手機(jī)端持續(xù)、穩(wěn)定可用,還不發(fā)熱。

      再加上此前做在視覺及實(shí)時(shí)語音對話等優(yōu)化,面壁智能的端側(cè)模型,完全能實(shí)現(xiàn)在 iPad 上進(jìn)行多模態(tài)直播,這意味著,它的使用場景變得異常豐富。

      從麥當(dāng)勞的點(diǎn)餐機(jī)器人,到政府行政服務(wù)中心的服務(wù)機(jī)器人,再到兒童陪伴玩具都能完全能夠勝任。

      除了技術(shù)層面的突破,還有一些學(xué)術(shù)和開源成果。

      上個(gè)月《Nature Communications》正式收錄了面壁智能此前發(fā)布的一項(xiàng)關(guān)于新模型 MiniCPM-V 的研究成果系列。

      其中包括一個(gè) OpenCompass 評分中超越 GPT-4V(2023.11.16 版本)的 80 億參數(shù)模型。

      開源方面,面壁智能的小鋼炮 MiniCPM 系列是 2024 年 Hugging Face 最多下載、最受歡迎中國大模型,截至目前全平臺下載量累計(jì)破 1000 萬,能看到一定的使命感在里面。

      除去技術(shù)層面和學(xué)術(shù)等層面,但真正能讓大家直觀感受的,還是落地到現(xiàn)實(shí)世界的場景。

      社交媒體上經(jīng)常有一些同類型的問題,為什么都說大模型能力早早超越人類,但遲遲沒看到驚艷的落地場景?

      答案在于大模型的能力,需要高性能云服務(wù)器才能發(fā)揮出來。

      但大家平時(shí)生活中使用的手機(jī),平板汽車等設(shè)備,都是算力非常有限的設(shè)備。

      這類型設(shè)備有一個(gè)學(xué)名,叫做 " 邊端算力場景 "。

      而這正是眾多小模型廠家的主場。

      繼續(xù)拿面壁智能舉例。和需要調(diào)用各種云端超高算力的大模型不一樣,面壁的小鋼炮系列模型,能在消費(fèi)級顯卡上流暢運(yùn)行。

      這就意味著手機(jī),個(gè)人電腦,汽車,機(jī)器人,甚至是剛才提到的工廠環(huán)境,以及一些涉密的政府部門等等都可以部署。

      " 不僅把模型的配置門檻打下來了,使用場景還變得更豐富了 "。

      在面壁智能的內(nèi)部信上,也提到了這些場景。

      首先是汽車場景,面壁智能圍繞著智能座艙,發(fā)布了一個(gè)以 MiniCPM 模型為核心汽車助手 cpmGO 。

      我查了一下,這是業(yè)界第一個(gè)純端側(cè)的智能座艙。(雷峰網(wǎng))

      目前 cpmGO ,已經(jīng)與長安、上汽大眾、長城、吉利、廣汽等車企談完合作了。

      不出意外,第一款量產(chǎn)車會落在今年三季度即將上市的網(wǎng)紅車款長安馬自達(dá) MAZDA EZ-60 上。

      不止是車企,面壁還與高通、英特爾、聯(lián)發(fā)科技、梧桐車聯(lián)、德賽西威、中科創(chuàng)達(dá)、安波福等做了深度適配,正在推動(dòng)下一代智能座艙的誕生。

      這一點(diǎn),面壁高層非常重視,根據(jù)內(nèi)部信的內(nèi)容,面壁今年為此特地成立了汽車業(yè)務(wù)線,目標(biāo)非常簡單粗暴:

      " 將 MiniCPM 搭載到更多汽車上 "。

      從某種意義上,面壁確實(shí)在端側(cè)的技術(shù)探索和實(shí)踐落地上,在努力成為行業(yè)開拓者的角色。

      最后,當(dāng)我們在寫這篇文章的時(shí)候得知,前面提到那個(gè)西門子展臺的沖壓機(jī)床預(yù)警小模型,經(jīng)過幾個(gè)月的真實(shí)產(chǎn)線的數(shù)據(jù)訓(xùn)練,預(yù)測準(zhǔn)確率已經(jīng)提升到 89%,隨著時(shí)間積累,準(zhǔn)確度還在不斷提高中。

      與此同時(shí),面壁智能的全體員工,也在對這份內(nèi)部信進(jìn)行了深度復(fù)盤。

      過去,大模型領(lǐng)域在資本的加持下,蒙眼狂奔,讓我們誤以為 AGI 很快會到來,不做大模型就是原罪。

      但當(dāng)頭部大模型企業(yè)開始進(jìn)入瓶頸期,我們也冷靜下來才逐漸看到,有那么多端側(cè)小模型企業(yè),正在腳踏實(shí)地去思考人類到底喜歡什么,大眾到底需要什么,然后反推出背后的技術(shù)路線,做出小而美的落地產(chǎn)品。

      它們值得被看到。(雷峰網(wǎng))

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了