中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<style id="bygwv"><acronym id="bygwv"><button id="bygwv"></button></acronym></style>

<tfoot id="bygwv"><font id="bygwv"></font></tfoot>

<sub id="bygwv"></sub>

鈦媒體 31分鐘前

深聊 GPT-5 發(fā)布：過度營銷的反噬與 AI 技術(shù)困局

文 | 硅谷101

GPT-5上線次日，OpenAl在一片用戶的批評聲中宣布向付費(fèi)用戶恢復(fù) GPT-4o。

與GPT-3到GPT-4的驚艷跨越相比，GPT-5的發(fā)布略顯匆忙：翻車的數(shù)據(jù)圖表、帶bug的代碼演示、誤導(dǎo)的"博士級(jí)"科學(xué)原理解釋，以及作為核心技術(shù)更新的"Router"（路由器）也被硅谷AI從業(yè)者指出是已經(jīng)存在好幾年的技術(shù)。

從內(nèi)部代號(hào)Q-Star到Orion項(xiàng)目的接連受挫，從數(shù)據(jù)匱乏到模型崩潰的技術(shù)困境，OpenAI正面臨前所未有的挑戰(zhàn)。

但不可否認(rèn)的是，作為一款產(chǎn)品，GPT-5有著明顯進(jìn)步以及對用戶交互的進(jìn)一步優(yōu)化。ChatGPT正打入更多垂類領(lǐng)域，朝著"AI超級(jí)應(yīng)用"產(chǎn)品進(jìn)發(fā)。而一場搶占市場份額、爭奪企業(yè)訂單的價(jià)格戰(zhàn)，也在頭部大模型公司之間正式開打。

本期文章，我們將深入聊聊GPT-5發(fā)布背后的技術(shù)困境、商業(yè)焦慮與未來趨勢。

OpenAI為什么引發(fā)外界這么多的吐槽？GPT-5的開發(fā)過程遇到了哪些技術(shù)瓶頸，最終選擇了什么架構(gòu)來攻克？作為產(chǎn)品的ChatGPT，為什么選擇進(jìn)軍教育、健康醫(yī)療和編程市場？

而更令人擔(dān)憂的是，AI scaling law已經(jīng)碰壁，強(qiáng)化學(xué)習(xí)、多模態(tài)能力和新架構(gòu)范式能否為AI發(fā)展指明新的方向？

01 GPT-5發(fā)布會(huì)：漏洞百出，突破放緩

說實(shí)話，外界對GPT-5的發(fā)布非常期待。原因很簡單：GPT-4發(fā)布已經(jīng)是兩年半之前的事情了，而外界已經(jīng)等新一代模型很久了。

但總結(jié)來說，GPT-3到GPT-4的能力跨越太過驚艷——所謂的"ChatGPT Moment"。

這樣的"Wow moment"（驚艷時(shí)刻）是這一輪生成式AI技術(shù)革命的基礎(chǔ)，但GPT-4到GPT-5的能力跨越，卻遠(yuǎn)沒有達(dá)到外界的期待。

朱哲清

前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人

Pokee AI創(chuàng)始人兼CEO：

你要橫向?qū)Ρ?，就是GPT4和當(dāng)年GPT3的對比，這個(gè)的是天和地的區(qū)別，對吧？GPT4跟GP5如果你是以同樣的標(biāo)準(zhǔn)來做對比的話，其實(shí)差距是沒有那么大的。就是它可能是一個(gè)在我看來是個(gè)改進(jìn)，而不是一個(gè)階段性變化。

GPT-5發(fā)布了什么呢？

Chapter 1.1 業(yè)內(nèi)推測GPT-5技術(shù)路線

首先，此前新聞爆料，GPT-5會(huì)成為一個(gè)"統(tǒng)一大模型"（unifying system），能強(qiáng)大地將推理、編碼、語音、研究等能力整合進(jìn)單一模型，實(shí)現(xiàn)"既要"和"又要"的用戶需求，將GPT系列和o系列的模型融合，這個(gè)單一模態(tài)架構(gòu)能自動(dòng)調(diào)取相應(yīng)的模型和能力，而不需要用戶之后自己選擇模型了。

雖然OpenAI目前還沒有正式發(fā)布詳細(xì)的GPT-5技術(shù)報(bào)告，但業(yè)內(nèi)的技術(shù)專家們猜測，這其實(shí)不是一個(gè)端到端的超級(jí)大模型，而是由一個(gè)實(shí)時(shí)的"路由器"（Real-time Model Router）來"拼接"下面的不同子模型。

其實(shí)這個(gè)技術(shù)路線，不是創(chuàng)新也不是突破，早在硅谷初創(chuàng)技術(shù)圈里就存在很久了。

Aiden He

TensorOpera AI聯(lián)合創(chuàng)始人：

GPT-5就是一個(gè)典型的聯(lián)合的系統(tǒng)，它是把已有的GPT-4，o3等推理和非推理的模型串聯(lián)到一起。

它可能是因?yàn)樯虡I(yè)化比較著急吧，我覺得更應(yīng)該把它叫做GPT 4.99，因?yàn)樗窃谒械臍v史上的一個(gè)聚合方案。這個(gè)路由器，其實(shí)并不是一個(gè)很新的東西。

這種路由器的方案主要是一些初創(chuàng)公司在使用，大概有三個(gè)使用場景和原因：

第一，是在手機(jī)這樣的設(shè)備端上，有端上的小模型，也有云端的大模型，簡單的問題用本地模型，復(fù)雜的問題用云端模型，就需要有個(gè)路由器去幫你做選擇。

第二，是初創(chuàng)公司們做模型層之上的開發(fā)和應(yīng)用的時(shí)候，把所有開源和閉源模型聚合起來，把不同的任務(wù)給不同的模型來調(diào)用。

第三，是要去平衡系統(tǒng)的成本，比如說用戶的一些高頻又簡單的提問，像"hello"和"thank you"這種query（查詢）量非常大，光是這種簡單的問題每天都在消耗OpenAI上百萬美元的費(fèi)用，所以這些典型問題都可以直接分發(fā)給非常小的模型去解決。

所以，這些是之前初創(chuàng)企業(yè)們因?yàn)橐?strong>平衡系統(tǒng)成本，開發(fā)和應(yīng)用時(shí)的主要三大使用場景，但如今被GPT-5作為主打技術(shù)突破，讓外界不少人懷疑，一個(gè)端到端訓(xùn)練的超級(jí)大模型路線已經(jīng)觸頂。

而OpenAI不得不開始用這些"取巧"的技術(shù)來解決"產(chǎn)品層面"的問題，而不是AI大模型"智能飛躍"的問題，這是和外界的期待非常相悖的。

當(dāng)然，實(shí)時(shí)路由器也沒有那么好做，整合各種多模態(tài)也有很多技術(shù)上的挑戰(zhàn)，這也可能是發(fā)布推遲的原因之一。

有的模型擅長于數(shù)學(xué)，有的模型擅長于寫作，有的模型擅長于編碼，所以你要根據(jù)用戶的意圖、語言類型、各種各樣的地域位置，包括它的語言偏好去分發(fā)模型，這是一個(gè)非常復(fù)雜的問題。

Jenny Xiao

前OpenAI研究員

Leonis Capital合伙人：

不同的模態(tài)會(huì)有非常不同的計(jì)算需求，以及許多不同的推理需求。例如，如果是語音模塊，它就會(huì)需要非常低的延時(shí)。因?yàn)槿绻舆t太大，你和AI進(jìn)行對話時(shí)就會(huì)變得很尷尬。而其他模塊，比如深度推理或研究，可能會(huì)有兩三分鐘的延時(shí)，甚至更長，有時(shí)候我覺得都有30分鐘。所以把所有這些模態(tài)整合在一起，還要確保產(chǎn)品不卡頓，這是一個(gè)相當(dāng)大的技術(shù)挑戰(zhàn)。

拋開這不是一個(gè)多么酷炫的技術(shù)不談，說實(shí)話，單從用戶角度來看，我本來覺得這點(diǎn)改進(jìn)還挺好的。

因?yàn)橹暗腃hatGPT確實(shí)像個(gè)大雜燴：4o，o3，o4-mini，o4-mini-high，GPT-4.5，GPT-4.1，GPT-4.1-mini，旁邊還有Codex，視頻模型Sora，已經(jīng)agent生態(tài)的GPTs……簡直太亂了。

所以，如果GPT-5能自動(dòng)為我挑選最適合的模型，其實(shí)在用戶交互上是挺重要的。

但這里的關(guān)鍵詞是：你得能選對，且效果得比之前好。

然而，當(dāng)OpenAI取消此前自選模式，在社交媒體上用戶們卻開始集體抗議，很多人認(rèn)為GPT-5沒有4o的親切感，效果甚至不如4o，并且用戶有種被剝奪了選擇權(quán)的感受，所以在X上，非常多用戶集體呼吁"讓4o回來，不然就注銷ChatGPT賬號(hào)。"

這也讓OpenAI CEO Sam Altman不得不在周末之前回應(yīng)，保證將上線更多定制化的功能和內(nèi)容，并持續(xù)對GPT-5進(jìn)行改進(jìn)。

OpenAI在這次發(fā)布會(huì)中，一直在強(qiáng)調(diào)要給用戶的不是"more information""越多的信息不一定是越好的"，而是要給"just right"的信息，"剛剛好的、適合"的信息。

這個(gè)出發(fā)點(diǎn)看起來沒有什么問題，但在技術(shù)上，怎么去定義"just right"，什么是"剛剛好"，還蠻有爭議的。關(guān)于GPT-5的優(yōu)化，我們也會(huì)繼續(xù)關(guān)注。

接下來，我們再聊聊這次發(fā)布會(huì)上，OpenAI展示的三個(gè)應(yīng)用場景：教育，健康醫(yī)療以及編程。

毫無疑問，這將是OpenAI進(jìn)軍商業(yè)化的主要三個(gè)戰(zhàn)場。

Chapter 1.2 三大垂直應(yīng)用場景

在發(fā)布會(huì)上，OpenAI展示了用多模態(tài)學(xué)習(xí)韓語的場景，效果確實(shí)看上去挺絲滑的：語音模型進(jìn)一步升級(jí)，可以實(shí)時(shí)加快放慢，感覺會(huì)是非常好的教育交互場景。

GPT-5的玩法更加升級(jí)。你還可以讓ChatGPT直接給你做個(gè)學(xué)法語的網(wǎng)頁，或者小游戲應(yīng)用，幾分鐘時(shí)間，記憶閃卡、單詞測驗(yàn)、進(jìn)度追蹤等等功能應(yīng)有盡有。

所以我們看到語言學(xué)習(xí)公司多鄰國股價(jià)在GPT-5發(fā)布會(huì)期間就開始大幅度震蕩，本來因?yàn)樨?cái)報(bào)非常好出現(xiàn)盤中大漲，但OpenAI發(fā)布會(huì)之后開始一路狂跌，也是市場在質(zhì)疑，ChatGPT在之后會(huì)搶奪多少教育市場的份額。

我認(rèn)為教育是OpenAI非常明確的一個(gè)垂直領(lǐng)域。ChatGPT剛推出時(shí)，基本上把Chegg給"干掉"了。Chegg是一家教育公司，學(xué)生主要用它從同伴那里抄作業(yè)。ChatGPT推出后，學(xué)生們就覺得，我們好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用戶，你會(huì)發(fā)現(xiàn)很多都是學(xué)生，而且在暑假期間，OpenAI的使用量會(huì)大幅下降。接著，OpenAI最近推出了"學(xué)習(xí)"功能，我覺得這個(gè)功能更多是針對那些想隨便學(xué)學(xué)或者是探索某個(gè)主題的人。

就語言學(xué)習(xí)而言，我一直在用ChatGPT練習(xí)粵語，我感覺它效果非常好。我以前是用多鄰國，但我覺得OpenAI比多鄰國自由度高得多，因?yàn)槟憧梢杂肙penAI探索任何話題。我認(rèn)為OpenAI肯定會(huì)去切入這些（語言學(xué)習(xí)）公司的營收領(lǐng)域，因?yàn)樵贑hatGPT的原生環(huán)境下，復(fù)刻它們的模式實(shí)在太容易了。

另外，OpenAI強(qiáng)調(diào)的市場蛋糕還有健康醫(yī)療領(lǐng)域。因?yàn)镚PT-5號(hào)稱有著博士級(jí)別的能力，所以在醫(yī)療健康領(lǐng)域，也能夠?qū)I(yè)的癌癥診斷報(bào)告做通俗易懂的解讀。

在發(fā)布會(huì)中，OpenAI請到一名女性癌癥患者，她分享到說，去年被診斷出癌癥病情，收到的報(bào)告有許多醫(yī)學(xué)術(shù)語，她讓ChatGPT先幫助她厘清資訊，并與醫(yī)生的評估進(jìn)行比對，再做出關(guān)鍵決策。

而她也形容說，GPT-5更快速、更完整，在整個(gè)治療過程中，讓她覺得有了一個(gè)"伙伴"。

這一點(diǎn)我也感觸蠻深的。醫(yī)療領(lǐng)域是一個(gè)醫(yī)生和患者知識(shí)差距巨大的行業(yè)，因?yàn)檫@樣的知識(shí)差距，導(dǎo)致了兩者關(guān)系的不平衡，患者通常沒有選擇。

我最近身邊有個(gè)好朋友進(jìn)了重癥監(jiān)護(hù)室，陷入昏迷整整五天，她家人剛開始除了每天去醫(yī)院求醫(yī)生，感覺什么都做不了，但很快用上了AI，開始對病情和治療方案各種學(xué)習(xí)和討論，之后感覺和醫(yī)生交流的時(shí)候障礙變小了很多，在做出一些關(guān)鍵決策的時(shí)候也心里更有底了。

我覺得這就是技術(shù)的光明面：賦予人們自主權(quán)。

而健康醫(yī)療行業(yè)占據(jù)美國GDP的18%左右，是巨大的市場，OpenAI不會(huì)放過這個(gè)市場。

同時(shí)，我們看到全球AI醫(yī)療市場也在井噴式發(fā)展。市場預(yù)測，全球AI醫(yī)療領(lǐng)域規(guī)模會(huì)從2024年的26.69億美元飆升至2030年的188.38億美元，年復(fù)合增長率高達(dá)38.62%。

包括OpenAI參與投資的、專注于利用AI減輕醫(yī)療專業(yè)人員行政負(fù)擔(dān)的初創(chuàng)公司Ambience Healthcare最近C輪融資2.43億美元，邁進(jìn)獨(dú)角獸行列。所以我們接下來會(huì)看到OpenAI在醫(yī)療健康領(lǐng)域的進(jìn)一步動(dòng)作。

另外一個(gè)GPT-5要打的核心商業(yè)戰(zhàn)爭，就是編程市場了。

無論是低提示詞的非專業(yè)用戶場景，還是專業(yè)編程場景，都展現(xiàn)出代碼能力的強(qiáng)勢升級(jí)。

同時(shí)，OpenAI來請到了最炙手可熱的AI編程初創(chuàng)公司Cursor CEO到現(xiàn)場分享如何用GPT-5打造出最高效的編程體驗(yàn)。

這里能看出，自從Anthropic開啟了Claude Code產(chǎn)品之后，AI coding初創(chuàng)公司就開始紛紛站隊(duì)了。

之前OpenAI本來想買Windsurf沒買成，我們之前也出了視頻跟大家講了這個(gè)狗血的收購大瓜，現(xiàn)在Cursor明顯站隊(duì)OpenAI一起來打Claude，這是一輪新的編程市場爭奪戰(zhàn)。

Anthropic其實(shí)做了很多很多事情，它在開發(fā)者社區(qū)的影響力，我覺得會(huì)大于GPT-5；GPT-5可能大家會(huì)做應(yīng)用，各種東西PoC（Proof of Concept,概念驗(yàn)證）快速起步，但是一些專業(yè)的開發(fā)者可能還是比較喜歡Anthropic，所以它一定是各有所長。但就算是OpenAI主打及自夸"世界最強(qiáng)"的編程場景，其實(shí)也讓很多人失望。

我可能本來的預(yù)期可能在于，比如說在代碼領(lǐng)域，它單一模型可以直接端到端，從架構(gòu)到寫每一個(gè)前端、后端代碼，到它知道選擇什么工具，到我怎么把這些東西都串聯(lián)起來，然后自行測試。完成測試以后，可能回過頭來再去改自己的代碼，類似于有這樣的一個(gè)端到端的能力。從OpenAI的定義上面，能超越它第三階段agentic experience（智能體體驗(yàn)，模型以智能體身份主動(dòng)行動(dòng)）定義，再往上走一點(diǎn)那種感覺。但目前看起來完全沒有?？傮w在我看來，是跟Anthropic的Claude Opus差不多的能力范圍。

Chapter 1.3 錯(cuò)誤百出的發(fā)布會(huì)

同時(shí)，這場發(fā)布會(huì)不得不吐槽的，就是現(xiàn)場出的各種bug了，讓這場萬眾期待的發(fā)布會(huì)顯得特別"草臺(tái)班子"。

這個(gè)時(shí)候，OpenAI得感謝自己還沒有上市，如果是谷歌的發(fā)布會(huì)出現(xiàn)這么多錯(cuò)誤，可能股價(jià)早就蒸發(fā)上千億美元了。

首先在發(fā)布會(huì)直播中，一張展示GPT-5在編程基準(zhǔn)測試（SWE-bench）上性能的圖表出現(xiàn)了嚴(yán)重錯(cuò)誤，圖上，代表GPT-5（52.8%準(zhǔn)確率）的柱狀圖，其高度竟明顯超過了代表舊模型o3（69.1%準(zhǔn)確率）的柱狀圖。

另一款模型4o的柱狀圖與o3的水平位置一模一樣，標(biāo)注的數(shù)字卻是30.8%。這個(gè)錯(cuò)誤低級(jí)到不敢讓人相信是OpenAI的發(fā)布會(huì)。

盡管OpenAI事后在官網(wǎng)上修正了圖，Sam Altman也發(fā)文自嘲了，但這個(gè)圖的火爆和出圈程度直接秒殺Sam Altman之前鋪墊的任何營銷努力。

而更嚴(yán)重的是，這顯示出的不僅僅是匆忙和粗心，更是OpenAI團(tuán)隊(duì)試圖在數(shù)據(jù)呈現(xiàn)上營造出的"巨大進(jìn)步"的假象。

同時(shí)，Benchmark"分?jǐn)?shù)打榜"這件事，也正變得更越來越不重要。

前兩天（OpenAI）剛release（發(fā)布）的open-source model（開源模型），它在Benchmark（基準(zhǔn)測試）上面的performance（表現(xiàn)）也還可以，但是它真正使用起來，它的代碼能力其實(shí)挺拉胯的，它出現(xiàn)了很多的bug，很多代碼都跑不通。

基準(zhǔn)測試"已死"，但新形態(tài)的"基準(zhǔn)測試"又會(huì)死灰復(fù)燃，對吧？所有這些實(shí)驗(yàn)室都非常注重在基準(zhǔn)測試表現(xiàn)上的提升。他們會(huì)為了在某個(gè)特定基準(zhǔn)上提升3%或5%而相互競爭，而且很多研究人員也以模型在這些基準(zhǔn)上的表現(xiàn)為傲。但作為用戶，我的感受是，基準(zhǔn)測試對用戶來說毫無意義。所以我認(rèn)為，下一個(gè)競爭前沿會(huì)主要轉(zhuǎn)向用戶體驗(yàn)。我覺得現(xiàn)在，很難靠原始性能來區(qū)分模型的優(yōu)劣。

另外還有一個(gè)尷尬的細(xì)節(jié)：在演示過程中，GPT-5在解釋"伯努利效應(yīng)"時(shí)，錯(cuò)誤地采用被主流物理學(xué)教材已經(jīng)證偽的"等時(shí)通過理論"。

前一秒Sam Altman還在說，GPT-5是屬于"博士級(jí)別"的AI，后一秒就直接自己打臉，還挺尷尬的。

這顯示出，GPT-5完全沒能識(shí)別過時(shí)的錯(cuò)誤解釋理論，讓外界對這個(gè)新模型的理解和推理能力有了更多的質(zhì)疑。

不過有一說一，在解釋這個(gè)理論時(shí)自動(dòng)產(chǎn)出高質(zhì)量SVG動(dòng)畫與可交互代碼還真的挺酷炫的（感覺對我們的視頻后期之后會(huì)非常有用），也說明OpenAI的多模態(tài)生成能力確實(shí)還是很強(qiáng)的。

我的總體感覺是，OpenAI在嘗試在那么多個(gè)模型發(fā)布之后，想要在這個(gè)階段上站住腳跟，把自己這個(gè)領(lǐng)先地位占住，所以它必須要去做這么一個(gè)發(fā)布。

大概總結(jié)一下GPT-5發(fā)布的重點(diǎn)：GPT-5解決的都是產(chǎn)品層面的問題，并沒有技術(shù)顛覆性的創(chuàng)新，這說明接下來一線大模型的技術(shù)差距也會(huì)進(jìn)一步縮小，大家都用著差不多的方式在把模型能力艱難地往前推，不過就是：堆算力+堆數(shù)據(jù)+高質(zhì)量數(shù)據(jù)篩選+后訓(xùn)練+推理時(shí)長+工具使用。

因此，我也看到一句話說OpenAI從"The One"變成了"One"，從"引領(lǐng)者"變成了前沿模型"之一"。

為什么GPT-5會(huì)這么拉胯？是不是LLM的發(fā)展路徑真的已經(jīng)碰壁了？

02 失敗的"GPT-5們"，Transformer架構(gòu)的發(fā)展瓶頸

GPT-5的訓(xùn)練從很早就開始了，但非常有意思的是，沒有一個(gè)模型在OpenAI從第一天就被命名為GPT-5的。

我們都清楚，OpenAI一直在訓(xùn)練下一代模型，但肯定只有在達(dá)到一個(gè)重要的里程碑后，他們才會(huì)給模型正式命名。GPT-5自2024年以來一直在訓(xùn)練，但只有到達(dá)一個(gè)重大節(jié)點(diǎn)之后，OpenAI才會(huì)將這個(gè)模型命名為GPT-5。

OpenAI在推出GPT-4的時(shí)候，所謂的"下一代大模型"就已經(jīng)在訓(xùn)練當(dāng)中了，但如果這個(gè)模型不夠好，不夠"wow"到大家，那它就注定不能被叫做"GPT-5"。

比如說，在2023年年底就被曝出OpenAI內(nèi)部代號(hào)為"Q Star"或者"Project Q"的項(xiàng)目，但這個(gè)模型后來被稱為"o1"。

OpenAI在另外一個(gè)叫Project Q的項(xiàng)目上投入了很多精力，很多人也叫它Q star。這個(gè)項(xiàng)目在2023年11月左右，也就是Sam Altman那場風(fēng)波期間被泄露了出來，最終成為了o1系列，也就是o系列。這個(gè)項(xiàng)目非常重視思維鏈推理，想要打造推理模型。這個(gè)就是所謂的Q項(xiàng)目。

其實(shí)"O"系列模型還算成功，后來又更新了o3和o4-mini，但依然不能被稱為GPT-5。為什么呢？

The Information在GPT-5發(fā)布之前出了一篇非常重磅的文章，爆料了OpenAI內(nèi)部的這幾次關(guān)鍵的GPT-5研發(fā)挫敗。

其中在談到o系列的時(shí)候說，這樣的推理模型似乎幫助OpenAI克服了預(yù)訓(xùn)練階段性能增長放緩的問題，而且2024年年底的o3母模型（也稱為教師模型）在理解各種科學(xué)領(lǐng)域及其他領(lǐng)域方面，相比o1的母模型取得了顯著的進(jìn)步，當(dāng)然這個(gè)進(jìn)步也是因?yàn)镺penAI用上了更強(qiáng)的英偉達(dá)芯片服務(wù)器。

但奇怪的事情發(fā)生了，當(dāng)OpenAI將o3母模型轉(zhuǎn)換為能讓人們提問的ChatGPT版本（也稱為學(xué)生模型）時(shí)，效果出現(xiàn)了顯著下降，甚至比o1表現(xiàn)好不了多少，同樣的效果下降也出現(xiàn)在了API的模型版本中。

業(yè)界有猜測是因?yàn)?strong>基于人類自然語言的聊天產(chǎn)品形態(tài)拉低了模型的能力水平，限制了AI的發(fā)揮。

Nathan Wang

硅谷101特約研究員

資深A(yù)I Agent開發(fā)者：

可以理解說大模型是理解高維度復(fù)雜內(nèi)容的，但是最終它要跟我們?nèi)祟惤涣鳎蛘呤且阉D(zhuǎn)換成人類理解的文字的時(shí)候，它需要通過這樣降維的方式。就相當(dāng)于一個(gè)高等的生物需要降維，才能跟我們?nèi)祟愡M(jìn)行交流。在這個(gè)降維這個(gè)過程中，其實(shí)它會(huì)損失很多高維度的信息。

包括我們自己其實(shí)也有一些各式各樣的潛意識(shí)層面或者高維度的思考。最終我們要個(gè)人表達(dá)的時(shí)候，是要通過語言，但是語言其實(shí)并不一定真正能夠把我們大腦中的所思所想，全部都很清晰地表達(dá)出來，或者甚至說，有些東西是沒有辦法去表達(dá)的。所以從這一點(diǎn)上來看，當(dāng)你去需要這個(gè)模型通過語言來跟人交流的時(shí)候，在一定程度上拉低了模型自身智能的表現(xiàn)。

除此之外，在o3之后，OpenAI內(nèi)部有一個(gè)代號(hào)為"Orion"的項(xiàng)目，在今年2月份推出，但也沒有掀起什么水花，估計(jì)OpenAI對它的信心也不大，所以也沒有把GPT-5的名字給它，而是叫了"GPT-4.5"。

我個(gè)人認(rèn)為最大的挑戰(zhàn)仍然在于預(yù)訓(xùn)練，因?yàn)樵缭谌ツ昴甑?，甚至更早的時(shí)候，scaling law就已經(jīng)碰壁，因?yàn)槲覀冋诤谋M高質(zhì)量且多樣化的人類生成的數(shù)據(jù)。缺乏數(shù)據(jù)是OpenAI的Orion項(xiàng)目延期的最大因素。有些人會(huì)稱這個(gè)項(xiàng)目失敗了，有些人則會(huì)說是延期。但本質(zhì)上，在OpenAI訓(xùn)練Orion系列模型時(shí)，他們就已經(jīng)遇到了缺乏高質(zhì)量、多樣化數(shù)據(jù)的問題。他們最終是用由OpenAI的o1模型生成的合成數(shù)據(jù)來訓(xùn)練Orion系列，但結(jié)果仍然沒有達(dá)到人們的預(yù)期。

我覺得OpenAI 4.5（也就是Orion模型）會(huì)沒那么成功，是因?yàn)樗娴臎]有帶來讓人眼前一亮的突破。就好比幾乎沒有人特別關(guān)注4.5版本。

同時(shí)，The Information的報(bào)道中說，2024年下半年，Orion沒能成功的部分原因在于其預(yù)訓(xùn)練階段的局限性。

同時(shí)，OpenAI還發(fā)現(xiàn)對Orion模型做的優(yōu)化在模型較小的時(shí)候有效，但當(dāng)模型規(guī)模增大時(shí)，這些優(yōu)化就不再有效了——模型訓(xùn)練的不確定性仍然非常大，有很多的因素會(huì)導(dǎo)致模型訓(xùn)練的失敗。

之前在硅谷101的播客錄制中，我們的嘉賓Bill Zhu也跟我們分享了訓(xùn)練模型中會(huì)出現(xiàn)很多模型崩潰的情況，甚至可能會(huì)在強(qiáng)化學(xué)習(xí)過程中出現(xiàn)所謂的"災(zāi)難性遺忘"。

你是不可以無限制訓(xùn)練模型本身的，就是你訓(xùn)練到某一個(gè)程度它就會(huì)fall apart（崩潰）。其實(shí)在RL領(lǐng)域之前很經(jīng)?？吹浇衏atastrophic forgetting（災(zāi)難性遺忘）——在你訓(xùn)練很久很久以后，它開始忘記所有過往學(xué)到的知識(shí)，然后整個(gè)模型像瘋了一樣，所有原來的policy（決策策略）都消失。

這是為什么你一開始模型要變得足夠大，其實(shí)就像海綿一樣，然后你往里面不停地注水，然后你注水注到一定程度它滿了，那你再往里面注水，就會(huì)流出來一些，但流出來的不一定是注入的水，很有可能是原來已經(jīng)有的一部分水，甚至是很重要的水。

就像你大腦里面不停地灌輸知識(shí)，然后最后過載了，把加減乘除忘了，那剩下的所有知識(shí)體系就直接fall apart（崩潰）。這個(gè)問題本身叫model plasticity（模型可塑性），就是說它的可塑性到了某種程度就直接崩潰了，然后你要怎么去解決這個(gè)問題？叫Continual Learning（持續(xù)學(xué)習(xí)），現(xiàn)在可能你有一天會(huì)人類生成一個(gè)terabyte of data（1TB的數(shù)據(jù)），那10天是10 個(gè)terabyte（TB），那未來可能生成數(shù)據(jù)還會(huì)越來越多，那你怎么能夠用一個(gè)模型無限地去訓(xùn)練它，讓它仍然能夠?qū)ξ磥淼闹R(shí)進(jìn)行獲取？這是不可能的。

這樣看來，以Transformer架構(gòu)為基礎(chǔ)的LLM模型發(fā)展，如今確實(shí)可能到了一個(gè)關(guān)鍵的時(shí)刻，或者需要一個(gè)完全不同的新架構(gòu)來突破技術(shù)壁壘。

03 未來AI進(jìn)化路徑，強(qiáng)化學(xué)習(xí)、多模態(tài)、JEPA

接下來前沿的大模型該如何繼續(xù)優(yōu)化呢？我們跟身邊的技術(shù)大牛聊了一圈，總結(jié)了三種方式：第一是強(qiáng)化學(xué)習(xí)，第二押注多模態(tài)能力提升帶來的突破，而第三，是尋找其它的框架范式。

首先是強(qiáng)化學(xué)習(xí)路線（Reinforcement learning），簡稱RL，包括RL在預(yù)訓(xùn)練階段的嘗試。

我先講講以RL為核心的訓(xùn)練機(jī)制為了解決什么問題。很多的任務(wù)是以目標(biāo)驅(qū)動(dòng)的，比如說寫代碼，比如說數(shù)學(xué)、物理、金融機(jī)構(gòu)的一些東西，再比如城市規(guī)劃，你做Operations research（運(yùn)籌學(xué)）、供應(yīng)鏈這些東西它都是有明確目標(biāo)的，世界機(jī)制也很完整。如果A發(fā)生了會(huì)出現(xiàn)B。在這種情況下，Pre-training（預(yù)訓(xùn)練）就變得不是很有必要。

這種專業(yè)型的目標(biāo)為驅(qū)動(dòng)的場景，大多數(shù)都是沒有任何的數(shù)據(jù)的。數(shù)學(xué)跟代碼是僅有的兩個(gè)可能數(shù)據(jù)點(diǎn)相對多的場景。除此以外，我剛剛說的剩下的那些點(diǎn)基本上都沒什么數(shù)據(jù)，你很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成訓(xùn)練。

本質(zhì)上它要解決的問題是非常泛化的，而市面上已經(jīng)出現(xiàn)的數(shù)據(jù)，大多數(shù)都聚焦在一些經(jīng)常會(huì)發(fā)生的代碼問題和數(shù)學(xué)問題。而那些非常高深難測的數(shù)學(xué)問題，它是從來沒有出現(xiàn)過的，它必須要通過一個(gè)反事實(shí)的形式，就是我要生成一些市面上從來沒有出現(xiàn)過的代碼、數(shù)學(xué)、物理規(guī)劃等等的輸出。然后靠一個(gè)ground truth（真實(shí)標(biāo)簽）的validator（驗(yàn)證器）來告訴我做得對不對，然后去self-train（自我訓(xùn)練）。這種訓(xùn)練方式是非常適合于這種有真實(shí)標(biāo)簽、能夠做出精確判斷的這種用例，然后去進(jìn)行優(yōu)化。

這是RL最閃光的時(shí)候了，其實(shí)有很多研究在網(wǎng)上都說過，其實(shí)現(xiàn)在最大的問題是驗(yàn)證，我如果能夠找到一個(gè)好的verifier（驗(yàn)證器），我可以認(rèn)為問題解決了。因?yàn)榭梢酝ㄟ^RL去完成對于這個(gè)驗(yàn)證器的優(yōu)化就可以了。

Bill說的"驗(yàn)證"是RL中非常重要的關(guān)鍵，也是The Information爆料中，GPT-5在RL上的殺手锏。

報(bào)道說，OpenAI一直在開發(fā)一個(gè)被稱為"universal verifier"（通用驗(yàn)證器）的技術(shù)：讓一個(gè)大語言模型使用各種來源的研究，來檢查和評估另一個(gè)模型的答案。它可以自動(dòng)執(zhí)行，確保模型在強(qiáng)化學(xué)習(xí)過程中生成高質(zhì)量答案。

這個(gè)方向就像我們當(dāng)年看到Alpha Zero打敗人類一樣，它所能夠走出的一些路子是人類正常想象不到的。通過這個(gè)機(jī)制，甚至可以發(fā)現(xiàn)新的物理定理，它可能可以真正去發(fā)現(xiàn)人類所不擁有的知識(shí)，這可能是下一步我覺得真正邁向super intelligence（超級(jí)智能）的一個(gè)關(guān)鍵點(diǎn)，但目前還沒有很好的一個(gè)突破。

而接下來，需要各大模型公司去探索的第二條路，就是多模態(tài)。

就像前面我們說到的，大語言模型的維度是非常有限的，而多模態(tài)，以及世界模型將對接下來AI的發(fā)展至關(guān)重要。

我們要注意多模態(tài)，因?yàn)槎嗄B(tài)一旦引入，它就有非常復(fù)雜的工作流，比如說你要用瀏覽器，你要用數(shù)學(xué)，你要用代碼，你要使用各種復(fù)雜的工具。然后包括多模態(tài)的使用，比如說，你看GAIA（Generalized AI Agent benchmark，一種面向生成式AI的基準(zhǔn)測試）提出來的框架，它其實(shí)是非常復(fù)雜的任務(wù)，人類去完成都可能要6-15分鐘，如果AI不斷地把時(shí)間降到6分鐘以下，我覺得這也是學(xué)術(shù)界、創(chuàng)業(yè)公司一直在追求的。比如說我們在金融領(lǐng)域去做很復(fù)雜的自動(dòng)交易策略，包括給網(wǎng)紅們?nèi)プ霭l(fā)帖，其實(shí)這里面有非常復(fù)雜的步驟。

你怎么把它的boundary（能力上限）提高。我覺得兩個(gè)層面，一個(gè)是在應(yīng)用這樣的multi-agent（多智能體）系統(tǒng)，不斷去推高需求；另外一個(gè)是在某些能力層面，大家不斷地去螺旋式上升，自己訓(xùn)更大的model（模型），當(dāng)模型因?yàn)樗懔湍茉聪拗频臅r(shí)候，它就會(huì)去做multi-model（多模型）的組合。

所以上面是多智能體，下面是多模型，我覺得這個(gè)是接下來我比較看好的兩到三年的一個(gè)發(fā)展路線圖。

對于大方向的突破，我感覺應(yīng)該肯定會(huì)發(fā)力在多模態(tài)上面，特別是在視頻跟world model（世界模型）上面。因?yàn)槿祟惖恼Z言本身是一個(gè)非常大的compression（壓縮包），它的信息搭載量和視頻的信息是一個(gè)數(shù)量級(jí)的差異，這件事情我同意Yann LeCun的說法，人類從視覺、聽覺、觸覺各方面的多維度信息采取、吸收量，是要比純文字要高出大幾個(gè)數(shù)量級(jí)的。

文字訓(xùn)練的一個(gè)假設(shè)是：我如果能夠通過一些簡單規(guī)則，比如reinforcement（強(qiáng)化學(xué)習(xí)），fine tuning（微調(diào)）或者reward model（獎(jiǎng)勵(lì)模型），通過一個(gè)簡單規(guī)則或者簡單的判斷方式，或者訓(xùn)練出來、或者寫出來的判斷方式，能夠去判斷一個(gè)模型的好壞、告訴你怎么去提升這個(gè)模型。它就相當(dāng)于一個(gè)文字領(lǐng)域的world model（世界模型）。比較復(fù)雜的點(diǎn)是，當(dāng)出現(xiàn)了多模態(tài)視頻，可以navigate environment（導(dǎo)航環(huán)境）之后，它的評估難度就會(huì)高很多。從純pixel（像素）的方式去做評估，這個(gè)是目前機(jī)器人技術(shù)領(lǐng)域肯定沒有解決的問題。

如果world model（世界模型）能有大幅度提升的話，我們有一個(gè)很大的機(jī)會(huì)能夠去訓(xùn)練，比如說視頻理解的模型、機(jī)器人技術(shù)的基礎(chǔ)模型、游戲的基礎(chǔ)模型，這些基礎(chǔ)模型的誕生再給到一個(gè)機(jī)會(huì)，讓我們?nèi)ズ竺嬖偃プ鰌ost-training（后訓(xùn)練），它可以在整個(gè)多模態(tài)的世界里面創(chuàng)造text-based model（基于文字的模型）的一個(gè)同樣的可以復(fù)制的成就。

然而在那些領(lǐng)域當(dāng)中，它所代表的市場份額，或者整個(gè)市場的空間，其實(shí)比純文字的市場空間要更大。它可以把一個(gè)純文字交流式的非常壓縮信息的系統(tǒng)拓展成一個(gè)，或者是線上的非常豐富的信息，或者說視覺、聽覺、觸覺的一部分，或者直接線下的機(jī)器人技術(shù)的東西，它們的能夠部署的這個(gè)領(lǐng)域有一個(gè)非常大的延展，所以我覺得我剛剛說的像世界模型這個(gè)方向，視覺的方向，一定是下一步最重要發(fā)力的方向。

而多模態(tài)之戰(zhàn)確實(shí)在最近變得非常激烈，谷歌最近發(fā)布世界模型Genie 3，這在一些業(yè)內(nèi)人士看來，重要性是要超過GPT-5的，我們《硅谷101》也在操作這個(gè)選題了，很快會(huì)放出來，所以大家記得關(guān)注我們的賬號(hào)，不要錯(cuò)過更新哦。

此外，Bill提到的圖靈獎(jiǎng)得主Yann LeCun近年來提出的核心研究方向叫做Joint Embedding Predictive Architecture，簡稱JEPA，翻譯過來是"聯(lián)合嵌入預(yù)測架構(gòu)"，旨在克服大語言模型的局限，推動(dòng)AI理解物理世界。

JEPA本身它是把所有模型的訓(xùn)練放到Latent（潛層）空間中去完成。它在潛層空間的話，對于你的輸入是有一個(gè)抽象的表達(dá)，對于你的輸出也是一個(gè)抽象表達(dá)，這樣你就可以再把輸入、輸出都同時(shí)放到這樣的一個(gè)維度空間中訓(xùn)練。然后再給到它不同狀態(tài)的量，讓它可以在潛層空間中去預(yù)測"我下一個(gè)動(dòng)作應(yīng)該是怎么樣的"或者"我下一個(gè)應(yīng)該預(yù)測的，是怎樣的一個(gè)狀態(tài)？"它在這個(gè)過程中就不是一幀或一個(gè)一個(gè)像素去預(yù)測的，而是把你遮擋了的某一塊可以整體地給預(yù)測出來。

JEPA本身其實(shí)也分I-JEPA（image圖像JEPA）和V-JEPA（video視頻JEPA）。最新發(fā)表這個(gè)文章其實(shí)也表現(xiàn)出，在預(yù)測整個(gè)視頻中的事物變化時(shí)，也取得了非常好的表現(xiàn)。所以，我個(gè)人比較看好一些非transformer的架構(gòu)，是否在未來可以給我們一個(gè)真正的智能，更加接近或模擬我們?nèi)四X思考的一個(gè)方式。

我覺得transformer的局限性是存在的，但我們也有其他架構(gòu)作為替代方案，也有不同的團(tuán)隊(duì)在進(jìn)行探索。所以大家可能也需要去關(guān)注一些非transformer方面的模型究竟是怎么樣去模擬人類的智能。

04 GPT-5被過度營銷反噬，但AI進(jìn)化不會(huì)停止

最后還想說，這次GPT-5的翻車與Sam Altman之前過于浮夸的營銷分不開。

在發(fā)布會(huì)之前，他在X上的各種預(yù)熱還有用詞，一會(huì)兒在他弟弟的播客上感嘆自己"相對于AI毫無用處"，一會(huì)兒又在X上曬出與GPT-5的聊天截圖，各種"暗示"，但又保持神秘，吊足了公眾的胃口，把期待值拉得太高。

結(jié)果發(fā)布會(huì)出來，大家都愣了。所以，這次發(fā)布會(huì)的失利也是被視為"營銷鬼才"的Sam Altman太過度營銷的一次反噬。

總結(jié)一下，長期來看，到達(dá)AGI之前，我們可能還有很多工作要做，還有很多技術(shù)壁壘需要突破，而這些突破需要腳踏實(shí)地的研發(fā)和創(chuàng)新。

但很遺憾的是，在人類的技術(shù)進(jìn)一步被推進(jìn)之際，OpenAI等大模型公司卻開始在商業(yè)化上變得非常激進(jìn)，包括發(fā)布GPT-5之際正式開始打價(jià)格戰(zhàn)，來圈地、圈市場份額。

這讓不少人擔(dān)心，會(huì)不會(huì)這次的GPT-5發(fā)布會(huì)意味著AI泡沫破滅的開始？AI大模型的進(jìn)展是否會(huì)就此停止呢？

所以我個(gè)人也是比較期待類似像JEPA這樣的一些新的構(gòu)架能夠出現(xiàn)，有更多人能進(jìn)行探索，而不是因?yàn)閠ransformer現(xiàn)在可以給我們帶來很多經(jīng)濟(jì)利益、經(jīng)濟(jì)價(jià)值，就只是停留在這個(gè)階段，然后一直所有人都寄希望于scaling law能夠繼續(xù)持續(xù)下去。

從GPT 5的發(fā)布來講，我覺得大家也可以更好地去清醒地認(rèn)識(shí)到transformer本身的局限，可能也有更多人可以去關(guān)注其他的一些替代方案，能夠幫助整個(gè)AI行業(yè)得到更深遠(yuǎn)的發(fā)展。

最后，雖然我們這個(gè)視頻說了OpenAI和GPT-5這么多"壞話"，我個(gè)人其實(shí)還是非常喜歡這款產(chǎn)品，以及我是一個(gè)忠實(shí)用戶，基本上工作、生活都離不開ChatGPT了。

這場發(fā)布會(huì)讓我看到了ChatGPT朝著一個(gè)更好的AI全能super app的邁進(jìn)。很多功能，在我看來，都將讓我的生活和工作更加高效。

而看上去OpenAI還會(huì)繼續(xù)優(yōu)化GPT-5的各種性能，到時(shí)候我們也會(huì)為大家跟進(jìn)AI發(fā)展，并進(jìn)一步分析。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

醫(yī)生

相關(guān)閱讀

X、Grok未列入App Store必備馬斯克指控蘋果違反反壟斷法

數(shù)碼測評 1小時(shí)前

曝華為Mate 80將在11月中下旬發(fā)布提前鎖定最強(qiáng)國產(chǎn)機(jī)？

數(shù)碼測評 2小時(shí)前

雷軍：小米YU7改名，被誤會(huì)是丐版；傳淘寶閃購周末峰值超美團(tuán)；低價(jià) MacBook 或年底亮相，599 美元

極客公園 3小時(shí)前

從混元到智譜，六大國產(chǎn)大模型，編程“手藝”到底怎么樣？

鈦媒體 1小時(shí)前

高通驍龍8 Elite 2跑分出爐：飆到4.74GHz 史無前例

快科技 1小時(shí)前

榮耀Magic V Flip2官宣：周仰杰操刀鑲鉆星空背板

快科技 2小時(shí)前

中金：AI算力驅(qū)動(dòng)PCB量價(jià)齊升，市場規(guī)模有望持續(xù)擴(kuò)容

36氪 2小時(shí)前

“東方慧眼”亮相！全球首個(gè)天地一體化智能遙感系統(tǒng)問世

快科技 2小時(shí)前

我國主導(dǎo)！航天領(lǐng)域兩項(xiàng)國際標(biāo)準(zhǔn)正式發(fā)布

快科技 3小時(shí)前

專訪海南自由貿(mào)易港研究院郭達(dá)：海南要成為引領(lǐng)經(jīng)貿(mào)規(guī)則重構(gòu)的新高地

21世紀(jì)經(jīng)濟(jì)報(bào)道 5小時(shí)前

《縱橫商海之屠龍少年2》：透視異能下的商業(yè)幻夢

網(wǎng)易娛樂 3小時(shí)前

因反抗13年強(qiáng)制報(bào)廢被群贊！《一輛摩托車的葬禮》作者發(fā)申明

快科技 11小時(shí)前

DeepSeek崩了引熱議官方深夜回應(yīng)：網(wǎng)頁/API已恢復(fù)

快科技 11小時(shí)前

上交15%收入給美國政府換H20出口 NVIDIA回應(yīng)：遵守規(guī)則

快科技 13小時(shí)前

小米YU7標(biāo)準(zhǔn)版被誤以為是丐版雷軍問網(wǎng)友要不要改名

快科技 13小時(shí)前

最新評論

沒有更多評論了

鈦媒體

訂閱

覺得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

星河商業(yè)觀察

聚焦星河商業(yè)動(dòng)態(tài)，洞察行業(yè)發(fā)展脈絡(luò)。

Blockchain News

<font id="ydvna"><meter id="ydvna"></meter></font>