中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 31分鐘前

      深聊 GPT-5 發(fā)布:過度營銷的反噬與 AI 技術(shù)困局

      文 | 硅谷101

      GPT-5上線次日,OpenAl在一片用戶的批評聲中宣布向付費(fèi)用戶恢復(fù) GPT-4o。

      與GPT-3到GPT-4的驚艷跨越相比,GPT-5的發(fā)布略顯匆忙:翻車的數(shù)據(jù)圖表、帶bug的代碼演示、誤導(dǎo)的"博士級(jí)"科學(xué)原理解釋,以及作為核心技術(shù)更新的"Router"(路由器)也被硅谷AI從業(yè)者指出是已經(jīng)存在好幾年的技術(shù)。

      從內(nèi)部代號(hào)Q-Star到Orion項(xiàng)目的接連受挫,從數(shù)據(jù)匱乏到模型崩潰的技術(shù)困境,OpenAI正面臨前所未有的挑戰(zhàn)。

      但不可否認(rèn)的是,作為一款產(chǎn)品,GPT-5有著明顯進(jìn)步以及對用戶交互的進(jìn)一步優(yōu)化。ChatGPT正打入更多垂類領(lǐng)域,朝著"AI超級(jí)應(yīng)用"產(chǎn)品進(jìn)發(fā)。而一場搶占市場份額、爭奪企業(yè)訂單的價(jià)格戰(zhàn),也在頭部大模型公司之間正式開打。

      本期文章,我們將深入聊聊GPT-5發(fā)布背后的技術(shù)困境、商業(yè)焦慮與未來趨勢。

      OpenAI為什么引發(fā)外界這么多的吐槽?GPT-5的開發(fā)過程遇到了哪些技術(shù)瓶頸,最終選擇了什么架構(gòu)來攻克?作為產(chǎn)品的ChatGPT,為什么選擇進(jìn)軍教育、健康醫(yī)療和編程市場?

      而更令人擔(dān)憂的是,AI scaling law已經(jīng)碰壁,強(qiáng)化學(xué)習(xí)、多模態(tài)能力和新架構(gòu)范式能否為AI發(fā)展指明新的方向?

      01 GPT-5發(fā)布會(huì):漏洞百出,突破放緩

      說實(shí)話,外界對GPT-5的發(fā)布非常期待。原因很簡單:GPT-4發(fā)布已經(jīng)是兩年半之前的事情了,而外界已經(jīng)等新一代模型很久了。

      但總結(jié)來說,GPT-3到GPT-4的能力跨越太過驚艷——所謂的"ChatGPT Moment"。

      這樣的"Wow moment"(驚艷時(shí)刻)是這一輪生成式AI技術(shù)革命的基礎(chǔ),但GPT-4到GPT-5的能力跨越,卻遠(yuǎn)沒有達(dá)到外界的期待。

      朱哲清

      前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人

      Pokee AI創(chuàng)始人兼CEO:

      你要橫向?qū)Ρ?,就是GPT4和當(dāng)年GPT3的對比,這個(gè)的是天和地的區(qū)別,對吧?GPT4跟GP5如果你是以同樣的標(biāo)準(zhǔn)來做對比的話,其實(shí)差距是沒有那么大的。就是它可能是一個(gè)在我看來是個(gè)改進(jìn),而不是一個(gè)階段性變化。

      GPT-5發(fā)布了什么呢?

      Chapter 1.1 業(yè)內(nèi)推測GPT-5技術(shù)路線

      首先,此前新聞爆料,GPT-5會(huì)成為一個(gè)"統(tǒng)一大模型"(unifying system),能強(qiáng)大地將推理、編碼、語音、研究等能力整合進(jìn)單一模型,實(shí)現(xiàn)"既要"和"又要"的用戶需求,將GPT系列和o系列的模型融合,這個(gè)單一模態(tài)架構(gòu)能自動(dòng)調(diào)取相應(yīng)的模型和能力,而不需要用戶之后自己選擇模型了。

      雖然OpenAI目前還沒有正式發(fā)布詳細(xì)的GPT-5技術(shù)報(bào)告,但業(yè)內(nèi)的技術(shù)專家們猜測,這其實(shí)不是一個(gè)端到端的超級(jí)大模型,而是由一個(gè)實(shí)時(shí)的"路由器"(Real-time Model Router)來"拼接"下面的不同子模型。

      其實(shí)這個(gè)技術(shù)路線,不是創(chuàng)新也不是突破,早在硅谷初創(chuàng)技術(shù)圈里就存在很久了。

      Aiden He

      TensorOpera AI聯(lián)合創(chuàng)始人:

      GPT-5就是一個(gè)典型的聯(lián)合的系統(tǒng),它是把已有的GPT-4,o3等推理和非推理的模型串聯(lián)到一起。

      它可能是因?yàn)樯虡I(yè)化比較著急吧,我覺得更應(yīng)該把它叫做GPT 4.99,因?yàn)樗窃谒械臍v史上的一個(gè)聚合方案。這個(gè)路由器,其實(shí)并不是一個(gè)很新的東西。

      這種路由器的方案主要是一些初創(chuàng)公司在使用,大概有三個(gè)使用場景和原因:

      第一,是在手機(jī)這樣的設(shè)備端上,有端上的小模型,也有云端的大模型,簡單的問題用本地模型,復(fù)雜的問題用云端模型,就需要有個(gè)路由器去幫你做選擇。

      第二,是初創(chuàng)公司們做模型層之上的開發(fā)和應(yīng)用的時(shí)候,把所有開源和閉源模型聚合起來,把不同的任務(wù)給不同的模型來調(diào)用。

      第三,是要去平衡系統(tǒng)的成本,比如說用戶的一些高頻又簡單的提問,像"hello"和"thank you"這種query(查詢)量非常大,光是這種簡單的問題每天都在消耗OpenAI上百萬美元的費(fèi)用,所以這些典型問題都可以直接分發(fā)給非常小的模型去解決。

      所以,這些是之前初創(chuàng)企業(yè)們因?yàn)橐?strong>平衡系統(tǒng)成本,開發(fā)和應(yīng)用時(shí)的主要三大使用場景,但如今被GPT-5作為主打技術(shù)突破,讓外界不少人懷疑,一個(gè)端到端訓(xùn)練的超級(jí)大模型路線已經(jīng)觸頂。

      而OpenAI不得不開始用這些"取巧"的技術(shù)來解決"產(chǎn)品層面"的問題,而不是AI大模型"智能飛躍"的問題,這是和外界的期待非常相悖的。

      當(dāng)然,實(shí)時(shí)路由器也沒有那么好做,整合各種多模態(tài)也有很多技術(shù)上的挑戰(zhàn),這也可能是發(fā)布推遲的原因之一。

      有的模型擅長于數(shù)學(xué),有的模型擅長于寫作,有的模型擅長于編碼,所以你要根據(jù)用戶的意圖、語言類型、各種各樣的地域位置,包括它的語言偏好去分發(fā)模型,這是一個(gè)非常復(fù)雜的問題。

      Jenny Xiao

      前OpenAI研究員

      Leonis Capital合伙人:

      不同的模態(tài)會(huì)有非常不同的計(jì)算需求,以及許多不同的推理需求。例如,如果是語音模塊,它就會(huì)需要非常低的延時(shí)。因?yàn)槿绻舆t太大,你和AI進(jìn)行對話時(shí)就會(huì)變得很尷尬。而其他模塊,比如深度推理或研究,可能會(huì)有兩三分鐘的延時(shí),甚至更長,有時(shí)候我覺得都有30分鐘。所以把所有這些模態(tài)整合在一起,還要確保產(chǎn)品不卡頓,這是一個(gè)相當(dāng)大的技術(shù)挑戰(zhàn)。

      拋開這不是一個(gè)多么酷炫的技術(shù)不談,說實(shí)話,單從用戶角度來看,我本來覺得這點(diǎn)改進(jìn)還挺好的。

      因?yàn)橹暗腃hatGPT確實(shí)像個(gè)大雜燴:4o,o3,o4-mini,o4-mini-high,GPT-4.5,GPT-4.1,GPT-4.1-mini,旁邊還有Codex,視頻模型Sora,已經(jīng)agent生態(tài)的GPTs……簡直太亂了。

      所以,如果GPT-5能自動(dòng)為我挑選最適合的模型,其實(shí)在用戶交互上是挺重要的。

      但這里的關(guān)鍵詞是:你得能選對,且效果得比之前好。

      然而,當(dāng)OpenAI取消此前自選模式,在社交媒體上用戶們卻開始集體抗議,很多人認(rèn)為GPT-5沒有4o的親切感,效果甚至不如4o,并且用戶有種被剝奪了選擇權(quán)的感受,所以在X上,非常多用戶集體呼吁"讓4o回來,不然就注銷ChatGPT賬號(hào)。"

      這也讓OpenAI CEO Sam Altman不得不在周末之前回應(yīng),保證將上線更多定制化的功能和內(nèi)容,并持續(xù)對GPT-5進(jìn)行改進(jìn)。

      OpenAI在這次發(fā)布會(huì)中,一直在強(qiáng)調(diào)要給用戶的不是"more information""越多的信息不一定是越好的",而是要給"just right"的信息,"剛剛好的、適合"的信息

      這個(gè)出發(fā)點(diǎn)看起來沒有什么問題,但在技術(shù)上,怎么去定義"just right",什么是"剛剛好",還蠻有爭議的。關(guān)于GPT-5的優(yōu)化,我們也會(huì)繼續(xù)關(guān)注。

      接下來,我們再聊聊這次發(fā)布會(huì)上,OpenAI展示的三個(gè)應(yīng)用場景:教育,健康醫(yī)療以及編程。

      毫無疑問,這將是OpenAI進(jìn)軍商業(yè)化的主要三個(gè)戰(zhàn)場。

      Chapter 1.2 三大垂直應(yīng)用場景

      在發(fā)布會(huì)上,OpenAI展示了用多模態(tài)學(xué)習(xí)韓語的場景,效果確實(shí)看上去挺絲滑的:語音模型進(jìn)一步升級(jí),可以實(shí)時(shí)加快放慢,感覺會(huì)是非常好的教育交互場景。

      GPT-5的玩法更加升級(jí)。你還可以讓ChatGPT直接給你做個(gè)學(xué)法語的網(wǎng)頁,或者小游戲應(yīng)用,幾分鐘時(shí)間,記憶閃卡、單詞測驗(yàn)、進(jìn)度追蹤等等功能應(yīng)有盡有。

      所以我們看到語言學(xué)習(xí)公司多鄰國股價(jià)在GPT-5發(fā)布會(huì)期間就開始大幅度震蕩,本來因?yàn)樨?cái)報(bào)非常好出現(xiàn)盤中大漲,但OpenAI發(fā)布會(huì)之后開始一路狂跌,也是市場在質(zhì)疑,ChatGPT在之后會(huì)搶奪多少教育市場的份額。

      我認(rèn)為教育是OpenAI非常明確的一個(gè)垂直領(lǐng)域。ChatGPT剛推出時(shí),基本上把Chegg給"干掉"了。Chegg是一家教育公司,學(xué)生主要用它從同伴那里抄作業(yè)。ChatGPT推出后,學(xué)生們就覺得,我們好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用戶,你會(huì)發(fā)現(xiàn)很多都是學(xué)生,而且在暑假期間,OpenAI的使用量會(huì)大幅下降。接著,OpenAI最近推出了"學(xué)習(xí)"功能,我覺得這個(gè)功能更多是針對那些想隨便學(xué)學(xué)或者是探索某個(gè)主題的人。

      就語言學(xué)習(xí)而言,我一直在用ChatGPT練習(xí)粵語,我感覺它效果非常好。我以前是用多鄰國,但我覺得OpenAI比多鄰國自由度高得多,因?yàn)槟憧梢杂肙penAI探索任何話題。我認(rèn)為OpenAI肯定會(huì)去切入這些(語言學(xué)習(xí))公司的營收領(lǐng)域,因?yàn)樵贑hatGPT的原生環(huán)境下,復(fù)刻它們的模式實(shí)在太容易了。

      另外,OpenAI強(qiáng)調(diào)的市場蛋糕還有健康醫(yī)療領(lǐng)域。因?yàn)镚PT-5號(hào)稱有著博士級(jí)別的能力,所以在醫(yī)療健康領(lǐng)域,也能夠?qū)I(yè)的癌癥診斷報(bào)告做通俗易懂的解讀。

      在發(fā)布會(huì)中,OpenAI請到一名女性癌癥患者,她分享到說,去年被診斷出癌癥病情,收到的報(bào)告有許多醫(yī)學(xué)術(shù)語,她讓ChatGPT先幫助她厘清資訊,并與醫(yī)生的評估進(jìn)行比對,再做出關(guān)鍵決策。

      而她也形容說,GPT-5更快速、更完整,在整個(gè)治療過程中,讓她覺得有了一個(gè)"伙伴"。

      這一點(diǎn)我也感觸蠻深的。醫(yī)療領(lǐng)域是一個(gè)醫(yī)生和患者知識(shí)差距巨大的行業(yè),因?yàn)檫@樣的知識(shí)差距,導(dǎo)致了兩者關(guān)系的不平衡,患者通常沒有選擇。

      我最近身邊有個(gè)好朋友進(jìn)了重癥監(jiān)護(hù)室,陷入昏迷整整五天,她家人剛開始除了每天去醫(yī)院求醫(yī)生,感覺什么都做不了,但很快用上了AI,開始對病情和治療方案各種學(xué)習(xí)和討論,之后感覺和醫(yī)生交流的時(shí)候障礙變小了很多,在做出一些關(guān)鍵決策的時(shí)候也心里更有底了。

      我覺得這就是技術(shù)的光明面:賦予人們自主權(quán)。

      而健康醫(yī)療行業(yè)占據(jù)美國GDP的18%左右,是巨大的市場,OpenAI不會(huì)放過這個(gè)市場。

      同時(shí),我們看到全球AI醫(yī)療市場也在井噴式發(fā)展。市場預(yù)測,全球AI醫(yī)療領(lǐng)域規(guī)模會(huì)從2024年的26.69億美元飆升至2030年的188.38億美元,年復(fù)合增長率高達(dá)38.62%。

      包括OpenAI參與投資的、專注于利用AI減輕醫(yī)療專業(yè)人員行政負(fù)擔(dān)的初創(chuàng)公司Ambience Healthcare最近C輪融資2.43億美元,邁進(jìn)獨(dú)角獸行列。所以我們接下來會(huì)看到OpenAI在醫(yī)療健康領(lǐng)域的進(jìn)一步動(dòng)作。

      另外一個(gè)GPT-5要打的核心商業(yè)戰(zhàn)爭,就是編程市場了。

      無論是低提示詞的非專業(yè)用戶場景,還是專業(yè)編程場景,都展現(xiàn)出代碼能力的強(qiáng)勢升級(jí)。

      同時(shí),OpenAI來請到了最炙手可熱的AI編程初創(chuàng)公司Cursor CEO到現(xiàn)場分享如何用GPT-5打造出最高效的編程體驗(yàn)。

      這里能看出,自從Anthropic開啟了Claude Code產(chǎn)品之后,AI coding初創(chuàng)公司就開始紛紛站隊(duì)了。

      之前OpenAI本來想買Windsurf沒買成,我們之前也出了視頻跟大家講了這個(gè)狗血的收購大瓜,現(xiàn)在Cursor明顯站隊(duì)OpenAI一起來打Claude,這是一輪新的編程市場爭奪戰(zhàn)。

      Anthropic其實(shí)做了很多很多事情,它在開發(fā)者社區(qū)的影響力,我覺得會(huì)大于GPT-5;GPT-5可能大家會(huì)做應(yīng)用,各種東西PoC(Proof of Concept,概念驗(yàn)證)快速起步,但是一些專業(yè)的開發(fā)者可能還是比較喜歡Anthropic,所以它一定是各有所長。但就算是OpenAI主打及自夸"世界最強(qiáng)"的編程場景,其實(shí)也讓很多人失望。

      我可能本來的預(yù)期可能在于,比如說在代碼領(lǐng)域,它單一模型可以直接端到端,從架構(gòu)到寫每一個(gè)前端、后端代碼,到它知道選擇什么工具,到我怎么把這些東西都串聯(lián)起來,然后自行測試。完成測試以后,可能回過頭來再去改自己的代碼,類似于有這樣的一個(gè)端到端的能力。從OpenAI的定義上面,能超越它第三階段agentic experience(智能體體驗(yàn),模型以智能體身份主動(dòng)行動(dòng))定義,再往上走一點(diǎn)那種感覺。但目前看起來完全沒有??傮w在我看來,是跟Anthropic的Claude Opus差不多的能力范圍。

      Chapter 1.3 錯(cuò)誤百出的發(fā)布會(huì)

      同時(shí),這場發(fā)布會(huì)不得不吐槽的,就是現(xiàn)場出的各種bug了,讓這場萬眾期待的發(fā)布會(huì)顯得特別"草臺(tái)班子"。

      這個(gè)時(shí)候,OpenAI得感謝自己還沒有上市,如果是谷歌的發(fā)布會(huì)出現(xiàn)這么多錯(cuò)誤,可能股價(jià)早就蒸發(fā)上千億美元了。

      首先在發(fā)布會(huì)直播中,一張展示GPT-5在編程基準(zhǔn)測試(SWE-bench)上性能的圖表出現(xiàn)了嚴(yán)重錯(cuò)誤,圖上,代表GPT-5(52.8%準(zhǔn)確率)的柱狀圖,其高度竟明顯超過了代表舊模型o3(69.1%準(zhǔn)確率)的柱狀圖。

      另一款模型4o的柱狀圖與o3的水平位置一模一樣,標(biāo)注的數(shù)字卻是30.8%。這個(gè)錯(cuò)誤低級(jí)到不敢讓人相信是OpenAI的發(fā)布會(huì)。

      盡管OpenAI事后在官網(wǎng)上修正了圖,Sam Altman也發(fā)文自嘲了,但這個(gè)圖的火爆和出圈程度直接秒殺Sam Altman之前鋪墊的任何營銷努力。

      而更嚴(yán)重的是,這顯示出的不僅僅是匆忙和粗心,更是OpenAI團(tuán)隊(duì)試圖在數(shù)據(jù)呈現(xiàn)上營造出的"巨大進(jìn)步"的假象。

      同時(shí),Benchmark"分?jǐn)?shù)打榜"這件事,也正變得更越來越不重要。

      前兩天(OpenAI)剛release(發(fā)布)的open-source model(開源模型),它在Benchmark(基準(zhǔn)測試)上面的performance(表現(xiàn))也還可以,但是它真正使用起來,它的代碼能力其實(shí)挺拉胯的,它出現(xiàn)了很多的bug,很多代碼都跑不通。

      基準(zhǔn)測試"已死",但新形態(tài)的"基準(zhǔn)測試"又會(huì)死灰復(fù)燃,對吧?所有這些實(shí)驗(yàn)室都非常注重在基準(zhǔn)測試表現(xiàn)上的提升。他們會(huì)為了在某個(gè)特定基準(zhǔn)上提升3%或5%而相互競爭,而且很多研究人員也以模型在這些基準(zhǔn)上的表現(xiàn)為傲。但作為用戶,我的感受是,基準(zhǔn)測試對用戶來說毫無意義。所以我認(rèn)為,下一個(gè)競爭前沿會(huì)主要轉(zhuǎn)向用戶體驗(yàn)。我覺得現(xiàn)在,很難靠原始性能來區(qū)分模型的優(yōu)劣。

      另外還有一個(gè)尷尬的細(xì)節(jié):在演示過程中,GPT-5在解釋"伯努利效應(yīng)"時(shí),錯(cuò)誤地采用被主流物理學(xué)教材已經(jīng)證偽的"等時(shí)通過理論"。

      前一秒Sam Altman還在說,GPT-5是屬于"博士級(jí)別"的AI,后一秒就直接自己打臉,還挺尷尬的。

      這顯示出,GPT-5完全沒能識(shí)別過時(shí)的錯(cuò)誤解釋理論,讓外界對這個(gè)新模型的理解和推理能力有了更多的質(zhì)疑。

      不過有一說一,在解釋這個(gè)理論時(shí)自動(dòng)產(chǎn)出高質(zhì)量SVG動(dòng)畫與可交互代碼還真的挺酷炫的(感覺對我們的視頻后期之后會(huì)非常有用),也說明OpenAI的多模態(tài)生成能力確實(shí)還是很強(qiáng)的。

      我的總體感覺是,OpenAI在嘗試在那么多個(gè)模型發(fā)布之后,想要在這個(gè)階段上站住腳跟,把自己這個(gè)領(lǐng)先地位占住,所以它必須要去做這么一個(gè)發(fā)布。

      大概總結(jié)一下GPT-5發(fā)布的重點(diǎn):GPT-5解決的都是產(chǎn)品層面的問題,并沒有技術(shù)顛覆性的創(chuàng)新,這說明接下來一線大模型的技術(shù)差距也會(huì)進(jìn)一步縮小,大家都用著差不多的方式在把模型能力艱難地往前推,不過就是:堆算力+堆數(shù)據(jù)+高質(zhì)量數(shù)據(jù)篩選+后訓(xùn)練+推理時(shí)長+工具使用。

      因此,我也看到一句話說OpenAI從"The One"變成了"One",從"引領(lǐng)者"變成了前沿模型"之一"。

      為什么GPT-5會(huì)這么拉胯?是不是LLM的發(fā)展路徑真的已經(jīng)碰壁了?

      02 失敗的"GPT-5們",Transformer架構(gòu)的發(fā)展瓶頸

      GPT-5的訓(xùn)練從很早就開始了,但非常有意思的是,沒有一個(gè)模型在OpenAI從第一天就被命名為GPT-5的。

      我們都清楚,OpenAI一直在訓(xùn)練下一代模型,但肯定只有在達(dá)到一個(gè)重要的里程碑后,他們才會(huì)給模型正式命名。GPT-5自2024年以來一直在訓(xùn)練,但只有到達(dá)一個(gè)重大節(jié)點(diǎn)之后,OpenAI才會(huì)將這個(gè)模型命名為GPT-5。

      OpenAI在推出GPT-4的時(shí)候,所謂的"下一代大模型"就已經(jīng)在訓(xùn)練當(dāng)中了,但如果這個(gè)模型不夠好,不夠"wow"到大家,那它就注定不能被叫做"GPT-5"。

      比如說,在2023年年底就被曝出OpenAI內(nèi)部代號(hào)為"Q Star"或者"Project Q"的項(xiàng)目,但這個(gè)模型后來被稱為"o1"。

      OpenAI在另外一個(gè)叫Project Q的項(xiàng)目上投入了很多精力,很多人也叫它Q star。這個(gè)項(xiàng)目在2023年11月左右,也就是Sam Altman那場風(fēng)波期間被泄露了出來,最終成為了o1系列,也就是o系列。這個(gè)項(xiàng)目非常重視思維鏈推理,想要打造推理模型。這個(gè)就是所謂的Q項(xiàng)目。

      其實(shí)"O"系列模型還算成功,后來又更新了o3和o4-mini,但依然不能被稱為GPT-5。為什么呢?

      The Information在GPT-5發(fā)布之前出了一篇非常重磅的文章,爆料了OpenAI內(nèi)部的這幾次關(guān)鍵的GPT-5研發(fā)挫敗。

      其中在談到o系列的時(shí)候說,這樣的推理模型似乎幫助OpenAI克服了預(yù)訓(xùn)練階段性能增長放緩的問題,而且2024年年底的o3母模型(也稱為教師模型)在理解各種科學(xué)領(lǐng)域及其他領(lǐng)域方面,相比o1的母模型取得了顯著的進(jìn)步,當(dāng)然這個(gè)進(jìn)步也是因?yàn)镺penAI用上了更強(qiáng)的英偉達(dá)芯片服務(wù)器。

      但奇怪的事情發(fā)生了,當(dāng)OpenAI將o3母模型轉(zhuǎn)換為能讓人們提問的ChatGPT版本(也稱為學(xué)生模型)時(shí),效果出現(xiàn)了顯著下降,甚至比o1表現(xiàn)好不了多少,同樣的效果下降也出現(xiàn)在了API的模型版本中。

      業(yè)界有猜測是因?yàn)?strong>基于人類自然語言的聊天產(chǎn)品形態(tài)拉低了模型的能力水平,限制了AI的發(fā)揮。

      Nathan Wang

      硅谷101特約研究員

      資深A(yù)I Agent開發(fā)者:

      可以理解說大模型是理解高維度復(fù)雜內(nèi)容的,但是最終它要跟我們?nèi)祟惤涣鳎蛘呤且阉D(zhuǎn)換成人類理解的文字的時(shí)候,它需要通過這樣降維的方式。就相當(dāng)于一個(gè)高等的生物需要降維,才能跟我們?nèi)祟愡M(jìn)行交流。在這個(gè)降維這個(gè)過程中,其實(shí)它會(huì)損失很多高維度的信息。

      包括我們自己其實(shí)也有一些各式各樣的潛意識(shí)層面或者高維度的思考。最終我們要個(gè)人表達(dá)的時(shí)候,是要通過語言,但是語言其實(shí)并不一定真正能夠把我們大腦中的所思所想,全部都很清晰地表達(dá)出來,或者甚至說,有些東西是沒有辦法去表達(dá)的。所以從這一點(diǎn)上來看,當(dāng)你去需要這個(gè)模型通過語言來跟人交流的時(shí)候,在一定程度上拉低了模型自身智能的表現(xiàn)。

      除此之外,在o3之后,OpenAI內(nèi)部有一個(gè)代號(hào)為"Orion"的項(xiàng)目,在今年2月份推出,但也沒有掀起什么水花,估計(jì)OpenAI對它的信心也不大,所以也沒有把GPT-5的名字給它,而是叫了"GPT-4.5"。

      我個(gè)人認(rèn)為最大的挑戰(zhàn)仍然在于預(yù)訓(xùn)練,因?yàn)樵缭谌ツ昴甑?,甚至更早的時(shí)候,scaling law就已經(jīng)碰壁,因?yàn)槲覀冋诤谋M高質(zhì)量且多樣化的人類生成的數(shù)據(jù)。缺乏數(shù)據(jù)是OpenAI的Orion項(xiàng)目延期的最大因素。有些人會(huì)稱這個(gè)項(xiàng)目失敗了,有些人則會(huì)說是延期。但本質(zhì)上,在OpenAI訓(xùn)練Orion系列模型時(shí),他們就已經(jīng)遇到了缺乏高質(zhì)量、多樣化數(shù)據(jù)的問題。他們最終是用由OpenAI的o1模型生成的合成數(shù)據(jù)來訓(xùn)練Orion系列,但結(jié)果仍然沒有達(dá)到人們的預(yù)期。

      我覺得OpenAI 4.5(也就是Orion模型)會(huì)沒那么成功,是因?yàn)樗娴臎]有帶來讓人眼前一亮的突破。就好比幾乎沒有人特別關(guān)注4.5版本。

      同時(shí),The Information的報(bào)道中說,2024年下半年,Orion沒能成功的部分原因在于其預(yù)訓(xùn)練階段的局限性。

      同時(shí),OpenAI還發(fā)現(xiàn)對Orion模型做的優(yōu)化在模型較小的時(shí)候有效,但當(dāng)模型規(guī)模增大時(shí),這些優(yōu)化就不再有效了——模型訓(xùn)練的不確定性仍然非常大,有很多的因素會(huì)導(dǎo)致模型訓(xùn)練的失敗。

      之前在硅谷101的播客錄制中,我們的嘉賓Bill Zhu也跟我們分享了訓(xùn)練模型中會(huì)出現(xiàn)很多模型崩潰的情況,甚至可能會(huì)在強(qiáng)化學(xué)習(xí)過程中出現(xiàn)所謂的"災(zāi)難性遺忘"。

      你是不可以無限制訓(xùn)練模型本身的,就是你訓(xùn)練到某一個(gè)程度它就會(huì)fall apart(崩潰)。其實(shí)在RL領(lǐng)域之前很經(jīng)??吹浇衏atastrophic forgetting(災(zāi)難性遺忘)——在你訓(xùn)練很久很久以后,它開始忘記所有過往學(xué)到的知識(shí),然后整個(gè)模型像瘋了一樣,所有原來的policy(決策策略)都消失。

      這是為什么你一開始模型要變得足夠大,其實(shí)就像海綿一樣,然后你往里面不停地注水,然后你注水注到一定程度它滿了,那你再往里面注水,就會(huì)流出來一些,但流出來的不一定是注入的水,很有可能是原來已經(jīng)有的一部分水,甚至是很重要的水。

      就像你大腦里面不停地灌輸知識(shí),然后最后過載了,把加減乘除忘了,那剩下的所有知識(shí)體系就直接fall apart(崩潰)。這個(gè)問題本身叫model plasticity(模型可塑性),就是說它的可塑性到了某種程度就直接崩潰了,然后你要怎么去解決這個(gè)問題?叫Continual Learning(持續(xù)學(xué)習(xí)),現(xiàn)在可能你有一天會(huì)人類生成一個(gè)terabyte of data(1TB的數(shù)據(jù)),那10天是10 個(gè)terabyte(TB),那未來可能生成數(shù)據(jù)還會(huì)越來越多,那你怎么能夠用一個(gè)模型無限地去訓(xùn)練它,讓它仍然能夠?qū)ξ磥淼闹R(shí)進(jìn)行獲取?這是不可能的。

      這樣看來,以Transformer架構(gòu)為基礎(chǔ)的LLM模型發(fā)展,如今確實(shí)可能到了一個(gè)關(guān)鍵的時(shí)刻,或者需要一個(gè)完全不同的新架構(gòu)來突破技術(shù)壁壘。

      03 未來AI進(jìn)化路徑,強(qiáng)化學(xué)習(xí)、多模態(tài)、JEPA

      接下來前沿的大模型該如何繼續(xù)優(yōu)化呢?我們跟身邊的技術(shù)大牛聊了一圈,總結(jié)了三種方式:第一是強(qiáng)化學(xué)習(xí),第二押注多模態(tài)能力提升帶來的突破,而第三,是尋找其它的框架范式。

      首先是強(qiáng)化學(xué)習(xí)路線(Reinforcement learning),簡稱RL,包括RL在預(yù)訓(xùn)練階段的嘗試。

      我先講講以RL為核心的訓(xùn)練機(jī)制為了解決什么問題。很多的任務(wù)是以目標(biāo)驅(qū)動(dòng)的,比如說寫代碼,比如說數(shù)學(xué)、物理、金融機(jī)構(gòu)的一些東西,再比如城市規(guī)劃,你做Operations research(運(yùn)籌學(xué))、供應(yīng)鏈這些東西它都是有明確目標(biāo)的,世界機(jī)制也很完整。如果A發(fā)生了會(huì)出現(xiàn)B。在這種情況下,Pre-training(預(yù)訓(xùn)練)就變得不是很有必要。

      這種專業(yè)型的目標(biāo)為驅(qū)動(dòng)的場景,大多數(shù)都是沒有任何的數(shù)據(jù)的。數(shù)學(xué)跟代碼是僅有的兩個(gè)可能數(shù)據(jù)點(diǎn)相對多的場景。除此以外,我剛剛說的剩下的那些點(diǎn)基本上都沒什么數(shù)據(jù),你很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成訓(xùn)練。

      本質(zhì)上它要解決的問題是非常泛化的,而市面上已經(jīng)出現(xiàn)的數(shù)據(jù),大多數(shù)都聚焦在一些經(jīng)常會(huì)發(fā)生的代碼問題和數(shù)學(xué)問題。而那些非常高深難測的數(shù)學(xué)問題,它是從來沒有出現(xiàn)過的,它必須要通過一個(gè)反事實(shí)的形式,就是我要生成一些市面上從來沒有出現(xiàn)過的代碼、數(shù)學(xué)、物理規(guī)劃等等的輸出。然后靠一個(gè)ground truth(真實(shí)標(biāo)簽)的validator(驗(yàn)證器)來告訴我做得對不對,然后去self-train(自我訓(xùn)練)。這種訓(xùn)練方式是非常適合于這種有真實(shí)標(biāo)簽、能夠做出精確判斷的這種用例,然后去進(jìn)行優(yōu)化。

      這是RL最閃光的時(shí)候了,其實(shí)有很多研究在網(wǎng)上都說過,其實(shí)現(xiàn)在最大的問題是驗(yàn)證,我如果能夠找到一個(gè)好的verifier(驗(yàn)證器),我可以認(rèn)為問題解決了。因?yàn)榭梢酝ㄟ^RL去完成對于這個(gè)驗(yàn)證器的優(yōu)化就可以了。

      Bill說的"驗(yàn)證"是RL中非常重要的關(guān)鍵,也是The Information爆料中,GPT-5在RL上的殺手锏。

      報(bào)道說,OpenAI一直在開發(fā)一個(gè)被稱為"universal verifier"(通用驗(yàn)證器)的技術(shù):讓一個(gè)大語言模型使用各種來源的研究,來檢查和評估另一個(gè)模型的答案。它可以自動(dòng)執(zhí)行,確保模型在強(qiáng)化學(xué)習(xí)過程中生成高質(zhì)量答案。

      這個(gè)方向就像我們當(dāng)年看到Alpha Zero打敗人類一樣,它所能夠走出的一些路子是人類正常想象不到的。通過這個(gè)機(jī)制,甚至可以發(fā)現(xiàn)新的物理定理,它可能可以真正去發(fā)現(xiàn)人類所不擁有的知識(shí),這可能是下一步我覺得真正邁向super intelligence(超級(jí)智能)的一個(gè)關(guān)鍵點(diǎn),但目前還沒有很好的一個(gè)突破。

      而接下來,需要各大模型公司去探索的第二條路,就是多模態(tài)。

      就像前面我們說到的,大語言模型的維度是非常有限的,而多模態(tài),以及世界模型將對接下來AI的發(fā)展至關(guān)重要。

      我們要注意多模態(tài),因?yàn)槎嗄B(tài)一旦引入,它就有非常復(fù)雜的工作流,比如說你要用瀏覽器,你要用數(shù)學(xué),你要用代碼,你要使用各種復(fù)雜的工具。然后包括多模態(tài)的使用,比如說,你看GAIA(Generalized AI Agent benchmark,一種面向生成式AI的基準(zhǔn)測試)提出來的框架,它其實(shí)是非常復(fù)雜的任務(wù),人類去完成都可能要6-15分鐘,如果AI不斷地把時(shí)間降到6分鐘以下,我覺得這也是學(xué)術(shù)界、創(chuàng)業(yè)公司一直在追求的。比如說我們在金融領(lǐng)域去做很復(fù)雜的自動(dòng)交易策略,包括給網(wǎng)紅們?nèi)プ霭l(fā)帖,其實(shí)這里面有非常復(fù)雜的步驟。

      你怎么把它的boundary(能力上限)提高。我覺得兩個(gè)層面,一個(gè)是在應(yīng)用這樣的multi-agent(多智能體)系統(tǒng),不斷去推高需求;另外一個(gè)是在某些能力層面,大家不斷地去螺旋式上升,自己訓(xùn)更大的model(模型),當(dāng)模型因?yàn)樗懔湍茉聪拗频臅r(shí)候,它就會(huì)去做multi-model(多模型)的組合。

      所以上面是多智能體,下面是多模型,我覺得這個(gè)是接下來我比較看好的兩到三年的一個(gè)發(fā)展路線圖。

      對于大方向的突破,我感覺應(yīng)該肯定會(huì)發(fā)力在多模態(tài)上面,特別是在視頻跟world model(世界模型)上面。因?yàn)槿祟惖恼Z言本身是一個(gè)非常大的compression(壓縮包),它的信息搭載量和視頻的信息是一個(gè)數(shù)量級(jí)的差異,這件事情我同意Yann LeCun的說法,人類從視覺、聽覺、觸覺各方面的多維度信息采取、吸收量,是要比純文字要高出大幾個(gè)數(shù)量級(jí)的。

      文字訓(xùn)練的一個(gè)假設(shè)是:我如果能夠通過一些簡單規(guī)則,比如reinforcement(強(qiáng)化學(xué)習(xí)),fine tuning(微調(diào))或者reward model(獎(jiǎng)勵(lì)模型),通過一個(gè)簡單規(guī)則或者簡單的判斷方式,或者訓(xùn)練出來、或者寫出來的判斷方式,能夠去判斷一個(gè)模型的好壞、告訴你怎么去提升這個(gè)模型。它就相當(dāng)于一個(gè)文字領(lǐng)域的world model(世界模型)。比較復(fù)雜的點(diǎn)是,當(dāng)出現(xiàn)了多模態(tài)視頻,可以navigate environment(導(dǎo)航環(huán)境)之后,它的評估難度就會(huì)高很多。從純pixel(像素)的方式去做評估,這個(gè)是目前機(jī)器人技術(shù)領(lǐng)域肯定沒有解決的問題。

      如果world model(世界模型)能有大幅度提升的話,我們有一個(gè)很大的機(jī)會(huì)能夠去訓(xùn)練,比如說視頻理解的模型、機(jī)器人技術(shù)的基礎(chǔ)模型、游戲的基礎(chǔ)模型,這些基礎(chǔ)模型的誕生再給到一個(gè)機(jī)會(huì),讓我們?nèi)ズ竺嬖偃プ鰌ost-training(后訓(xùn)練),它可以在整個(gè)多模態(tài)的世界里面創(chuàng)造text-based model(基于文字的模型)的一個(gè)同樣的可以復(fù)制的成就。

      然而在那些領(lǐng)域當(dāng)中,它所代表的市場份額,或者整個(gè)市場的空間,其實(shí)比純文字的市場空間要更大。它可以把一個(gè)純文字交流式的非常壓縮信息的系統(tǒng)拓展成一個(gè),或者是線上的非常豐富的信息,或者說視覺、聽覺、觸覺的一部分,或者直接線下的機(jī)器人技術(shù)的東西,它們的能夠部署的這個(gè)領(lǐng)域有一個(gè)非常大的延展,所以我覺得我剛剛說的像世界模型這個(gè)方向,視覺的方向,一定是下一步最重要發(fā)力的方向。

      而多模態(tài)之戰(zhàn)確實(shí)在最近變得非常激烈,谷歌最近發(fā)布世界模型Genie 3,這在一些業(yè)內(nèi)人士看來,重要性是要超過GPT-5的,我們《硅谷101》也在操作這個(gè)選題了,很快會(huì)放出來,所以大家記得關(guān)注我們的賬號(hào),不要錯(cuò)過更新哦。

      此外,Bill提到的圖靈獎(jiǎng)得主Yann LeCun近年來提出的核心研究方向叫做Joint Embedding Predictive Architecture,簡稱JEPA,翻譯過來是"聯(lián)合嵌入預(yù)測架構(gòu)",旨在克服大語言模型的局限,推動(dòng)AI理解物理世界。

      JEPA本身它是把所有模型的訓(xùn)練放到Latent(潛層)空間中去完成。它在潛層空間的話,對于你的輸入是有一個(gè)抽象的表達(dá),對于你的輸出也是一個(gè)抽象表達(dá),這樣你就可以再把輸入、輸出都同時(shí)放到這樣的一個(gè)維度空間中訓(xùn)練。然后再給到它不同狀態(tài)的量,讓它可以在潛層空間中去預(yù)測"我下一個(gè)動(dòng)作應(yīng)該是怎么樣的"或者"我下一個(gè)應(yīng)該預(yù)測的,是怎樣的一個(gè)狀態(tài)?"它在這個(gè)過程中就不是一幀或一個(gè)一個(gè)像素去預(yù)測的,而是把你遮擋了的某一塊可以整體地給預(yù)測出來。

      JEPA本身其實(shí)也分I-JEPA(image圖像JEPA)和V-JEPA(video視頻JEPA)。最新發(fā)表這個(gè)文章其實(shí)也表現(xiàn)出,在預(yù)測整個(gè)視頻中的事物變化時(shí),也取得了非常好的表現(xiàn)。所以,我個(gè)人比較看好一些非transformer的架構(gòu),是否在未來可以給我們一個(gè)真正的智能,更加接近或模擬我們?nèi)四X思考的一個(gè)方式。

      我覺得transformer的局限性是存在的,但我們也有其他架構(gòu)作為替代方案,也有不同的團(tuán)隊(duì)在進(jìn)行探索。所以大家可能也需要去關(guān)注一些非transformer方面的模型究竟是怎么樣去模擬人類的智能。

      04 GPT-5被過度營銷反噬,但AI進(jìn)化不會(huì)停止

      最后還想說,這次GPT-5的翻車與Sam Altman之前過于浮夸的營銷分不開

      在發(fā)布會(huì)之前,他在X上的各種預(yù)熱還有用詞,一會(huì)兒在他弟弟的播客上感嘆自己"相對于AI毫無用處",一會(huì)兒又在X上曬出與GPT-5的聊天截圖,各種"暗示",但又保持神秘,吊足了公眾的胃口,把期待值拉得太高。

      結(jié)果發(fā)布會(huì)出來,大家都愣了。所以,這次發(fā)布會(huì)的失利也是被視為"營銷鬼才"的Sam Altman太過度營銷的一次反噬。

      總結(jié)一下,長期來看,到達(dá)AGI之前,我們可能還有很多工作要做,還有很多技術(shù)壁壘需要突破,而這些突破需要腳踏實(shí)地的研發(fā)和創(chuàng)新。

      但很遺憾的是,在人類的技術(shù)進(jìn)一步被推進(jìn)之際,OpenAI等大模型公司卻開始在商業(yè)化上變得非常激進(jìn),包括發(fā)布GPT-5之際正式開始打價(jià)格戰(zhàn),來圈地、圈市場份額。

      這讓不少人擔(dān)心,會(huì)不會(huì)這次的GPT-5發(fā)布會(huì)意味著AI泡沫破滅的開始?AI大模型的進(jìn)展是否會(huì)就此停止呢?

      所以我個(gè)人也是比較期待類似像JEPA這樣的一些新的構(gòu)架能夠出現(xiàn),有更多人能進(jìn)行探索,而不是因?yàn)閠ransformer現(xiàn)在可以給我們帶來很多經(jīng)濟(jì)利益、經(jīng)濟(jì)價(jià)值,就只是停留在這個(gè)階段,然后一直所有人都寄希望于scaling law能夠繼續(xù)持續(xù)下去。

      從GPT 5的發(fā)布來講,我覺得大家也可以更好地去清醒地認(rèn)識(shí)到transformer本身的局限,可能也有更多人可以去關(guān)注其他的一些替代方案,能夠幫助整個(gè)AI行業(yè)得到更深遠(yuǎn)的發(fā)展。

      最后,雖然我們這個(gè)視頻說了OpenAI和GPT-5這么多"壞話",我個(gè)人其實(shí)還是非常喜歡這款產(chǎn)品,以及我是一個(gè)忠實(shí)用戶,基本上工作、生活都離不開ChatGPT了。

      這場發(fā)布會(huì)讓我看到了ChatGPT朝著一個(gè)更好的AI全能super app的邁進(jìn)。很多功能,在我看來,都將讓我的生活和工作更加高效。

      而看上去OpenAI還會(huì)繼續(xù)優(yōu)化GPT-5的各種性能,到時(shí)候我們也會(huì)為大家跟進(jìn)AI發(fā)展,并進(jìn)一步分析。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容