2025 年 8 月的最后一個(gè)星期,中國智能駕駛被驟然按下快進(jìn)鍵——從算法底座到整車 OTA,行業(yè)在短短幾天內(nèi),呈現(xiàn)出了"VLA 齊爆發(fā) "的景觀。
VLA,即 Vision-Language-Action,視覺 - 語言 - 行動(dòng)模型。VLA 的快速商業(yè)化落地,正在重新定義 " 高階智駕 " 的技術(shù)門檻。
首先是理想汽車借純電旗艦 i8 上市窗口,首次向全量用戶推送 "VLA 司機(jī)大模型 ";元戎啟行于 8 月 26 日正式發(fā)布自研 VLA 大模型,推出名為 DeepRoute IO 2.0 的新平臺(tái),確定將在 5 款車型上使用,覆蓋累計(jì)約 20 萬臺(tái)車。
緊接著,小鵬汽車在 8 月 27 日的新 P7 發(fā)布會(huì)上端出新一代 VLA 架構(gòu),宣稱時(shí)延、規(guī)劃幀率 20 Hz,刷新量產(chǎn)天花板。
與此同時(shí),華為代表的另一大路線—— WA(世界行為模型),也正在緊密地醞釀中。ADS 4.0 將在 9 月隨問界 M9 年度改款 OTA,試圖重新劃定城區(qū)智駕的體驗(yàn)基線。
VLA 掀起的新一輪競爭,不僅將決定中國車企的未來競爭地位,更可能引發(fā)整個(gè)智駕產(chǎn)業(yè)的重新洗牌。
新的門檻
如果要對(duì) VLA 路線的技術(shù)優(yōu)勢,做一個(gè)簡單的概述,這樣的優(yōu)勢大致就是:
與傳統(tǒng)端到端路線相比,VLA 通過用語言和文字這一中間環(huán)節(jié),將具象化的路況、圖像,進(jìn)行歸類,并進(jìn)行 " 抽象化 ",而不只是單純地對(duì)看過的數(shù)據(jù) " 死記硬背 ",從而讓模型能取得更好的泛化能力。
同時(shí),在具備思維鏈(CoT)能力后,VLA 模型能分解駕駛決策為邏輯連貫的中間步驟,增強(qiáng)決策邏輯性、系統(tǒng)可解釋性及泛化能力。
當(dāng)人類駕駛員面對(duì)突發(fā)路況時(shí),會(huì)本能地完成 " 觀察→判斷→動(dòng)作 " 的連貫認(rèn)知過程。
然而,由于多了 " 語言 " 這一層數(shù)據(jù),VLA 對(duì)算力與數(shù)據(jù)的胃口,已把 " 上車 " 門檻抬高到傳統(tǒng)方案無法企及的高度。算力側(cè),訓(xùn)練端需吞吐 22T token 級(jí)多模態(tài)數(shù)據(jù),單次訓(xùn)練即等價(jià)于 DeepSeek-V3 1.5 倍規(guī)模;
數(shù)據(jù)側(cè),VLA 需同步采集并標(biāo)注視覺 - 語言 - 動(dòng)作三元組,理想訓(xùn)練所用的數(shù)據(jù),90% 來自 29.3 億 km 實(shí)車日志,10% 由生成式仿真補(bǔ)足,長尾極端場景(雨夜、施工、異形障礙物)需額外 5 — 10 倍數(shù)據(jù)密度才能收斂,導(dǎo)致單車數(shù)據(jù)成本與端到端時(shí)代相比陡然增加。
在算力方面,理想、小鵬分別動(dòng)用 13 EFLOPS 與 8 EFLOPS 云端集群,僅千卡周級(jí)調(diào)度才能滿足 30B — 72B 參數(shù)模型的收斂窗口。公開數(shù)據(jù)顯示,國內(nèi)中小車企云端訓(xùn)練集群普遍停留在 0.2 — 0.6 EFLOPS,僅為理想 5.39 EFLOPS 的十分之一,更遑論特斯拉 Dojo 年底 100 EFLOPS 的量級(jí)。
以哪吒為例,其烏蘭察布 GPU 集群峰值 180 PFLOPS,尚不足以在 30 天內(nèi)完成一次 7B 參數(shù) VLA 模型收斂;若租用公有云,按當(dāng)前 A100/H100 現(xiàn)貨價(jià)折算,單次訓(xùn)練即需 1.2 – 1.5 億元人民幣,相當(dāng)于其 2024 年全年研發(fā)預(yù)算的 40%。
這意味著,VLA 的量產(chǎn)落地是" 千卡訓(xùn)練云+千 TOPS 車端+千億級(jí)數(shù)據(jù) "三線并進(jìn)的極限工程,任何一環(huán)缺口都會(huì)把 ROI 拉成負(fù)值。
對(duì)于年銷量僅十余萬輛的中小車企而言,如此高昂的投入難以通過規(guī)?;瘮偙?,且失敗風(fēng)險(xiǎn)高企。正如元戎啟行 CEO 周光指出,一家智駕公司需交付 10 萬輛級(jí)量產(chǎn)車,才具備搭建 VLA 架構(gòu)的基本數(shù)據(jù)基礎(chǔ)。
更重要的是,從規(guī)則時(shí)代到 VLA 的躍遷并不是一次可折疊的跨越,而是一段必須在工程實(shí)踐中逐級(jí) " 淬火 " 的鏈?zhǔn)椒磻?yīng)。
行業(yè)洗牌
在 VLA 路線所需的高昂成本面前,中小車企面臨的生存困境愈發(fā)明顯,除了算力與數(shù)據(jù)方面的差距外,從規(guī)則時(shí)代到端到端 1.0 積累的先發(fā)優(yōu)勢構(gòu)建的技術(shù)護(hù)城河,也是多數(shù)二線品牌難以復(fù)現(xiàn)的關(guān)鍵環(huán)節(jié)。
最初,規(guī)則算法用顯式代碼與人工先驗(yàn),把駕駛?cè)蝿?wù)拆解為可驗(yàn)證的模塊,給團(tuán)隊(duì)留下可解釋、可追責(zé)的體系化思維與場景分類框架;
進(jìn)入端到端 1.0 后,系統(tǒng)首次用大規(guī)模標(biāo)注數(shù)據(jù)替代人工規(guī)則,逼迫組織完成數(shù)據(jù)閉環(huán)、工具鏈、DevOps 的原始積累,同時(shí)暴露出長尾場景對(duì)數(shù)據(jù)密度的極端需求;
最終在邁向 VLA 時(shí),團(tuán)隊(duì)需要把前兩階段沉淀的工程學(xué)積累整體遷移到新框架里,才能形成 " 視覺 - 語言 - 行動(dòng) " 的高度統(tǒng)一。
在這樣的差距下,VLA 路線的降臨,無疑會(huì)讓行業(yè)迎來一次 " 大洗牌 "。中低端車企、品牌,要么難以在新時(shí)代生存,要么只能淪為 " 方案外購者 ",或成為車企的富士康 ",成為低端代工,利潤被芯片廠和算法公司兩頭吃。
在端到端 1.0 時(shí)代,雖然絕大多數(shù)中低端車在 " 數(shù)據(jù) - 模型 - 芯片 " 三件套中,極少能完全自研,本質(zhì)上是 " 拼積木 " 式集成。
但過去車企可以掏錢買 Orin、買算法、買標(biāo)注,大家都能活得不錯(cuò)。
例如哪吒、零跑、寶駿等普遍采用英偉達(dá) Orin-X 或地平線征程 5 的 " 公版域控 ";數(shù)據(jù)方面,零跑 C10 的 2.1 億公里有效里程中,60% 標(biāo)注任務(wù)由 Momenta、覺非科技完成;
但是到了端到端 2.0 時(shí)代," 外包式生存 " 在 2.0 時(shí)代被上游供應(yīng)商自己 " 關(guān)門 " 了——由于 VLA 路線導(dǎo)致的算力、數(shù)據(jù)成本驟增,現(xiàn)在這三樣變成了 " 限量款 ",而且限量權(quán)掌握在極少數(shù)巨頭手里。
例如英偉達(dá)今年首批 Thor-U 的 40 萬片產(chǎn)能,早已被理想、蔚來、小鵬在 2024 年就簽完長期鎖價(jià)鎖量協(xié)議,拿走 32 萬片,只留 8 萬片現(xiàn)貨需要溢價(jià) 30% 競拍。
原本 " 誰掏錢誰就能買到 " 的開放供應(yīng)鏈,在 2025 年因?yàn)樾酒必?、模型架?gòu)改變導(dǎo)致的算法改捆綁、被壓縮成 " 少數(shù)玩家內(nèi)部閉環(huán) ",中小車企連 " 買方案 " 這條退路都被截?cái)唷?/p>
再此情況下,中小車企面臨的生存困境愈發(fā)明顯,當(dāng)頭部企業(yè)通過 " 芯片 - 數(shù)據(jù) - 模型 " 的閉環(huán)能力構(gòu)建起技術(shù)壁壘時(shí),中小車企便陷入一個(gè)死循環(huán):買芯片沒配額,買模型要持續(xù)分成,攢數(shù)據(jù)沒錢也沒人。
中小車企唯一還能做的,就是融入供應(yīng)鏈,把整車制造、沖壓焊接、總裝測試這些傳統(tǒng)環(huán)節(jié)做到極致良率和極致成本——這正是富士康在手機(jī)行業(yè)扮演的角色。
頭部之變
盡管現(xiàn)在的 VLA 模型十分火熱,但在智駕方面,并不是所有車企都認(rèn)可這一路線。
除了 VLA 路線,目前華為和蔚來主推的是另一條路線:世界模型(WA)。其核心思路,是" 海量使用云端模擬的數(shù)據(jù)、來讓大模型‘理解’世界而學(xué)會(huì)駕駛 "。
例如華為的 World Action Model 模型,用擴(kuò)散生成模型批量 " 造 "Corner case,也就是通過 AI 生成的大量的視頻案例,來讓模型明白何為物理規(guī)則。
而 WA 與 VLA 兩條路線的區(qū)別,或許可以概述為:世界模型是 " 理想主義的未來豪賭 ",VLA 是 " 實(shí)用主義的當(dāng)下生存 "。
但在華為看來,語言模型擅長文本推理,卻缺乏對(duì)三維空間的精確感知與運(yùn)動(dòng)推演能力。
而車,畢竟是在真實(shí)空間中運(yùn)動(dòng)的物體,毫厘之差可能就意味著風(fēng)險(xiǎn)。
唯有讓模型真正理解物理規(guī)則,才能從根本上解決端到端模型 " 只會(huì)模仿、不會(huì)思考 " 的瓶頸。
盡管世界模型看上去更 " 終極 ",但 VLA 這條更 " 務(wù)實(shí) " 的路線,對(duì)理想、小鵬等車企來說,仍然有著 " 改命 " 的意義。
而小鵬目前在純電市場追趕比亞迪、特斯拉,其正在推進(jìn)的機(jī)器人也需要通用 AI 基座。小鵬選擇 VLA 混合架構(gòu),本質(zhì)是 " 一箭雙雕 ":其 72B 云端基座模型,本質(zhì)是 VLA 的超大型版本,既服務(wù)汽車,也為將來的機(jī)器人鋪路。
對(duì)二者來說,VLA 是" 唯一能把長尾一口氣吃掉 " 的可行框架,并且,理想、小鵬積累的數(shù)據(jù)密度已經(jīng)足夠讓 VLA 越過 " 冷啟動(dòng)死亡谷 ",這是后來者無法復(fù)制的壁壘。
從市場的角度看,雖然華為與 Momenta 已占據(jù) 2025 年智駕市場 90% 份額。這樣的雙寡頭地位難以撼動(dòng)。且華為現(xiàn)在的智駕地位,靠的不是單模型大小、強(qiáng)弱,而是" 數(shù)據(jù) + 軟硬一體 + 車廠 " 綁定三位一體的護(hù)城河。
然而,VLA 大模型的普及,會(huì)顯著改變競爭格局,形成技術(shù)路線分化、市場份額重組。
傳統(tǒng)智駕模型是:你給多少場景、多少樣本,模型就記住多少,每新增一個(gè)少見場景都得補(bǔ)數(shù)據(jù)。華為在這層面確實(shí)通過規(guī)模碾壓了競爭對(duì)手。
但是 VLA 模型不同。它的魔力在于多模態(tài)學(xué)習(xí)和推理能力——一方面通過 " 視覺 + 語言 + 行為 " 三種輸入,讓模型 " 理解 " 得更深刻,不只是記住,而是學(xué)會(huì)類人推理;這使理想、小鵬等車企,在長尾場景上也能獲得接近華為的表現(xiàn)。
所以,在新一輪的智駕競爭中,現(xiàn)有的格局不會(huì)立刻翻盤,但 VLA 已經(jīng)打開了一個(gè)新的窗口。
可以說,隨著新一輪技術(shù)升級(jí)的到來,中小車企的危局,以及頭部之間差距的縮小,將成為一種愈發(fā)顯著的趨勢。
2025 年既可能華為、特斯拉的 " 巔峰時(shí)刻 ",也可能是理想、小鵬等 VLA 實(shí)踐者的 " 逆襲元年 "。
在這場智能主權(quán)的爭奪中,只有那些率先突破核心壁壘、構(gòu)建差異化優(yōu)勢的企業(yè),才能最終殺出重圍。
本文來自微信公眾號(hào):最話 FunTalk,作者:林書,編輯:劉宇翔