中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      AutoLab 16小時前

      公開質(zhì)疑 VLA 的王興興,或許只是趕在了智駕行業(yè)前面?

      "VLA 能夠解決全自動駕駛,至于 VLA 是否是效率最高的方式還要打個問號。但現(xiàn)階段 VLA 是能力最強的架構(gòu)。"

      李想在 5 月的《理想 AI Talk 第二季》里,提前為理想 i8 身上的最大賣點—— VLA 司機大模型,埋下了伏筆。

      以至于兩個月后的理想 i8 發(fā)布會,有大約四分之一的時間都用在了描繪 VLA 司機大模型多么強大上。

      事實上,不只是理想,長城、奇瑞、極氪、小鵬、零跑等車企均在推進 VLA 模型的研發(fā)和落地。

      從整個智駕行業(yè)的角度來看,VLA 模型也早已取代端到端模型成為新一輪智駕競賽的核心。

      不過,就在當下智駕行業(yè)內(nèi)的人風風火火大干 VLA 模型的時候,宇樹科技 CEO 王興興,這位來自機器人行業(yè)的大佬,卻毫不留情的給 VLA 司機大模型澆了一盆冷水。

      相對 " 傻瓜 " 的 VLA 模型

      8 月 9 日,王興興在 2025 世界機器人大會上直言 VLA 模型是一個相對 " 傻瓜式的架構(gòu) "。

      同時,王興興還表示,自己對 VLA 模型抱一個 " 比較懷疑的態(tài)度 "。

      此言一出,輿論立刻炸開了鍋。極佳視界 CEO 黃冠甚至在朋友圈中吐槽王興興的觀點 " 太業(yè)余 ",并建議王興興以后 " 不要談 AI 了 "。

      在判斷王興興的話究竟是 " 針砭之言 " 還是 " 無稽之談 " 之前,我們先來了解下 VLA 司機大模型究竟是什么。

      VLA 指的是 Vision-Language-Action,也就是視覺 - 語言 - 動作,它能夠在端到端的基礎(chǔ)上,同時通過視覺信息和語音信息來執(zhí)行駕駛動作。

      李想把它的產(chǎn)品形態(tài)比喻為 " 司機 Agent(智能體)",對比的對象自然是同為司機的人類。

      你打車的時候怎么跟司機溝通,就可以怎么跟它溝通。

      短平快的指令就由端側(cè)的 VLA 直接處理,如果指令很復雜,需要理解,就送去云端的基座模型先解析翻譯,然后再交給 VLA。

      聽到這你是不是會有種奇妙的感覺:這不就是有個機器人嗎?

      是的,VLA 模型雖然因智駕而被更多人所熟知,但它最早其實是應用在機器人身上的。

      2024 年 10 月,斯坦福大學發(fā)布了全球首個開源 VLA 模型 OpenVLA,成功驗證了 VLA 模型在機器人的實際操作中擁有更強的泛化能力。

      此后經(jīng)過在機器人行業(yè)和智駕行業(yè)的落地應用后,VLA 模型的確展現(xiàn)出了十分強大的實用價值。

      它更像是端到端和 VLM 用上了融合卡,在面對一些人類都頭疼的潮汐車道、長時序推理等特殊場景時,VLA 思考理解的方式能更像人,處理的方式則比人更好。

      如果說此前的 VLM 還局限在 2D 圖像上,那 VLA 則已經(jīng)擁有一個完整的大腦,能通過語言和邏輯推理能力解決問題。

      我們《超級開箱》也提前體驗了,感興趣的朋友可以點擊視頻觀看。

      聽起來似乎 VLA 就是打開自動駕駛大門的那把鑰匙,但在王興興看來,現(xiàn)階段的 VLA 模型存在一道非常棘手的問題,就是它所采集的真實世界交互的數(shù)據(jù)是不夠的。

      為了解決這一問題,王興興說他們嘗試了在 VLA 模型的基礎(chǔ)上再加上一個 "RL",也就是強化學習,但最終發(fā)現(xiàn)還是 " 不夠用 "。

      相對于 VLA+RL,王興興發(fā)現(xiàn)更好的解決方案其實是世界模型。

      王興興表示,宇樹在去年就開始利用預訓練的動作視頻,去控制機器人按照視頻內(nèi)容去執(zhí)行對應動作。

      在王興興看來,由視頻驅(qū)動的世界模型這一技術(shù)方向,可能比 VLA 模型的收斂概率還大。

      但對于世界模型究竟能不能實現(xiàn)技術(shù)收斂,王興興卻又表示 " 不敢打包票 "。

      關(guān)鍵原因就在于,王興興認為世界模型太考驗視頻生成質(zhì)量了,導致對 GPU 的消耗有點大。

      但王興興也表示,對于機器人來說,視頻生成質(zhì)量并不需要很高。

      值得注意的是,在王興興公開懷疑 VLA 之前,理想 i8 發(fā)布會就講過了類似的問題,并且也談到了世界模型。

      箭頭漸漸指向世界模型

      在理想 i8 發(fā)布會上,理想自動駕駛研發(fā)高級副總裁郎咸朋也談到了數(shù)據(jù)不足對 VLA 模型的負面影響。

      郎咸朋分享道,在人類駕駛中,高速和城市快速路占了總里程的 60% 多,而鄉(xiāng)間小路的里程只占了 1% 不到,所以人開車的比例是非常不均衡的,如果以此來進行訓練的話,那么效果是非常差的。

      針對這一問題,郎咸朋表示理想的解決方案是開發(fā)世界模型。

      世界模型能夠生成符合真實物理世界規(guī)律的場景,進而彌補實車數(shù)據(jù)的不足。

      在汽車行業(yè),相對于理想,蔚來對世界模型的應用更加深入。

      早在去年的 7 月份,蔚來就發(fā)布了世界模型,只是一直到今年 5 月份,才推送了首個版本的世界模型,但就實際效果來看,世界模型的表現(xiàn)起碼到現(xiàn)在還沒有那么驚艷。

      不過,根據(jù)蔚來發(fā)布的官方信息,蔚來世界模型對空間理解的能力和長時序的建模能力會更強,進而應對場景表現(xiàn)也會越來越好。

      既然如此,那就先等等看吧。

      此外,王興興對 VLA 模型提出 " 懷疑 " 后,國家地方共建人形機器人創(chuàng)新中心首席科學家江磊在世界機器人大會也表達了自己的觀點。

      江磊表示,感知 - 認知 - 決策 - 執(zhí)行的閉環(huán)尚未閉合,VLA 模型需要重構(gòu),從而尋求新的解決范式。

      國際機器人聯(lián)合會技術(shù)委員會主席亞歷山大 · 維爾(Alexander Verl)則在機器人大會上更直白地講起了 VLA 模型在技術(shù)上的局限,主要包括 7 個方面,分別是:

      無記憶能力;感知缺陷;動作缺失;物體混淆;成功率偏低;語言理解缺陷;反饋缺失。

      與此同時,維爾還指出,VLA 模型訓練成本高昂,在不含訓練數(shù)據(jù)制備成本的前提下,也會達到數(shù)千萬美元。

      至于這些問題的解決方案,維爾的想法與王興興基本一致,也是利用世界模型去學習。

      寫在最后

      VLA 模型是當前智駕行業(yè)最熱門的方向,更多的聲音都是在討論它有多么強大和有價值。

      因此,王興興的 " 懷疑 " 聲音就不免有些刺耳。

      但刺耳歸刺耳,從技術(shù)發(fā)展狀況來看,VLA 大模型注定只是智駕走向終極之前的中轉(zhuǎn)站。

      所以,公開闡釋對 VLA 的懷疑,王興興其實只是趕在了智駕行業(yè)前面。

      而智駕最終是在世界模型那里,還在其他解決方案那里收斂,或許還需要更多的探索和討論。

      END

      相關(guān)標簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了