中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      車云網(wǎng) 15小時前

      理想 VLA 司機大模型,它真能聽懂人話

      原創(chuàng)|路知遙 編輯|Cong

      理想 i8 上線,隨即又對配置和價格進行了調(diào)整。這一系列的操作,圍繞它的爭議著實不少,不管是造型、價格或是小桌板,大家對這臺車的評價褒貶不一。

      但也有不少人認為,大家其實并沒有真正認識到理想 i8 的殺手锏。理想的 VLA 司機大模型與 i8 同步發(fā)布,按照計劃也會同步升級到所有 AD Max 車型上,包括了 Thor-U 平臺和 Orin-X 平臺,這意味著除了 i8 的用戶,還會有大量的理想車主能在第一時間體會到 VLA 司機大模型的智駕實力。

      VLA 司機大模型到底有什么不一樣?今天,結(jié)合著上周基于 i8 的 VLA 司機大模型的上車體驗簡單來說一說。

      BEV → 端到端 +VLM → VLA

      應(yīng)該說理想在過去幾年,每年都有在智駕上的大動作。前年是 BEV,去年是端到端 +VLM,到了今年變成了 VLA。不明所以的人難免覺得理想一年一套東西,新概念頻出,感覺都要去「考研」了。但其實,這三年一步一個臺階,其實一切都在同一個線路上穩(wěn)步提升。

      VLA 本身代表的就三個層面的結(jié)合,分別是:V 是 Vision(視覺),L 是 Language(語言),A 則是 Action(行動)。如果要把三代路徑打通,那么 BEV 的本質(zhì)是鳥瞰試圖,對應(yīng)的是視覺層面的大模型。而端到端 +VLM 則是兩段的融合,端到端結(jié)合了視覺和行動兩個層面的大模型,而 VLM 則是視覺語言大模型,簡單來說在這個階段其實 VLA 里面的三個層面都已經(jīng)出現(xiàn),唯一的問題是并沒有做到三個層面的一個維度里的完整結(jié)合。

      所以,端到端 +VLM 的本質(zhì)是模仿學(xué)習(xí),李想自己也把這套雙系統(tǒng)架構(gòu)比喻為「猴子開車」,雖然智駕能力提升了很多,但是還是無法達到人類頂級職業(yè)司機的水平。而在 VLA 則是強化學(xué)習(xí),它解決了端到端的模仿學(xué)習(xí)不具備深度的邏輯思維能力的挑戰(zhàn),打破了端到端和 VLM 之間的溝通壁壘,以端到端 +VLM 的上限為起點,把整個智駕表現(xiàn)又進行了一次提升。

      思考、溝通、記憶、自我學(xué)習(xí)

      在這種能力的加持下,VLA 司機大模型在思考、溝通、記憶和自我學(xué)習(xí)四項能力上都有提升,在實際路面表現(xiàn)中,在一些場景下展示出不同以往的一些特點。

      比如說最直觀的一個感受,VLA 司機大模型在大屏上是可以看到完整的 CoT 推理過程的。對此,理想的工程師也反饋,其實如果沒有 CoT 而是直接讓模型來做決策,也是完全可行的。但理想希望在這個過程中,在決策偏復(fù)雜或是路口場景比較豐富的時候,展示模型「多兩步」的思考決策過程,同時借助這個過程和用戶建立一些溝通和信任。

      另外就是,對于語義指令的理解能力的確有明顯的提升。在實際試駕中,印象比較深的其實是在根據(jù)要求完成靠邊停車之后,用戶還可以對 VLA 司機大模型提出「往前再走 XX 米」這種訴求,展現(xiàn) VLA 司機大模型對于距離的準確判斷和控制。(事實上,人眼對于距離的判斷反而不那么準確,實際試駕中就出現(xiàn)過我希望車向前挪 30 米但其實 30 米位置上有其他的障礙車輛已經(jīng)占據(jù)位置的情形)

      而在 workshop 的演示中也有一個類似的場景,我們可以通過語音助手要求 VLA 司機大模型「在藍色車前面靠邊停一下」,這樣一個指令可以算是對于 VLA 三個層面的統(tǒng)一調(diào)度的最佳演示,不管是對于顏色還是距離還是周邊障礙的識別,VLA 都給出了比較讓人滿意的表現(xiàn)。

      類似的,在記憶的層面上,理想是可以通過語音助手實現(xiàn)比如「這條路以后開 XX 速度」的指令,并且實現(xiàn)對這一路段的記憶。這并不是說這個功能「無可挑剔」,在 workshop 上一位媒體老師提出的問題就很有意思:這條路以后開 70 的記憶指令 VLA 的確能記住,但這條路非常非常長,路況復(fù)雜多變,這個記憶是會完整適配到這條路上,還是說只會在這一段上生效呢?

      當然大家不用很擔(dān)心,在 VLA 司機大模型下,根據(jù)實際路面情況做出判斷一定是必備技能,記住喜好是一回事,而保證安全才是更重要的指標。

      所以很多時候,面對 VLA 司機大模型,我們的確可以做到「動動嘴皮子」就能開車,這也符合 VLA 司機大模型打造一個更好的家庭司機的理念。但如果開口就能開車,后排或者乘客是不是也可以借助語音助手介入駕駛環(huán)節(jié)呢?在這一點上理想早早做出了預(yù)案,借助語音的定位,屏蔽了除主駕以外的其他座位發(fā)出的和駕駛相關(guān)的所有命令。

      數(shù)據(jù)、算法、算力、工程能力

      在 workshop 中,理想自動駕駛高級算法專家詹錕就反復(fù)強調(diào)了四點:數(shù)據(jù)、算法、算力和工程能力。這四點對于理想率先推出 VLA 有著重大意義。

      在銷量增長下,理想的有效數(shù)據(jù)已經(jīng)在上個月來到 12 億公里。以海量用戶行駛數(shù)據(jù)為基礎(chǔ),理想還有強大的生成數(shù)據(jù)能力,可以在仿真世界里創(chuàng)造出無數(shù)的 Corner Case 來訓(xùn)練模型,全面提升評測效率,縮減測試周期,降低測試成本。同時,13EFLOPS 的龐大算力,也為這種復(fù)雜的訓(xùn)練和仿真提供了算力保障。

      一個數(shù)據(jù)說明了現(xiàn)階段理想研發(fā) VLA 司機大模型的效率優(yōu)勢:在 2023 年時,理想對于自動駕駛的評測成本是每公里 18.4 元;這個數(shù)據(jù)在去年已經(jīng)下降到 4.84 元 / 公里;而今年上半年,這一成本已經(jīng)進一步壓縮到 0.53 元 / 公里。同時,今年上半年借助仿真測試,理想已經(jīng)完成了超過 4000 萬公里的評測,這個數(shù)字是去年全年的 8 倍。

      在這樣的基礎(chǔ)上,我們也很容易好奇:VLA 司機大模型的上限到底在哪里?詹錕認為,這取決于模型、芯片和數(shù)據(jù)三者的共同進化。隨著大模型推理效率的提升和芯片算力的增強,VLA 處理未知場景的 Few-shot 能力會越來越強。也許過不了很久,它就能看懂全國各地各不相同的紅綠燈信號燈,也能準確判斷大部分的交警手勢,成為一名真正的老司機。

      應(yīng)該說,現(xiàn)階段的 VLA 司機大模型肯定不是那個能讓你在后排安心睡去的完美代駕。但其實我們在理想園區(qū)內(nèi),已經(jīng)體驗到了基于 VLA 司機大模型打造的 L4 級別無人小巴,也讓我們感受到了 VLA 的上限卻有更多暢想空間。VLA 已經(jīng)初步具備了思考能力,這標志著智能駕駛正在進入由 AI 驅(qū)動的全新時代。這條路的終點依然遙遠,但 VLA 的出現(xiàn)還是讓未來更加明晰了一些。

      我就知道你 " 在看 "

      相關(guān)標簽

      最新評論

      沒有更多評論了