原創(chuàng)|路知遙 編輯|Cong
理想 i8 上線,隨即又對配置和價格進行了調(diào)整。這一系列的操作,圍繞它的爭議著實不少,不管是造型、價格或是小桌板,大家對這臺車的評價褒貶不一。
但也有不少人認為,大家其實并沒有真正認識到理想 i8 的殺手锏。理想的 VLA 司機大模型與 i8 同步發(fā)布,按照計劃也會同步升級到所有 AD Max 車型上,包括了 Thor-U 平臺和 Orin-X 平臺,這意味著除了 i8 的用戶,還會有大量的理想車主能在第一時間體會到 VLA 司機大模型的智駕實力。
VLA 司機大模型到底有什么不一樣?今天,結(jié)合著上周基于 i8 的 VLA 司機大模型的上車體驗簡單來說一說。
BEV → 端到端 +VLM → VLA
應(yīng)該說理想在過去幾年,每年都有在智駕上的大動作。前年是 BEV,去年是端到端 +VLM,到了今年變成了 VLA。不明所以的人難免覺得理想一年一套東西,新概念頻出,感覺都要去「考研」了。但其實,這三年一步一個臺階,其實一切都在同一個線路上穩(wěn)步提升。
VLA 本身代表的就三個層面的結(jié)合,分別是:V 是 Vision(視覺),L 是 Language(語言),A 則是 Action(行動)。如果要把三代路徑打通,那么 BEV 的本質(zhì)是鳥瞰試圖,對應(yīng)的是視覺層面的大模型。而端到端 +VLM 則是兩段的融合,端到端結(jié)合了視覺和行動兩個層面的大模型,而 VLM 則是視覺語言大模型,簡單來說在這個階段其實 VLA 里面的三個層面都已經(jīng)出現(xiàn),唯一的問題是并沒有做到三個層面的一個維度里的完整結(jié)合。
所以,端到端 +VLM 的本質(zhì)是模仿學(xué)習(xí),李想自己也把這套雙系統(tǒng)架構(gòu)比喻為「猴子開車」,雖然智駕能力提升了很多,但是還是無法達到人類頂級職業(yè)司機的水平。而在 VLA 則是強化學(xué)習(xí),它解決了端到端的模仿學(xué)習(xí)不具備深度的邏輯思維能力的挑戰(zhàn),打破了端到端和 VLM 之間的溝通壁壘,以端到端 +VLM 的上限為起點,把整個智駕表現(xiàn)又進行了一次提升。
思考、溝通、記憶、自我學(xué)習(xí)
在這種能力的加持下,VLA 司機大模型在思考、溝通、記憶和自我學(xué)習(xí)四項能力上都有提升,在實際路面表現(xiàn)中,在一些場景下展示出不同以往的一些特點。
比如說最直觀的一個感受,VLA 司機大模型在大屏上是可以看到完整的 CoT 推理過程的。對此,理想的工程師也反饋,其實如果沒有 CoT 而是直接讓模型來做決策,也是完全可行的。但理想希望在這個過程中,在決策偏復(fù)雜或是路口場景比較豐富的時候,展示模型「多兩步」的思考決策過程,同時借助這個過程和用戶建立一些溝通和信任。
所以很多時候,面對 VLA 司機大模型,我們的確可以做到「動動嘴皮子」就能開車,這也符合 VLA 司機大模型打造一個更好的家庭司機的理念。但如果開口就能開車,后排或者乘客是不是也可以借助語音助手介入駕駛環(huán)節(jié)呢?在這一點上理想早早做出了預(yù)案,借助語音的定位,屏蔽了除主駕以外的其他座位發(fā)出的和駕駛相關(guān)的所有命令。
數(shù)據(jù)、算法、算力、工程能力
在 workshop 中,理想自動駕駛高級算法專家詹錕就反復(fù)強調(diào)了四點:數(shù)據(jù)、算法、算力和工程能力。這四點對于理想率先推出 VLA 有著重大意義。
一個數(shù)據(jù)說明了現(xiàn)階段理想研發(fā) VLA 司機大模型的效率優(yōu)勢:在 2023 年時,理想對于自動駕駛的評測成本是每公里 18.4 元;這個數(shù)據(jù)在去年已經(jīng)下降到 4.84 元 / 公里;而今年上半年,這一成本已經(jīng)進一步壓縮到 0.53 元 / 公里。同時,今年上半年借助仿真測試,理想已經(jīng)完成了超過 4000 萬公里的評測,這個數(shù)字是去年全年的 8 倍。