如果說視覺讓 AI 看見世界,動(dòng)作讓 AI 改變世界,那么——
WorldVLA 正在讓 AI 理解世界。
顧名思義,WorldVLA是一個(gè)將視覺語言動(dòng)作模型(VLA)與世界模型相融合的統(tǒng)一框架,由阿里巴巴達(dá)摩院、湖畔實(shí)驗(yàn)室和浙江大學(xué)共同提出。

世界模型通過結(jié)合對(duì)動(dòng)作與圖像的理解來預(yù)測(cè)未來圖像,旨在學(xué)習(xí)環(huán)境的潛在物理規(guī)律,以提升動(dòng)作生成的準(zhǔn)確性;
動(dòng)作模型則基于圖像觀測(cè)生成后續(xù)動(dòng)作,不僅有助于視覺理解,還反向促進(jìn)世界模型的視覺生成能力。
實(shí)驗(yàn)結(jié)果表明,WorldVLA 的表現(xiàn)顯著優(yōu)于獨(dú)立的動(dòng)作模型與世界模型,充分體現(xiàn)了二者之間的相互增強(qiáng)效應(yīng)。

統(tǒng)一 VLA 與世界模型
如今,VLA 和世界模型雖在分頭并進(jìn),但其在功能上的局限已成為制約發(fā)展的關(guān)鍵瓶頸:
VLA 模型:基于預(yù)訓(xùn)練多模態(tài)大語言模型(MLLM)構(gòu)建,雖具備跨機(jī)器人任務(wù)泛化能力,但僅將動(dòng)作作為輸出,未深度整合為輸入進(jìn)行分析,缺乏對(duì)動(dòng)作的全面理解。
世界模型:能基于當(dāng)前觀測(cè)和動(dòng)作預(yù)測(cè)未來視覺狀態(tài),理解視覺信息與行為動(dòng)態(tài),但無法直接生成動(dòng)作,在需明確動(dòng)作規(guī)劃的場(chǎng)景中應(yīng)用受限。
為了解決上述難題,研究團(tuán)隊(duì)提出了 WorldVLA ——一種用于統(tǒng)一動(dòng)作與圖像理解和生成的自回歸動(dòng)作世界模型。

圖像分詞器采用 VQ-GAN 模型(一種結(jié)合向量量化與生成對(duì)抗網(wǎng)絡(luò)的圖像生成模型),并針對(duì)特定圖像區(qū)域(如人臉、顯著物體等)引入了感知損失優(yōu)化。
值得一提的是,該分詞器的壓縮比為 16,碼本大小為 8192。對(duì)于 256 × 256 的圖像,會(huì)生成 256 個(gè) token;對(duì)于 512 × 512 的圖像,則生成 1024 個(gè) token。
動(dòng)作分詞器將連續(xù)的機(jī)器人動(dòng)作的每個(gè)維度離散化為 256 個(gè)區(qū)間,區(qū)間寬度根據(jù)訓(xùn)練數(shù)據(jù)的范圍確定。動(dòng)作由 7 個(gè) token 表示,包括 3 個(gè)相對(duì)位置、3 個(gè)相對(duì)角度,以及 1 個(gè)絕對(duì)夾爪狀態(tài)。

所有文本、動(dòng)作和圖像都被離散化為 token,并以自回歸方式進(jìn)行訓(xùn)練。
自回歸模型中的標(biāo)準(zhǔn)注意力機(jī)制通常采用因果注意力掩碼(causal attention mask),即當(dāng)前 token 只能訪問前面的 token 信息,而無法獲取后續(xù) token 的信息,如下圖 ( a ) 所示。

為了解決這一問題,團(tuán)隊(duì)提出了一種針對(duì)動(dòng)作生成的替代注意力掩碼,如上圖 ( b ) 所示。該掩碼確保當(dāng)前動(dòng)作的生成僅依賴文本和視覺輸入,而屏蔽之前動(dòng)作的影響。
這種設(shè)計(jì)使自回歸框架能夠并行生成多個(gè)動(dòng)作,世界模型部分則仍遵循傳統(tǒng)的因果注意力掩碼,如上圖 ( c ) 所示。
之后,團(tuán)隊(duì)通過融合動(dòng)作模型數(shù)據(jù)與世界模型數(shù)據(jù)對(duì) WorldVLA 進(jìn)行聯(lián)合訓(xùn)練。
其中,引入世界模型數(shù)據(jù)以增強(qiáng)動(dòng)作生成能力,主要基于三方面考量:
1、環(huán)境物理理解:世界模型能夠通過當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作來預(yù)測(cè)未來觀測(cè),從而學(xué)習(xí)環(huán)境中的物理規(guī)律,這種認(rèn)知對(duì)操作任務(wù)尤為重要。
2、動(dòng)作評(píng)估與規(guī)避風(fēng)險(xiǎn):世界模型能夠模擬并評(píng)估候選動(dòng)作的潛在結(jié)果,有助于規(guī)避可能導(dǎo)致不良狀態(tài)的動(dòng)作。
3、精確動(dòng)作解析:世界模型需要對(duì)動(dòng)作輸入進(jìn)行精確解釋,這反過來支持動(dòng)作模型生成更有效且符合上下文的動(dòng)作。
此外,動(dòng)作模型也能增強(qiáng)視覺理解能力,從而進(jìn)一步支持世界模型的視覺生成。
動(dòng)作模型與世界模型相互助力基準(zhǔn)測(cè)試結(jié)果
由下表可以看出,即使在沒有預(yù)訓(xùn)練的情況下,WorldVLA 模型也展現(xiàn)出優(yōu)于離散化 OpenVLA 模型的性能,這證明了其架構(gòu)設(shè)計(jì)的有效性。

這一現(xiàn)象主要?dú)w因于 Chameleon 主干模型的預(yù)訓(xùn)練策略,其圖像分詞器與大語言模型組件在 512 × 512 分辨率下進(jìn)行了優(yōu)化。
同時(shí),更高的分辨率自然提供了更多的視覺細(xì)節(jié)信息,這對(duì)需要高操作精度的機(jī)器人抓取任務(wù)尤為重要。
世界模型助力動(dòng)作模型
此外,研究還表明引入世界模型能夠顯著提升動(dòng)作模型的性能。
世界模型的核心功能是基于當(dāng)前狀態(tài)與執(zhí)行動(dòng)作預(yù)測(cè)環(huán)境狀態(tài)變化,這一生成機(jī)制促使模型學(xué)習(xí)系統(tǒng)的底層物理規(guī)律,而掌握這種規(guī)律正是實(shí)現(xiàn)抓取等精細(xì)操作任務(wù)的關(guān)鍵前提。

下圖的對(duì)比案例直觀展示了這種優(yōu)勢(shì)。基線動(dòng)作模型會(huì)直接移動(dòng)到目標(biāo)點(diǎn)位卻未能成功抓取奶酪或瓶子,而 WorldVLA 會(huì)持續(xù)嘗試抓取,直到確認(rèn)操作成功后才移向目標(biāo)位置。

在生成質(zhì)量上,WorldVLA 顯著優(yōu)于純世界模型,尤其是在生成較長(zhǎng)的視頻序列時(shí)表現(xiàn)更為突出。



One More Thing
對(duì)于 VLA 與世界模型,小米汽車高級(jí)研究總監(jiān)、主任科學(xué)家陳龍也發(fā)表了公開看法:
VLA 與 WM 不需要二選一,二者可以結(jié)合起來相互促進(jìn)的。
一個(gè)管 " 抽象思考 ",一個(gè)管 " 物理感知 ",VLA+WM 的結(jié)合,才是通往具身智能(AGI)的答案。
論文鏈接:https://t.co/ZgHyhqQnyf
Github 鏈接:https://t.co/SxDZGuhbL7
參考鏈接:https://x.com/EmbodiedAIRead/status/1980216687124476256
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
年度科技風(fēng)向標(biāo)「2025 人工智能年度榜單」評(píng)選報(bào)名火熱進(jìn)行中!我們正在尋找 AI+ 時(shí)代領(lǐng)航者 點(diǎn)擊了解詳情
企業(yè)、產(chǎn)品、人物 3 大維度,共設(shè)立了 5 類獎(jiǎng)項(xiàng),歡迎企業(yè)報(bào)名參與
一鍵關(guān)注 點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見