中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 15小時(shí)前

      阿里新研究:統(tǒng)一了 VLA 和世界模型

      如果說視覺讓 AI 看見世界,動(dòng)作讓 AI 改變世界,那么——

      WorldVLA 正在讓 AI 理解世界。

      顧名思義,WorldVLA是一個(gè)將視覺語言動(dòng)作模型(VLA)與世界模型相融合的統(tǒng)一框架,由阿里巴巴達(dá)摩院、湖畔實(shí)驗(yàn)室和浙江大學(xué)共同提出。

      在該框架下,

      世界模型通過結(jié)合對(duì)動(dòng)作與圖像的理解來預(yù)測(cè)未來圖像,旨在學(xué)習(xí)環(huán)境的潛在物理規(guī)律,以提升動(dòng)作生成的準(zhǔn)確性;

      動(dòng)作模型則基于圖像觀測(cè)生成后續(xù)動(dòng)作,不僅有助于視覺理解,還反向促進(jìn)世界模型的視覺生成能力。

      實(shí)驗(yàn)結(jié)果表明,WorldVLA 的表現(xiàn)顯著優(yōu)于獨(dú)立的動(dòng)作模型與世界模型,充分體現(xiàn)了二者之間的相互增強(qiáng)效應(yīng)。

      下面具體來看。

      統(tǒng)一 VLA 與世界模型

      如今,VLA 和世界模型雖在分頭并進(jìn),但其在功能上的局限已成為制約發(fā)展的關(guān)鍵瓶頸:

      VLA 模型:基于預(yù)訓(xùn)練多模態(tài)大語言模型(MLLM)構(gòu)建,雖具備跨機(jī)器人任務(wù)泛化能力,但僅將動(dòng)作作為輸出,未深度整合為輸入進(jìn)行分析,缺乏對(duì)動(dòng)作的全面理解。

      世界模型:能基于當(dāng)前觀測(cè)和動(dòng)作預(yù)測(cè)未來視覺狀態(tài),理解視覺信息與行為動(dòng)態(tài),但無法直接生成動(dòng)作,在需明確動(dòng)作規(guī)劃的場(chǎng)景中應(yīng)用受限。

      為了解決上述難題,研究團(tuán)隊(duì)提出了 WorldVLA ——一種用于統(tǒng)一動(dòng)作與圖像理解和生成的自回歸動(dòng)作世界模型

      團(tuán)隊(duì)基于 Chameleon 模型進(jìn)行初始化,讓 WorldVLA 使用三套獨(dú)立的分詞器(tokenizer) 對(duì)圖像、文本和動(dòng)作進(jìn)行編碼。

      圖像分詞器采用 VQ-GAN 模型(一種結(jié)合向量量化與生成對(duì)抗網(wǎng)絡(luò)的圖像生成模型),并針對(duì)特定圖像區(qū)域(如人臉、顯著物體等)引入了感知損失優(yōu)化。

      值得一提的是,該分詞器的壓縮比為 16,碼本大小為 8192。對(duì)于 256 × 256 的圖像,會(huì)生成 256 個(gè) token;對(duì)于 512 × 512 的圖像,則生成 1024 個(gè) token。

      動(dòng)作分詞器將連續(xù)的機(jī)器人動(dòng)作的每個(gè)維度離散化為 256 個(gè)區(qū)間,區(qū)間寬度根據(jù)訓(xùn)練數(shù)據(jù)的范圍確定。動(dòng)作由 7 個(gè) token 表示,包括 3 個(gè)相對(duì)位置、3 個(gè)相對(duì)角度,以及 1 個(gè)絕對(duì)夾爪狀態(tài)。

      文本分詞器采用訓(xùn)練好的 BPE 分詞器,詞表大小為 65536,其中包括 8192 個(gè)圖像 token 和 256 個(gè)動(dòng)作 token。

      所有文本、動(dòng)作和圖像都被離散化為 token,并以自回歸方式進(jìn)行訓(xùn)練。

      自回歸模型中的標(biāo)準(zhǔn)注意力機(jī)制通常采用因果注意力掩碼(causal attention mask),即當(dāng)前 token 只能訪問前面的 token 信息,而無法獲取后續(xù) token 的信息,如下圖 ( a ) 所示。

      然而,這種傳統(tǒng)配置在生成動(dòng)作塊(即多個(gè)連續(xù)動(dòng)作)時(shí)存在明顯不足。在默認(rèn)注意力掩碼下,早期動(dòng)作產(chǎn)生的錯(cuò)誤會(huì)傳遞到后續(xù)動(dòng)作,從而導(dǎo)致性能下降。

      為了解決這一問題,團(tuán)隊(duì)提出了一種針對(duì)動(dòng)作生成的替代注意力掩碼,如上圖 ( b ) 所示。該掩碼確保當(dāng)前動(dòng)作的生成僅依賴文本和視覺輸入,而屏蔽之前動(dòng)作的影響。

      這種設(shè)計(jì)使自回歸框架能夠并行生成多個(gè)動(dòng)作,世界模型部分則仍遵循傳統(tǒng)的因果注意力掩碼,如上圖 ( c ) 所示。

      之后,團(tuán)隊(duì)通過融合動(dòng)作模型數(shù)據(jù)與世界模型數(shù)據(jù)對(duì) WorldVLA 進(jìn)行聯(lián)合訓(xùn)練。

      其中,引入世界模型數(shù)據(jù)以增強(qiáng)動(dòng)作生成能力,主要基于三方面考量:

      1、環(huán)境物理理解:世界模型能夠通過當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作來預(yù)測(cè)未來觀測(cè),從而學(xué)習(xí)環(huán)境中的物理規(guī)律,這種認(rèn)知對(duì)操作任務(wù)尤為重要。

      2、動(dòng)作評(píng)估與規(guī)避風(fēng)險(xiǎn):世界模型能夠模擬并評(píng)估候選動(dòng)作的潛在結(jié)果,有助于規(guī)避可能導(dǎo)致不良狀態(tài)的動(dòng)作。

      3、精確動(dòng)作解析:世界模型需要對(duì)動(dòng)作輸入進(jìn)行精確解釋,這反過來支持動(dòng)作模型生成更有效且符合上下文的動(dòng)作。

      此外,動(dòng)作模型也能增強(qiáng)視覺理解能力,從而進(jìn)一步支持世界模型的視覺生成。

      動(dòng)作模型與世界模型相互助力基準(zhǔn)測(cè)試結(jié)果

      由下表可以看出,即使在沒有預(yù)訓(xùn)練的情況下,WorldVLA 模型也展現(xiàn)出優(yōu)于離散化 OpenVLA 模型的性能,這證明了其架構(gòu)設(shè)計(jì)的有效性。

      此外,模型性能與圖像分辨率呈正相關(guān)。具體而言,512 × 512 像素分辨率相比 256 × 256 像素分辨率帶來了顯著提升。

      這一現(xiàn)象主要?dú)w因于 Chameleon 主干模型的預(yù)訓(xùn)練策略,其圖像分詞器與大語言模型組件在 512 × 512 分辨率下進(jìn)行了優(yōu)化。

      同時(shí),更高的分辨率自然提供了更多的視覺細(xì)節(jié)信息,這對(duì)需要高操作精度的機(jī)器人抓取任務(wù)尤為重要。

      世界模型助力動(dòng)作模型

      此外,研究還表明引入世界模型能夠顯著提升動(dòng)作模型的性能。

      世界模型的核心功能是基于當(dāng)前狀態(tài)與執(zhí)行動(dòng)作預(yù)測(cè)環(huán)境狀態(tài)變化,這一生成機(jī)制促使模型學(xué)習(xí)系統(tǒng)的底層物理規(guī)律,而掌握這種規(guī)律正是實(shí)現(xiàn)抓取等精細(xì)操作任務(wù)的關(guān)鍵前提。

      更深入來看,世界模型賦予系統(tǒng)前瞻推演能力:通過預(yù)判候選動(dòng)作可能產(chǎn)生的后果,為決策過程提供關(guān)鍵信息,從而優(yōu)化動(dòng)作選擇策略,提高任務(wù)成功率。

      下圖的對(duì)比案例直觀展示了這種優(yōu)勢(shì)。基線動(dòng)作模型會(huì)直接移動(dòng)到目標(biāo)點(diǎn)位卻未能成功抓取奶酪或瓶子,而 WorldVLA 會(huì)持續(xù)嘗試抓取,直到確認(rèn)操作成功后才移向目標(biāo)位置。

      動(dòng)作模型助力世界模型

      在生成質(zhì)量上,WorldVLA 顯著優(yōu)于純世界模型,尤其是在生成較長(zhǎng)的視頻序列時(shí)表現(xiàn)更為突出。

      此外,純世界模型在多個(gè)場(chǎng)景中呈現(xiàn)明顯缺陷:無法成功拉開抽屜(a)、移動(dòng)盤子后導(dǎo)致碗消失(b)、未能將碗平穩(wěn)放置在灶臺(tái)上(c)。而動(dòng)作世界模型在這些場(chǎng)景中均生成了連貫且符合物理規(guī)律的后續(xù)狀態(tài)。

      核心作者介紹

      論文一作為岑俊,2024 年 8 月以阿里星入職阿里巴巴達(dá)摩院。本科畢業(yè)于浙江大學(xué),碩士和博士均畢業(yè)于香港科技大學(xué),2023 年在新加坡南洋理工大學(xué)訪問過半年,曾在微軟亞洲研究院(MSRA)、上海 AI Lab、??低暫桶⒗锇桶屯x實(shí)驗(yàn)室實(shí)習(xí)。

      One More Thing

      對(duì)于 VLA 與世界模型,小米汽車高級(jí)研究總監(jiān)、主任科學(xué)家陳龍也發(fā)表了公開看法:

      VLA 與 WM 不需要二選一,二者可以結(jié)合起來相互促進(jìn)的。

      一個(gè)管 " 抽象思考 ",一個(gè)管 " 物理感知 ",VLA+WM 的結(jié)合,才是通往具身智能(AGI)的答案。

      論文鏈接:https://t.co/ZgHyhqQnyf

      Github 鏈接:https://t.co/SxDZGuhbL7

      參考鏈接:https://x.com/EmbodiedAIRead/status/1980216687124476256

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      年度科技風(fēng)向標(biāo)「2025 人工智能年度榜單」評(píng)選報(bào)名火熱進(jìn)行中!我們正在尋找 AI+ 時(shí)代領(lǐng)航者 點(diǎn)擊了解詳情

      企業(yè)、產(chǎn)品、人物 3 大維度,共設(shè)立了 5 類獎(jiǎng)項(xiàng),歡迎企業(yè)報(bào)名參與

      一鍵關(guān)注 點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了