中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<button id="seay8"><strong id="seay8"></strong></button>

量子位 15小時(shí)前

阿里新研究：統(tǒng)一了 VLA 和世界模型

如果說視覺讓 AI 看見世界，動(dòng)作讓 AI 改變世界，那么——

WorldVLA 正在讓 AI 理解世界。

顧名思義，WorldVLA是一個(gè)將視覺語言動(dòng)作模型（VLA）與世界模型相融合的統(tǒng)一框架，由阿里巴巴達(dá)摩院、湖畔實(shí)驗(yàn)室和浙江大學(xué)共同提出。

在該框架下，

世界模型通過結(jié)合對(duì)動(dòng)作與圖像的理解來預(yù)測(cè)未來圖像，旨在學(xué)習(xí)環(huán)境的潛在物理規(guī)律，以提升動(dòng)作生成的準(zhǔn)確性；

動(dòng)作模型則基于圖像觀測(cè)生成后續(xù)動(dòng)作，不僅有助于視覺理解，還反向促進(jìn)世界模型的視覺生成能力。

實(shí)驗(yàn)結(jié)果表明，WorldVLA 的表現(xiàn)顯著優(yōu)于獨(dú)立的動(dòng)作模型與世界模型，充分體現(xiàn)了二者之間的相互增強(qiáng)效應(yīng)。

下面具體來看。

統(tǒng)一 VLA 與世界模型

如今，VLA 和世界模型雖在分頭并進(jìn)，但其在功能上的局限已成為制約發(fā)展的關(guān)鍵瓶頸：

VLA 模型：基于預(yù)訓(xùn)練多模態(tài)大語言模型（MLLM）構(gòu)建，雖具備跨機(jī)器人任務(wù)泛化能力，但僅將動(dòng)作作為輸出，未深度整合為輸入進(jìn)行分析，缺乏對(duì)動(dòng)作的全面理解。

世界模型：能基于當(dāng)前觀測(cè)和動(dòng)作預(yù)測(cè)未來視覺狀態(tài)，理解視覺信息與行為動(dòng)態(tài)，但無法直接生成動(dòng)作，在需明確動(dòng)作規(guī)劃的場(chǎng)景中應(yīng)用受限。

為了解決上述難題，研究團(tuán)隊(duì)提出了 WorldVLA ——一種用于統(tǒng)一動(dòng)作與圖像理解和生成的自回歸動(dòng)作世界模型。

團(tuán)隊(duì)基于 Chameleon 模型進(jìn)行初始化，讓 WorldVLA 使用三套獨(dú)立的分詞器（tokenizer）對(duì)圖像、文本和動(dòng)作進(jìn)行編碼。

圖像分詞器采用 VQ-GAN 模型（一種結(jié)合向量量化與生成對(duì)抗網(wǎng)絡(luò)的圖像生成模型），并針對(duì)特定圖像區(qū)域（如人臉、顯著物體等）引入了感知損失優(yōu)化。

值得一提的是，該分詞器的壓縮比為 16，碼本大小為 8192。對(duì)于 256 × 256 的圖像，會(huì)生成 256 個(gè) token；對(duì)于 512 × 512 的圖像，則生成 1024 個(gè) token。

動(dòng)作分詞器將連續(xù)的機(jī)器人動(dòng)作的每個(gè)維度離散化為 256 個(gè)區(qū)間，區(qū)間寬度根據(jù)訓(xùn)練數(shù)據(jù)的范圍確定。動(dòng)作由 7 個(gè) token 表示，包括 3 個(gè)相對(duì)位置、3 個(gè)相對(duì)角度，以及 1 個(gè)絕對(duì)夾爪狀態(tài)。

文本分詞器采用訓(xùn)練好的 BPE 分詞器，詞表大小為 65536，其中包括 8192 個(gè)圖像 token 和 256 個(gè)動(dòng)作 token。

所有文本、動(dòng)作和圖像都被離散化為 token，并以自回歸方式進(jìn)行訓(xùn)練。

自回歸模型中的標(biāo)準(zhǔn)注意力機(jī)制通常采用因果注意力掩碼（causal attention mask），即當(dāng)前 token 只能訪問前面的 token 信息，而無法獲取后續(xù) token 的信息，如下圖 ( a ) 所示。

然而，這種傳統(tǒng)配置在生成動(dòng)作塊（即多個(gè)連續(xù)動(dòng)作）時(shí)存在明顯不足。在默認(rèn)注意力掩碼下，早期動(dòng)作產(chǎn)生的錯(cuò)誤會(huì)傳遞到后續(xù)動(dòng)作，從而導(dǎo)致性能下降。

為了解決這一問題，團(tuán)隊(duì)提出了一種針對(duì)動(dòng)作生成的替代注意力掩碼，如上圖 ( b ) 所示。該掩碼確保當(dāng)前動(dòng)作的生成僅依賴文本和視覺輸入，而屏蔽之前動(dòng)作的影響。

這種設(shè)計(jì)使自回歸框架能夠并行生成多個(gè)動(dòng)作，世界模型部分則仍遵循傳統(tǒng)的因果注意力掩碼，如上圖 ( c ) 所示。

之后，團(tuán)隊(duì)通過融合動(dòng)作模型數(shù)據(jù)與世界模型數(shù)據(jù)對(duì) WorldVLA 進(jìn)行聯(lián)合訓(xùn)練。

其中，引入世界模型數(shù)據(jù)以增強(qiáng)動(dòng)作生成能力，主要基于三方面考量：

1、環(huán)境物理理解：世界模型能夠通過當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作來預(yù)測(cè)未來觀測(cè)，從而學(xué)習(xí)環(huán)境中的物理規(guī)律，這種認(rèn)知對(duì)操作任務(wù)尤為重要。

2、動(dòng)作評(píng)估與規(guī)避風(fēng)險(xiǎn)：世界模型能夠模擬并評(píng)估候選動(dòng)作的潛在結(jié)果，有助于規(guī)避可能導(dǎo)致不良狀態(tài)的動(dòng)作。

3、精確動(dòng)作解析：世界模型需要對(duì)動(dòng)作輸入進(jìn)行精確解釋，這反過來支持動(dòng)作模型生成更有效且符合上下文的動(dòng)作。

此外，動(dòng)作模型也能增強(qiáng)視覺理解能力，從而進(jìn)一步支持世界模型的視覺生成。

動(dòng)作模型與世界模型相互助力基準(zhǔn)測(cè)試結(jié)果

由下表可以看出，即使在沒有預(yù)訓(xùn)練的情況下，WorldVLA 模型也展現(xiàn)出優(yōu)于離散化 OpenVLA 模型的性能，這證明了其架構(gòu)設(shè)計(jì)的有效性。

此外，模型性能與圖像分辨率呈正相關(guān)。具體而言，512 × 512 像素分辨率相比 256 × 256 像素分辨率帶來了顯著提升。

這一現(xiàn)象主要?dú)w因于 Chameleon 主干模型的預(yù)訓(xùn)練策略，其圖像分詞器與大語言模型組件在 512 × 512 分辨率下進(jìn)行了優(yōu)化。

同時(shí)，更高的分辨率自然提供了更多的視覺細(xì)節(jié)信息，這對(duì)需要高操作精度的機(jī)器人抓取任務(wù)尤為重要。

世界模型助力動(dòng)作模型

此外，研究還表明引入世界模型能夠顯著提升動(dòng)作模型的性能。

世界模型的核心功能是基于當(dāng)前狀態(tài)與執(zhí)行動(dòng)作預(yù)測(cè)環(huán)境狀態(tài)變化，這一生成機(jī)制促使模型學(xué)習(xí)系統(tǒng)的底層物理規(guī)律，而掌握這種規(guī)律正是實(shí)現(xiàn)抓取等精細(xì)操作任務(wù)的關(guān)鍵前提。

更深入來看，世界模型賦予系統(tǒng)前瞻推演能力：通過預(yù)判候選動(dòng)作可能產(chǎn)生的后果，為決策過程提供關(guān)鍵信息，從而優(yōu)化動(dòng)作選擇策略，提高任務(wù)成功率。

下圖的對(duì)比案例直觀展示了這種優(yōu)勢(shì)。基線動(dòng)作模型會(huì)直接移動(dòng)到目標(biāo)點(diǎn)位卻未能成功抓取奶酪或瓶子，而 WorldVLA 會(huì)持續(xù)嘗試抓取，直到確認(rèn)操作成功后才移向目標(biāo)位置。

動(dòng)作模型助力世界模型

在生成質(zhì)量上，WorldVLA 顯著優(yōu)于純世界模型，尤其是在生成較長(zhǎng)的視頻序列時(shí)表現(xiàn)更為突出。

此外，純世界模型在多個(gè)場(chǎng)景中呈現(xiàn)明顯缺陷：無法成功拉開抽屜（a）、移動(dòng)盤子后導(dǎo)致碗消失（b）、未能將碗平穩(wěn)放置在灶臺(tái)上（c）。而動(dòng)作世界模型在這些場(chǎng)景中均生成了連貫且符合物理規(guī)律的后續(xù)狀態(tài)。

核心作者介紹

論文一作為岑俊，2024 年 8 月以阿里星入職阿里巴巴達(dá)摩院。本科畢業(yè)于浙江大學(xué)，碩士和博士均畢業(yè)于香港科技大學(xué)，2023 年在新加坡南洋理工大學(xué)訪問過半年，曾在微軟亞洲研究院（MSRA）、上海 AI Lab、?？低暫桶⒗锇桶屯x實(shí)驗(yàn)室實(shí)習(xí)。

One More Thing

對(duì)于 VLA 與世界模型，小米汽車高級(jí)研究總監(jiān)、主任科學(xué)家陳龍也發(fā)表了公開看法：

VLA 與 WM 不需要二選一，二者可以結(jié)合起來相互促進(jìn)的。

一個(gè)管 " 抽象思考 "，一個(gè)管 " 物理感知 "，VLA+WM 的結(jié)合，才是通往具身智能（AGI）的答案。

論文鏈接：https://t.co/ZgHyhqQnyf

Github 鏈接：https://t.co/SxDZGuhbL7

參考鏈接：https://x.com/EmbodiedAIRead/status/1980216687124476256

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

年度科技風(fēng)向標(biāo)「2025 人工智能年度榜單」評(píng)選報(bào)名火熱進(jìn)行中！我們正在尋找 AI+ 時(shí)代領(lǐng)航者點(diǎn)擊了解詳情

企業(yè)、產(chǎn)品、人物 3 大維度，共設(shè)立了 5 類獎(jiǎng)項(xiàng)，歡迎企業(yè)報(bào)名參與

一鍵關(guān)注點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

分辨率 ai 阿里巴巴

相關(guān)閱讀

黃仁勛GTC最新演講：5000億目標(biāo)、10倍性能與AI工廠

鈦媒體 37分鐘前

宇樹科技全新四足機(jī)器人官宣動(dòng)力性能超越Go2

快科技 2小時(shí)前

與諾基亞合作6G NVIDIA黃仁勛：美國(guó)不能重蹈5G失敗

快科技 7小時(shí)前

比EUV更強(qiáng) 美國(guó)公司研發(fā)X光刻機(jī)：目標(biāo)取代臺(tái)積電和ASML

快科技 8小時(shí)前

量子科技+光刻機(jī)+CPO+數(shù)據(jù)中心+華為+海峽兩岸！公司已完成800G/1.6T高速光模塊光引擎的樣品生產(chǎn)

財(cái)聯(lián)社 9小時(shí)前

對(duì)話星塵智能創(chuàng)始人來杰：繩驅(qū)技術(shù)破局具身智能，以“專家數(shù)字分身”打開商業(yè)化新局｜AI Founder 請(qǐng)回答

鈦媒體 9小時(shí)前

續(xù)航有多強(qiáng)！vivo Y500實(shí)測(cè)：輕度使用能堅(jiān)持至少2天一充電

快科技 10小時(shí)前

緊追中國(guó)！美國(guó)四巨頭組建自動(dòng)駕駛超級(jí)艦隊(duì)

汽車商業(yè)評(píng)論 1小時(shí)前

鴻蒙 6 深度體驗(yàn)：為「好應(yīng)用」而生

愛范兒 11小時(shí)前

微信小店升級(jí)：帶貨者月成交額漲超100%

21世紀(jì)經(jīng)濟(jì)報(bào)道 12小時(shí)前

360發(fā)布企業(yè)級(jí)智能體平臺(tái)，撬動(dòng)政企AI市場(chǎng)

21世紀(jì)經(jīng)濟(jì)報(bào)道 12小時(shí)前

三星們只想伺候OpenAI，看不上裝機(jī)黨的碎銀子

鈦媒體 13小時(shí)前

全球首發(fā)理光GR影像！真我GT8 Pro圖賞

快科技 13小時(shí)前

微軟Windows 11 26H1明年初發(fā)布！高通驍龍X2 Elite設(shè)備獨(dú)享

快科技 13小時(shí)前

轉(zhuǎn)轉(zhuǎn)放棄C2C：不敢靠近閑魚，不能成為愛回收

鈦媒體 13小時(shí)前

最新評(píng)論

沒有更多評(píng)論了

量子位

訂閱

覺得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

Blockchain News

<source id="4oek4"><abbr id="4oek4"></abbr></source>

<cite id="4oek4"></cite>

<bdo id="4oek4"></bdo>

<abbr id="4oek4"><optgroup id="4oek4"></optgroup></abbr><bdo id="4oek4"></bdo>