關(guān)于究竟該發(fā)展 VLA 模型,還是深耕世界模型,如今似乎已有了新的判斷方向。
8 月 12 日消息,2025 世界機(jī)器人大會(huì)(WRC)主論壇演講上,星動(dòng)紀(jì)元?jiǎng)?chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇表示,通用人形機(jī)器人一定是未來(lái) AI 技術(shù)的一個(gè)趨勢(shì)。由于機(jī)器人有更強(qiáng)大、更通用的移動(dòng)和操作能力,未來(lái)必將給人類(lèi)生產(chǎn)力和社會(huì)服務(wù)能力帶來(lái)革新。
" 我們?nèi)绾螛?gòu)建一個(gè)通用人形機(jī)器人?最短的路徑就是直接向人學(xué)習(xí),因?yàn)槿祟?lèi)是現(xiàn)實(shí)世界中唯一存在的通用的具身智能體。" 陳建宇表示,通用大腦、通用本體相融合,使得我們能夠找到一個(gè)構(gòu)建通用人形機(jī)器人的范式。
會(huì)后媒體群訪中,陳建宇對(duì)筆者表示,VLA 被認(rèn)為是一個(gè)更廣泛的概念,只要機(jī)器人用到視覺(jué)感知、語(yǔ)言、行為動(dòng)作,我們都認(rèn)為是一個(gè) VLA 模型。因此,從整個(gè)意義上來(lái)說(shuō),世界模型是 VLA 技術(shù)的一個(gè)路徑。
" 我們認(rèn)為,下一個(gè)范式的 VLA,更傾向于說(shuō)更廣義上的 VLA 模型,不局限于某一個(gè) VLA 模型架構(gòu),只要是端到端的模型,它能夠跟人進(jìn)行語(yǔ)言交互、視覺(jué)感知,可以在物理世界里面干活,它就是一個(gè) VLA 的模型。只不過(guò),世界模型會(huì)在現(xiàn)有狹義 VLA 模型范式上進(jìn)一步通過(guò)技術(shù)(包括 RL 強(qiáng)化學(xué)習(xí)等),改進(jìn)它的精細(xì)化操作、泛化、認(rèn)知能力等。" 陳建宇稱(chēng)。
對(duì)于數(shù)據(jù)和模型目前孰重孰輕,陳建宇表示,相比數(shù)據(jù)瓶頸,現(xiàn)階段大家應(yīng)該更關(guān)注模型。
" 未來(lái)迭代模型需要的數(shù)據(jù)絕對(duì)數(shù)量肯定越來(lái)越大,但我強(qiáng)調(diào)的是數(shù)據(jù)利用效率,在同樣的情況下,只需要更少的數(shù)據(jù),讓數(shù)據(jù)利用效率更高,但數(shù)據(jù)量仍需要很大,因?yàn)楝F(xiàn)在數(shù)據(jù)量還是不夠。" 陳建宇稱(chēng),大家關(guān)注數(shù)據(jù),其實(shí)更上層是模型,如果只關(guān)注一個(gè)的話,應(yīng)該先關(guān)注模型。
陳建宇強(qiáng)調(diào),未來(lái)五年,可能是家用機(jī)器人爆發(fā)的時(shí)間點(diǎn)。" 掃地機(jī)器人等產(chǎn)品已逐步進(jìn)入家庭。未來(lái)幾年將很快出現(xiàn)相對(duì)簡(jiǎn)單形態(tài)的機(jī)器人進(jìn)入到家庭里面,也可能有少部分的高凈值人士家庭,會(huì)直接用到比較通用的人形機(jī)器人以嘗鮮使用。"
據(jù)悉,星動(dòng)紀(jì)元成立于 2023 年 8 月,最初是清華大學(xué)交叉信息研究院的孵化項(xiàng)目。從成立起,星動(dòng)紀(jì)元便堅(jiān)持軟硬一體的技術(shù)路線,致力于打造物理世界中的通用智能體,讓 AI 從思考走向行動(dòng),實(shí)現(xiàn)機(jī)器人賦能千行百業(yè)、走進(jìn)千家萬(wàn)戶的愿景。星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇,目前還是上海期智研究院 PI,清華大學(xué)交叉信息研究院助理教授。
融資層面,在成立不到兩年里,星動(dòng)紀(jì)元已完成 3 輪融資,背后集結(jié)了眾多知名投資方,包括聯(lián)想創(chuàng)投、海爾創(chuàng)投、華映資本等產(chǎn)業(yè)資本與專(zhuān)業(yè)投資機(jī)構(gòu)。今年 7 月初,公司宣布完成近 5 億元 A 輪融資,由鼎暉 VGC 和海爾資本聯(lián)合領(lǐng)投。
產(chǎn)品層面,星動(dòng)紀(jì)元主要在通用大腦、通用本體等多個(gè)方面進(jìn)行具身智能機(jī)器人的研發(fā)和落地。
其中,通用大腦側(cè),星動(dòng)紀(jì)元提出融合理解與生成的 VLA 模型 ERA-42,將視覺(jué)、理解、預(yù)測(cè)、行動(dòng)等功能統(tǒng)一到一個(gè)端到端的模型中,目前星動(dòng)紀(jì)元機(jī)器人產(chǎn)品,通過(guò)語(yǔ)音命令即可完成上百種復(fù)雜操作,包括柔性物品分揀、掃碼,使用螺釘槍、移液器等。此外,星動(dòng)紀(jì)元還構(gòu)建了物理世界 AI" 模型 - 本體 - 場(chǎng)景數(shù)據(jù) ",進(jìn)一步提升具身智能機(jī)器人的交互能力。
通用本體側(cè),星動(dòng)紀(jì)元自研人形機(jī)器人在性能上逼近人類(lèi)身體,并作為與物理世界交互的 " 通用接口 "。其中,星動(dòng) L7 是一款全尺寸雙足人形機(jī)器人,采用模塊化設(shè)計(jì)思路,能更靈活地適配不同場(chǎng)景的落地需求,尤其是物流領(lǐng)域的分揀、掃碼等任務(wù),通過(guò)自研端到端的 VLA 模型直接控制機(jī)器人精準(zhǔn)完成操作;另一款產(chǎn)品星動(dòng) Q5,是公司面向服務(wù)業(yè)打造的人形機(jī)器人。這讓它在生活化服務(wù)場(chǎng)景中更具優(yōu)勢(shì),比如完成遞水等日常操作,或是實(shí)現(xiàn)高度擬人化的交互溝通。目前星動(dòng) Q5 已在零售門(mén)店等場(chǎng)景中推進(jìn)落地探索。
此外,星動(dòng)紀(jì)元還自研靈巧手 XHand 1,具備 12 個(gè)主動(dòng)自由度和內(nèi)置的觸覺(jué)傳感器,能夠?qū)崿F(xiàn)高度精確地控制,能完成上千個(gè)靈巧動(dòng)作。
陳建宇認(rèn)為,人形機(jī)器人是具身智能發(fā)展的終極形態(tài)。這是因?yàn)槿诵螜C(jī)器人不僅在數(shù)據(jù)獲取方面有顯著優(yōu)勢(shì),能夠直接從人類(lèi)行為中更自然地學(xué)習(xí),還具備高效的雙足移動(dòng)與雙手操作能力,極大地?cái)U(kuò)展了機(jī)器人的應(yīng)用邊界。星動(dòng)紀(jì)元正通過(guò)結(jié)合具身智能模型與創(chuàng)新硬件,逐步實(shí)現(xiàn)人形機(jī)器人的通用性與實(shí)用性。
對(duì)于為何難以實(shí)現(xiàn)端到端 VLA,陳建宇表示,主要有兩點(diǎn):一是世界模型需要融入到生成式模型當(dāng)中,實(shí)現(xiàn)對(duì)未來(lái)的預(yù)測(cè)、認(rèn)知和生成式行為;二是 RL,即 VLA 的強(qiáng)化學(xué)習(xí)、運(yùn)動(dòng)控制模型,提升機(jī)器人的通用泛化能力,這將成為通用范式。
" 王興興總這邊提到的,其實(shí)也是我們想說(shuō)的。世界模型這一板塊,其實(shí)我們做出來(lái)了全球首個(gè)融合世界模型和生成式模型工作,去年就陸續(xù)發(fā)布好幾篇論文,在業(yè)內(nèi)也形成比較多的討論。所以,現(xiàn)在已經(jīng)有不少同行開(kāi)始關(guān)注合作(世界模型)這塊,我們認(rèn)為,未來(lái)很快就會(huì)形成一個(gè)新的共識(shí)。" 陳建宇表示,目前星動(dòng)紀(jì)元已開(kāi)源了全球第一個(gè)做出運(yùn)控強(qiáng)化學(xué)習(xí)的算法以及 VLA 生成式模型,后續(xù)公司還會(huì)做開(kāi)源,因?yàn)榫呱碇悄苓€是需要整個(gè)生態(tài)共同努力和繁榮,實(shí)現(xiàn)更多突破。
對(duì)于商業(yè)化,陳建宇曾表示,星動(dòng)紀(jì)元將優(yōu)先聚焦 B 端場(chǎng)景落地,無(wú)論是工業(yè)制造領(lǐng)域的自動(dòng)化作業(yè),還是服務(wù)業(yè)中的場(chǎng)景化服務(wù),都會(huì)以 B 端市場(chǎng)為切入點(diǎn),逐步滲透并驗(yàn)證商業(yè)價(jià)值。
今天群訪中,陳建宇補(bǔ)充稱(chēng),在一些真實(shí)工業(yè)場(chǎng)景中,目前智能機(jī)器人已經(jīng)達(dá)到人類(lèi) 70% 的效率,明年能達(dá)到 90% 左右。未來(lái)是軟件和硬件的打磨階段和過(guò)程,也是發(fā)揮端到端模型的優(yōu)勢(shì)——能實(shí)時(shí)反饋、實(shí)時(shí)控制。" 假以時(shí)日,我相信(機(jī)器人)能達(dá)到人類(lèi)的水平。"
陳建宇近期還表示,具身智能行業(yè)尚未出現(xiàn)所謂的 " 泡沫 "。在他看來(lái),行業(yè)估值規(guī)模未達(dá)到智能汽車(chē)同等量級(jí),原因在于周期更長(zhǎng)且尚未找到核心規(guī)?;虡I(yè)應(yīng)用的閉環(huán),未來(lái)一旦頭部企業(yè)(如特斯拉等)實(shí)現(xiàn)規(guī)模化商業(yè)落地,行業(yè)有可能將迎來(lái)第二波大的資本爆發(fā)。
陳建宇強(qiáng)調(diào),人形機(jī)器人的 " 殺手級(jí) " 應(yīng)用場(chǎng)景,最終還是要進(jìn)入家庭。但是前期,大家需要在一些企業(yè)(B)端場(chǎng)景里面落地先行,并且磨煉機(jī)器人數(shù)據(jù)積累等整套技術(shù),讓機(jī)器人產(chǎn)業(yè)飛輪先轉(zhuǎn)起來(lái)。
" 但人形機(jī)器人最終殺手級(jí)的應(yīng)用,我認(rèn)為一定在家庭里面。" 陳建宇稱(chēng)。
(本文首發(fā)于鈦媒體 App,作者|林志佳,編輯|蓋虹達(dá))