中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      硅星人 9分鐘前

      世界機器人大會上什么都有,就是沒什么共識

      沒有 Benchmark 的機器人領(lǐng)域,正在產(chǎn)生大量的 " 非共識 "。

      去年的 WRC(世界機器人大會),各家比拼的還是誰能更快地讓機器人走起來,到今年連續(xù) 3 天都爆火的展區(qū)內(nèi),硬件本體開始分化出不同的產(chǎn)品形態(tài)服務(wù)不同場景,以吸引落地和量產(chǎn)的可能,軟件算法則在 VLA、端到端模型、仿真數(shù)據(jù)訓(xùn)練等方面衍生出了多條技術(shù)路線。

      由于沒有統(tǒng)一的標準,各家的嘗試可以說是天馬行空,甚至彼此相互不兼容,在核心路線上分道揚鑣。

      這是一件很有意思,且極為重要的事。在任何一個新興行業(yè)的初期,非共識才是推動技術(shù)探索、尋找到唯一真理的引擎。這是一個創(chuàng)新曲線的必經(jīng)階段:在最初的模仿和復(fù)現(xiàn)后,必然會經(jīng)歷一個劇烈的發(fā)散期,然后緩慢收斂,再發(fā)散,再收斂,循環(huán)往復(fù)。真正的答案,正是在這一次次的發(fā)散和碰撞中被淬煉出來的。

      我們和一些關(guān)鍵公司聊了聊,也盤點了一些公開的 " 喊話 ",梳理出了幾個重要的充滿密集爭論的領(lǐng)域,這些正在激烈碰撞的 " 非共識 ",或許正是下一個影響機器人領(lǐng)域的關(guān)鍵問題。

      一、是算法不行,還是數(shù)據(jù)不夠?

      8 月 9 日,宇樹科技王興興在接受采訪時,提到了 " 相比于把精力都投入到采集數(shù)據(jù)上,基礎(chǔ)模型的優(yōu)化是更應(yīng)該關(guān)注的問題 "。作為 2025 年最為明星的本體制造廠商,王興興的發(fā)言迅速引起了行業(yè)的討論,到底是算法不行,還是數(shù)據(jù)不夠?

      1、宇樹科技:比起普遍受關(guān)注的數(shù)據(jù),最大的問題是模型問題

      王興興(宇樹科技創(chuàng)始人):目前機器人行業(yè)對數(shù)據(jù)關(guān)注太多,對模型關(guān)注太少?,F(xiàn)在最大的問題是模型問題:當前的機器人模型架構(gòu)不夠好、也不夠統(tǒng)一;即使有了大量高質(zhì)量的數(shù)據(jù),訓(xùn)練出來的模型依舊無法真正落地。機器人領(lǐng)域并不像大語言模型那樣純靠數(shù)據(jù)驅(qū)動:數(shù)據(jù)再多,部署到實物機器人上時偏差仍然非常大。

      2、星海圖:數(shù)據(jù)決定了能不能上 90 分,模型決定了 90 到 95 分。

      許華哲(星海圖聯(lián)合創(chuàng)始人):當前階段,模型不夠用的主要原因,是因為數(shù)據(jù)不夠。大語言模型證明了模型架構(gòu)的差異,更多是決定能力從 90 分到 95 分的區(qū)別。但是,沒有數(shù)據(jù),模型能力永遠無法從 59 分突破到 90 分。數(shù)據(jù)決定了能力的下限和基礎(chǔ),是幫你完成這個關(guān)鍵跨越的核心。

      3、加速進化:硬件 ready 以后,才能死磕具身大模型

      趙維晨(加速進化副總裁):大腦的算法可能是用簡單的傳統(tǒng)一點的算法,或者分層的大腦模型,保證先在一些場景落地來獲得數(shù)據(jù)。我認為 VLA 一定不是最終解,這還是基于 Transformer 的大語言模型那一套。具身模型是基于多模態(tài)的多維物理世界,一定會有原生的模型架構(gòu)。

      二、真實數(shù)據(jù)不夠,仿真數(shù)據(jù)能不能湊?

      目前,行業(yè)普遍面臨的情況是,真實物理世界的數(shù)據(jù)稀缺、自采成本高、供應(yīng)商又不夠健全,有一部分模型廠商選擇了視頻數(shù)據(jù)或者仿真數(shù)據(jù)進行訓(xùn)練,比如銀河通用大量采用仿真數(shù)據(jù)進行訓(xùn)練;也有一部分廠商堅持真實數(shù)據(jù),表示仿真數(shù)據(jù)起到的作用并不大。仿真數(shù)據(jù)到底能不能湊?

      1、銀河通用:合成數(shù)據(jù)占 99%,不會的人用不好合成數(shù)據(jù)

      王鶴(銀河通用創(chuàng)始人):長期看,真實數(shù)據(jù)固然重要,但在具身智能發(fā)展的初期階段,合成數(shù)據(jù)是推動產(chǎn)業(yè)發(fā)展的關(guān)鍵數(shù)據(jù)資產(chǎn),占訓(xùn)練數(shù)據(jù)的絕大部分(99% 以上),而真實數(shù)據(jù)則用于補充和完成 " 最后一公里 " 的訓(xùn)練。不會的人用不好合成數(shù)據(jù),所以有人會說什么仿真 " 有毒 "。 做好合成數(shù)據(jù),需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線,包括驗證閉環(huán)的一系列全套的基建,需要長期的積累和核心技術(shù) know-how。

      2、自變量:手部復(fù)雜操作無法通過仿真數(shù)據(jù)來進化

      王潛(自變量創(chuàng)始人兼 CEO):我們在這個方面探索了十幾年,基本結(jié)論是,手部復(fù)雜操作無法通過仿真數(shù)據(jù)來進化。不過,導(dǎo)航、走路、高級任務(wù)推理和規(guī)劃更適合用仿真數(shù)據(jù),很多團隊的機器人走路都是在虛擬世界中訓(xùn)練出來,然后遷移到真實世界中。此外,手部 pick and place 這樣的操作用仿真數(shù)據(jù)訓(xùn)練也是完全沒問題的。當然我們也在廣泛使用互聯(lián)網(wǎng)視頻數(shù)據(jù)進行預(yù)訓(xùn)練,但最核心的是現(xiàn)實生活中收集到的真實數(shù)據(jù),包括機器人和人工采集的數(shù)據(jù)。

      3、智源研究院:走大模型路線,更多依靠互聯(lián)網(wǎng)數(shù)據(jù)

      王仲遠(智源研究院院長):智源走的是大模型的路線,更多依靠的是互聯(lián)網(wǎng)數(shù)據(jù)幫助機器人學習智能。例如,今年春節(jié),我觀察一個小女孩是怎么學習的,她刷了很多短視頻,就學會了一系列復(fù)雜的操作,再通過實踐試錯糾正,這是強化學習的本質(zhì)。學習海量已有的數(shù)據(jù),再通過強化學習和少量真實世界的數(shù)據(jù)不斷訓(xùn)練它的能力,不斷突破具身智能的發(fā)展上限,這和大模型發(fā)展路線不謀而合,基礎(chǔ)能力到一定程度后通過強化學習進一步激發(fā)它的智能。

      三、數(shù)據(jù)飛輪的起點:一萬小時是門檻還是幻想?

      另一個重要的問題是需要多少數(shù)據(jù)、如何獲取高質(zhì)量數(shù)據(jù),具體的做法也觀點不一,且普遍存在焦慮。有人樂觀的認為只要給到機器人有效、高質(zhì)量的一萬小時數(shù)據(jù),機器人就能實現(xiàn)能力的涌現(xiàn),因此通過自采等方式構(gòu)建數(shù)據(jù)集;但也有人認為數(shù)據(jù)遷移能力太差、類型太過單一,就算 100w 小時,也不會有更好的結(jié)果。

      1、維他動力:決定涌現(xiàn)的關(guān)鍵是數(shù)據(jù)的多樣性,而不是數(shù)量。

      大模型之所以能取得突破,是因為它吸收了全互聯(lián)網(wǎng)的數(shù)據(jù),并且不分語言種類,包括圖片、視頻、音頻等。這種海量、多樣的數(shù)據(jù),他們聚集為一體的時候,就產(chǎn)生了 " 智能涌現(xiàn) " 的現(xiàn)象。 我們的看法是,必須讓機器人在物理世界中探索,才能獲得足夠多樣且持續(xù)的場景數(shù)據(jù)這其中最重要的兩個場景就是戶外和家庭環(huán)境。戶外的核心能力在于機器人的移動能力,室內(nèi)的核心能力在于機器人的操作能力。所以我們首款機器人會選擇四足構(gòu)型,讓用戶可以帶到室外,去采集高質(zhì)量、多場景的數(shù)據(jù)。

      2、星海圖:高質(zhì)量的一萬小時是數(shù)據(jù)飛輪的起點,但現(xiàn)在所有公司加一起也沒有。

      許華哲:我認同這個一萬小時這個說法。數(shù)據(jù)飛輪的啟動,正是在 " 千小時 " 到 " 萬小時 " 這個量級的跨越中發(fā)生的。但這里必須強調(diào),這一萬小時必須是高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)的 " 質(zhì) " 遠比 " 量 " 更重要。如果數(shù)據(jù)是千篇一律的,同質(zhì)性太高,那么它的價值就非常有限。高質(zhì)量數(shù)據(jù)意味著它必須是多元的,能夠體現(xiàn)柔性物體的操作、具備場景的泛化性。我們現(xiàn)有的 1000 小時數(shù)據(jù),可能篩選后只有 800 小時是真正可用的。當然整個行業(yè)極度缺乏數(shù)據(jù)。把所有公司的數(shù)據(jù)加在一起 " 也沒多少 "。

      3、加速進化:輪+雙臂,操作 100w 個小時也是不可能的

      趙維晨(加速進化副總裁):相比自動駕駛的單日上億條數(shù)據(jù),目前全國具身最大開源數(shù)據(jù)集規(guī)模才百萬級別(不到 10tb)。怎么可能輪加雙臂,操作弄個 10 萬小時,100w 小時就能訓(xùn)練出一個多模態(tài)的具身大腦,這是不可能的,最多只能驗證早期大腦的算法和框架。 我們主要靠足球場景采集真實的物理數(shù)據(jù),并結(jié)合視頻合成數(shù)據(jù),通過最新的模仿學習加強化學習實現(xiàn)視覺信號直接輸入神經(jīng)網(wǎng)絡(luò),驅(qū)動關(guān)節(jié)運動的 " 小腦下意識控制 ",端到端的全身運動大模型。

      四、端到端模型、VLA+VLM、世界模型 ... 誰才是構(gòu)建機器人 " 大腦 " 的最終路徑?

      我們在 WRC 現(xiàn)場發(fā)現(xiàn),今年已經(jīng)開始出現(xiàn)概念被濫用的現(xiàn)象,包括何為 " 端到端 " 模型,也有一些廠商將訓(xùn)練后的小模型也宣稱是 VLA 模型,當然從外部執(zhí)行層面很難分辨真?zhèn)?,實現(xiàn)方式和理念大相徑庭。如何構(gòu)建機器人的 " 大腦 " 成為當前最大的技術(shù)分歧點。

      1、宇樹科技:VLA+RL 不是最佳路線,世界模型的收斂方向更快。

      王興興:目前相對比較火的就是 VLA 模型,它是一個相對比較傻瓜式的一個架構(gòu)。我個人對 VLA 模型還是抱一個比較懷疑的態(tài)度。個人感覺就是在未來 2 到 5 年,其實最大的肯定還是一個端到端的具身智能 AI 模型。這個其實是大家可以多關(guān)注,以及多推動的一件事,我覺得這是最重要的一件事。

      2、星海圖:分層系統(tǒng)是通往完全端到端的必經(jīng)之路。

      許華哲:我們現(xiàn)階段采用的是一個分層系統(tǒng),上層是負責高階任務(wù)拆解的 VLM,下層是負責執(zhí)行具體動作的 VLA。VLM 將一個抽象指令(如 " 鋪床 ")拆解成具體的子任務(wù)(如 " 拉左邊被角 "),然后交由 VLA 來理解和執(zhí)行。這種雙系統(tǒng)的優(yōu)勢在于效率更高,并且對復(fù)雜場景的推理能力更強。但分層與端到端最終是異曲同工的。行業(yè)的終極形態(tài)應(yīng)該是一個統(tǒng)一的端到端模型,但其內(nèi)部會自然形成功能上的分化,我們現(xiàn)在的分層系統(tǒng),是通往最終統(tǒng)一模型的必經(jīng)之路。

      3、自變量:做完整端到端的統(tǒng)一大模型。

      王昊:我們公司的大模型技術(shù)路線是統(tǒng)一端到端的架構(gòu),第一是追求性能:任何人為的模塊劃分,其實都是對信息的一種有損的壓縮,只有端到端的模型,才能在整體感知、決策、控制鏈條上,完成統(tǒng)一的處理,突破現(xiàn)有機器人系統(tǒng)性能的上限;第二是去擁抱 scaling law,只要模型的架構(gòu)是統(tǒng)一并且可擴展的,那么它的能力、智能水平,就會隨著模型的參數(shù)和訓(xùn)練的數(shù)據(jù)量呈指數(shù)級的增長;第三只有端的端其實才能通向真正的通用性,不管是分層還是所謂的融合系統(tǒng),通用性都會被最弱的模塊所限制,而一個端到端模型。它學習的是關(guān)于物理世界以及交互的第一性原理,這種知識是普世的,所以天然就具備了模型能夠向新任務(wù)、新場景、新的意念形態(tài)去泛化的一種潛力,超越了其他所有的期待的可能的技術(shù)方案。

      4、越疆機器人:相比于做大腦,更重要的是操作系統(tǒng)

      越疆不只在造機器人,更構(gòu)建起一個具身智能的未來操作系統(tǒng),讓每個開發(fā)者訓(xùn)練專屬智能體。這一平臺的核心在于能夠把協(xié)作機械臂、輪式機器人、人形及多足機器人聯(lián)動起來,實現(xiàn) " 一套系統(tǒng),多形態(tài)操控 ",形成海量數(shù)據(jù)湖。

      五、軟件定義硬件,還是硬件定義軟件?

      我們發(fā)現(xiàn),行業(yè)普遍陷入一種矛盾狀態(tài):算法開發(fā)者抱怨硬件性能和一致性不足,由于上一代機器人并不是服務(wù)于 AI 而產(chǎn)生的,大量軟件算法廠商正在創(chuàng)造新一代的本體;而硬件廠商則認為現(xiàn)有 AI 模型不夠智能。這場爭論的核心是:技術(shù)突破應(yīng)由硬件引領(lǐng),還是由軟件定義?

      1、星海圖:根據(jù)模型的特性,去考慮硬件資源的投入方向

      許華哲:硬件的形態(tài)、精度、配重等具體指標,都應(yīng)該根據(jù) AI 模型的能力來進行針對性優(yōu)化。舉一個典型的例子:傳統(tǒng)的機械臂追求極高的硬件精度,但如果 AI 模型本身就能適應(yīng)和糾正一定的偏差,那么硬件上就沒有必要投入過高的成本去實現(xiàn)極致的精度。核心是要根據(jù)模型的特性,來決定硬件資源應(yīng)該投入在哪些關(guān)鍵點上,以及哪些方面可以由 AI 的能力來彌補,從而實現(xiàn)整體的最優(yōu)性價比。

      2、越疆機器人、加速進化:機器人可能會重演手機的發(fā)展路徑

      越疆機器人:人形機器人不會是一個產(chǎn)品,而是一個平臺級生態(tài)系統(tǒng)。越疆的策略是 " 軟硬一體、通用架構(gòu)、場景優(yōu)先 ",即先夯實硬件基礎(chǔ)(模組 / 控制器 / 執(zhí)行器),同時對接主流 AI" 大腦 ",并與真實場景客戶共同打磨解決方案。我們認為人形機器人生態(tài)的演進路徑,大概率會重演智能手機的生態(tài)發(fā)展:1)先由硬件廠商帶動產(chǎn)業(yè)熱度;2)再由 " 大腦 " 和 " 應(yīng)用 " 主導(dǎo)行業(yè)分層;3)最終形成開放協(xié)同、模塊互換的具身智能生態(tài)。

      加速進化:現(xiàn)在硬件能構(gòu)建壁壘,其實是代際壁壘,或者說門檻。比如新的關(guān)節(jié)我們研發(fā)出來,關(guān)節(jié)和齒輪之間背隙只有 1 公分,性價比又高,這個關(guān)節(jié)應(yīng)用后我們就會定義成二代機。但長期來看硬件無法構(gòu)成長期壁壘,可以參考手機。硬件以外,產(chǎn)品定義和設(shè)計是可以有更大壁壘,但還是不夠。這些都是創(chuàng)業(yè)團隊早期能構(gòu)建的門檻,還達不到壁壘。

      3、眾擎機器人:軟件、硬件不是單向關(guān)系,共同決定機器人的價值

      硬件是機器人的物理載體,為軟件運行提供基礎(chǔ)支撐—從關(guān)節(jié)驅(qū)動、傳感器配置到能源供給,硬件的結(jié)構(gòu)設(shè)計與性能參數(shù)直接影響軟件功能的實現(xiàn)邊界。而軟件則是機器人的 " 智能內(nèi)核 ",通過算法優(yōu)化、數(shù)據(jù)處理與指令輸出,激活硬件潛能,賦予其感知、決策與執(zhí)行能力。例如,擬人步態(tài)的流暢呈現(xiàn),既需要高精度伺服電機等硬件提供動力與控制基礎(chǔ),也依賴運動控制算法等軟件實現(xiàn)姿態(tài)調(diào)整與路徑規(guī)劃,二者缺一不可。

      4、源絡(luò)科技:不能照搬大模型的理念,現(xiàn)在要立刻能用,長期來看要通過與物理世界交互主動學習

      連文昭(源絡(luò)科技創(chuàng)始人):具身智能有兩層含義,狹義的就是智能機器人,廣義的是用具身來解決通用智能。我們主張「用具身實現(xiàn)智能」——機器人應(yīng)通過與物理世界交互主動學習,而非靠語言模型的堆砌。

      這要求你要務(wù)實也要有理想。在務(wù)實層面,它必須立刻能用、好用,我們不做實驗室里的玩具。我們已經(jīng)能在生命科學場景中,完成過去只有人類才能勝任的長序列、高精度操作。在理想層面,我們有自研的通用平臺:機器人通過完成真實任務(wù),收集高質(zhì)量的多模態(tài)數(shù)據(jù),反過來用于迭代高階智能模型。

      未來智能體不僅能通過圖靈測試,也能通過生存測試,在物理世界中獨立生存、工作、演化,這才是真正的通用人工智能。

      六:開源到底 " 開 " 什么,為什么?

      機器人行業(yè)陸續(xù)開始復(fù)現(xiàn)語言模型的開源生態(tài)路線,但在當下這個階段,開源需要開什么,為了什么?構(gòu)建生態(tài)還是商業(yè)閉環(huán)?

      1、星海圖:" 假開源 " 比較多,數(shù)據(jù)集+模型才是真開源

      許華哲:我認為,目前行業(yè)內(nèi)由公司主導(dǎo)的開源存在很多問題。核心障礙主要有兩:

      開源不徹底:很多公司只開源硬件,軟件部分僅提供能讓硬件跑起來的基礎(chǔ)代碼,而不開放核心的數(shù)據(jù)和模型。

      開源不可用:即便開源了,很多時候也因為文檔、代碼或數(shù)據(jù)質(zhì)量問題,導(dǎo)致其他人很難真正用起來。例如,科研領(lǐng)域的開源數(shù)據(jù),也常常存在標注粗糙、錯誤多等問題。

      真正的開源,應(yīng)該是把我們自己內(nèi)部使用的、經(jīng)過驗證的數(shù)據(jù)和模型權(quán)重開出去,讓大家拿到手就能用,能在此基礎(chǔ)上進行微調(diào)和二次開發(fā)。我們希望通過這種方式,與行業(yè)合力構(gòu)建一個真正開放、繁榮的生態(tài)。

      2、自變量:具身模型依賴于硬件,模型效果很難復(fù)現(xiàn)

      王潛:大家只會做模型的開源,是不會做數(shù)據(jù)開源的。所以這肯定是個偽命題。模型的開源由于有跨本體泛化的問題,也是不太能大規(guī)模用起來的。

      王昊(自變量 CTO):當然更多是存在這種假開源或者不徹底的開源,典型的比如開源模型,但是不開源數(shù)據(jù),模型效果很難復(fù)現(xiàn)。第二是開源數(shù)據(jù),但是質(zhì)量非常差,或者規(guī)模非常小,那這就是一種技術(shù)營銷,或者是一種學術(shù)貢獻,并不是真正意義上的生態(tài)共享。第三是因為具身模型是依賴于硬件的。即使模型開源,硬件系統(tǒng)完全閉源,而且是特定的硬件系統(tǒng),其他的硬件公司可能也很難利用上這些模型。

      相關(guān)標簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了