文 | 定焦 One,作者 | 王璐,編輯 | 魏佳
人類,正在被人形機(jī)器人 " 圈粉 "。
在剛剛落幕的 2025 世界機(jī)器人大會(huì)(WRC)上,這群 " 鋼鐵戰(zhàn)士 " 成了頂流明星,五天展期里人潮不散,各家展臺(tái)被圍得水泄不通,觀眾一邊驚呼 " 哇塞 ",一邊舉著手機(jī)咔咔狂拍,社交平臺(tái)被機(jī)器人的短視頻刷屏。
越來(lái)越多人驚喜于人形機(jī)器人的進(jìn)化速度,它們已經(jīng)不是笨拙的鐵疙瘩,而是有了靈巧的雙手和雙足,皮膚觸感逼真到能 " 以假亂真 ",甚至?xí)裘?、微笑、拋媚眼?/p>
技能點(diǎn)也在全方位進(jìn)化——
能表演:跳舞、T 臺(tái)走秀、打拳、踢足球等樣樣精通;
能干活:在家務(wù)整理、咖啡制作、工業(yè)搬運(yùn)等領(lǐng)域取代打工人;
能交流:聽(tīng)得懂人講話、能進(jìn)行簡(jiǎn)單地自然對(duì)話,逐步擺脫 " 人工智障 " 標(biāo)簽。
但它們也有不少 bug ——
動(dòng)作單一:多家廠商機(jī)器人跳舞,后空翻和摔倒姿勢(shì)宛如復(fù)制粘貼,被網(wǎng)友調(diào)侃 " 程序員偷懶 ";
效率不高:疊衣服慢如樹(shù)懶,工業(yè)場(chǎng)景仍停留在基礎(chǔ)分揀;
價(jià)格高昂:一臺(tái)頂配機(jī)器人抵得上一輛寶馬。
盡管如此,它們?nèi)缘沧驳仉x開(kāi)實(shí)驗(yàn)室,正在加速走向現(xiàn)實(shí)世界。" 馬拉松 "" 運(yùn)動(dòng)會(huì) "" 拳擊賽 " 等各種人形機(jī)器人賽事,還在霸屏著國(guó)內(nèi)外媒體。
近期,「定焦 One」和幾位人形機(jī)器人頭部企業(yè)、資深從業(yè)者聊了聊。雖然現(xiàn)在談大規(guī)模應(yīng)用還為時(shí)尚早," 智力 " 和 " 成本 " 仍是瓶頸,但技術(shù)進(jìn)步、資本下注和市場(chǎng)需求正在加速這個(gè)進(jìn)程。未來(lái),人形機(jī)器人可能會(huì)顛覆我們對(duì)勞動(dòng)、效率和智能的想象。
人形機(jī)器人,進(jìn)化成啥樣了?
人形機(jī)器人,到底是什么樣的存在?它并不像大家想象中那么簡(jiǎn)單。我們從外觀、交互方式和應(yīng)用場(chǎng)景三方面,來(lái)一個(gè)全景認(rèn)知。
先來(lái)看看如今的人形機(jī)器人長(zhǎng)什么樣。
通常來(lái)說(shuō),它們有著軀干、頭頸、四肢等類人結(jié)構(gòu),但實(shí)際上,各家的人形機(jī)器人形態(tài)各異,差異主要體現(xiàn)在手和腳的設(shè)計(jì)上。手分為三類:靈巧手(采用仿生五指設(shè)計(jì),能夠模擬人類手部的精細(xì)動(dòng)作)和二指夾爪、三指手,腳則分為雙足型和非足型。
在從業(yè)者看來(lái),雖然靈巧手和雙足設(shè)計(jì)更接近人類形態(tài),但實(shí)現(xiàn)功能卻相對(duì)基礎(chǔ)且價(jià)格高昂,一位相關(guān)從業(yè)者透露,高端靈巧手價(jià)格高達(dá) 10 萬(wàn) -20 萬(wàn)元。
有著多年互聯(lián)網(wǎng)和自動(dòng)駕駛汽車行業(yè)從業(yè)經(jīng)驗(yàn),也是具身智能行業(yè)的資深從業(yè)者 Kris 告訴「定焦 One」,一對(duì)靈巧手的成本可以占到機(jī)器人總成本的三分之一,從二指夾爪升級(jí)為三指手,雖然只增加了一個(gè)手指,成本可能翻了好幾倍,但高成本帶來(lái)的效果未必成正比。
因此,為了提供更好性能以及平衡性價(jià)比,人形機(jī)器人公司大多都采取了沒(méi)那么像人的夾爪形式和輪式結(jié)構(gòu),除非客戶有特定需求。
比如,參展廠商星塵智能的 Astribot S1 演示了做早餐、沖咖啡、畫扇子等復(fù)雜任務(wù),這些操作都是靠二指夾爪實(shí)現(xiàn)的。
星塵智能研發(fā)負(fù)責(zé)人安昭輝告訴「定焦 One」,人形機(jī)器人的操作功能集中在上半身,但不僅僅是靠夾爪,而是依靠整個(gè)上半身,所以他們對(duì)整個(gè)機(jī)器人本體的關(guān)鍵部位,采用了創(chuàng)新繩驅(qū)傳動(dòng)設(shè)計(jì),達(dá)到了高度模仿人類肌肉和施力方式,而且在表現(xiàn)更擬人、更高動(dòng)態(tài)的同時(shí),也更安全。
再來(lái)看交互方式,Kris 解釋,控制人形機(jī)器人運(yùn)行的方法主要有三種:遙操(通過(guò)傳感器、控制器等設(shè)備捕捉人類動(dòng)作)、同構(gòu)臂(通過(guò)關(guān)節(jié)映射傳遞到機(jī)器人手臂)、語(yǔ)音控制三類。其中比較復(fù)雜的指令比如做早餐,采用的便是遙操、同構(gòu)臂,簡(jiǎn)單的指令比如推、拿、放,采用的是語(yǔ)音控制甚至可以達(dá)到自主運(yùn)行。
但無(wú)論哪種,離真正由 AI 自主控制都相差很遠(yuǎn)。即使是看似智能的 " 語(yǔ)音控制 ",也多基于預(yù)設(shè)規(guī)則,機(jī)器人只是看上去有了自主意識(shí),但缺乏真正的場(chǎng)景適應(yīng)能力。
需要指出的是,人形機(jī)器人的遙操和遙控車不是一個(gè)概念,也需要一定技術(shù)水平。
北京大學(xué)計(jì)算機(jī)學(xué)院訪問(wèn)工程師,在互聯(lián)網(wǎng)、自動(dòng)駕駛、機(jī)器人等行業(yè)都擁有豐富實(shí)踐經(jīng)驗(yàn)的 gashero 向「定焦 One」解釋,人形機(jī)器人看上去是有人拿著遙控器進(jìn)行操作,但遙操實(shí)際上發(fā)送的是指令,而非直接控制機(jī)器人的最底層,還有大量子任務(wù)需要機(jī)器人自己規(guī)劃執(zhí)行。比如需要機(jī)器人自己保持平衡,規(guī)劃身上的多個(gè)電機(jī)、傳感器來(lái)綜合執(zhí)行目標(biāo)動(dòng)作,具有技術(shù)難度。
最后來(lái)看看應(yīng)用場(chǎng)景。
綜合從業(yè)者的觀點(diǎn),人形機(jī)器人可清晰地分為To B(企業(yè)級(jí))和 To C(消費(fèi)級(jí))兩大方向,其中 To B 主要指的是文娛表演、工業(yè)制造、文旅服務(wù)、醫(yī)療康養(yǎng)這四大領(lǐng)域。To C 集中在家用場(chǎng)景,Kris 總結(jié),人形機(jī)器人的目標(biāo)是替代傳統(tǒng)的 " 三保 " 工作(保安、保潔、保姆)。
Kris 表示,文娛表演是目前最為成熟的應(yīng)用場(chǎng)景,各種舞蹈、T 臺(tái)走秀和競(jìng)技比賽頻繁出現(xiàn)。而其他場(chǎng)景仍處于基礎(chǔ)應(yīng)用階段,比如工業(yè)制造以流水線上的分揀、搬運(yùn)為主,文旅服務(wù)以景區(qū)引導(dǎo)為主。
不過(guò),從實(shí)際價(jià)值來(lái)看,gashero 認(rèn)為現(xiàn)階段很多人形機(jī)器人 " 上班 " 后的存在感并不強(qiáng)。
比如在倉(cāng)庫(kù)里完成搬箱子任務(wù),倉(cāng)庫(kù) AGV 機(jī)器人(機(jī)器視覺(jué) + 機(jī)械臂的組合)已經(jīng)非常成熟且廉價(jià),人形機(jī)器人不具備強(qiáng)競(jìng)爭(zhēng)力。至于文娛表演,他認(rèn)為不可持續(xù)," 新鮮勁過(guò)了,機(jī)器人還是要追求創(chuàng)造實(shí)實(shí)在在的價(jià)值。"
總結(jié)來(lái)說(shuō),雖然人形機(jī)器人這幾年有了很大進(jìn)步,但想讓它們真正發(fā)揮價(jià)值,還有幾道關(guān)鍵門檻。
得過(guò) " 成本關(guān) " 和 " 腦子關(guān) "
多位從業(yè)者概括,眼下人形機(jī)器人的主要難題在于 " 腦子不夠聰明 " 和 " 價(jià)格不夠親民 "。
你可以把人形機(jī)器人想象成一個(gè) " 人 ",由 " 身體 " 和 " 腦子 " 組成。硬件就是它的 " 身體 ",也被從業(yè)者叫做本體,軟件則是它的 " 腦子 ",掌管著各種思考和行動(dòng)。
業(yè)界的共識(shí)是,國(guó)內(nèi)人形機(jī)器人的運(yùn)動(dòng)性能已經(jīng)日趨成熟,可以滿足基本的操作需求,但比起 " 身體 " 的強(qiáng)壯,人形機(jī)器人 " 腦子 " 的問(wèn)題很大,目前行業(yè)智能化發(fā)展嚴(yán)重不均。Kris 直言,人形機(jī)器人的軟件還停留在 Demo 水平,就像是個(gè)剛學(xué)會(huì)走路的孩子,只能在特定的小范圍里走路。
大語(yǔ)言模型之所以越來(lái)越聰明,是因?yàn)樗煌5貙W(xué)習(xí)海量數(shù)據(jù)。人形機(jī)器人也類似,但它得在真實(shí)的物理環(huán)境中進(jìn)行大量交互操作,從中獲取數(shù)據(jù)來(lái)訓(xùn)練自己的決策和行動(dòng)能力??涩F(xiàn)實(shí)是,物理世界的操作數(shù)據(jù)非常短缺,嚴(yán)重限制了人形機(jī)器人的發(fā)展。
Kris 表示,人形機(jī)器人的軟件構(gòu)成基本都是 VLA 的架構(gòu),在這個(gè)架構(gòu)下,要讓 " 腦子 " 認(rèn)出物體,還要指揮 " 身體 " 完成動(dòng)作,就必須依賴精準(zhǔn)真實(shí)的空間數(shù)據(jù)。
比如,讓人形機(jī)器人去晾衣服,它得知道走到哪兒去晾,那個(gè)地方的具體坐標(biāo)是多少??涩F(xiàn)實(shí)生活中這部分?jǐn)?shù)據(jù)偏偏是缺失的。所以很多人形機(jī)器人在完成指定動(dòng)作時(shí),必須固定在某個(gè)地方,拿的東西也必須在它的視線之內(nèi),就像被無(wú)形的繩子拴住了一樣。
但有些人形機(jī)器人的智商已經(jīng)出現(xiàn)了進(jìn)化。
比如在 " 收拾桌面 " 的家務(wù)場(chǎng)景中,星塵智能的 Astribot S1(依托星塵智能全身 VLA 模型)在面對(duì)很多沒(méi)見(jiàn)過(guò)的物體或異常干擾時(shí),能自主完成收拾雜物的工作,即使將場(chǎng)景挪到 WRC 現(xiàn)場(chǎng),也只需補(bǔ)采少量數(shù)據(jù),模型就能用。
這背后依靠的是自研模型、本體、過(guò)往海量數(shù)據(jù)的閉環(huán)驅(qū)動(dòng),而其 " 元技能庫(kù) " 學(xué)習(xí)法,可以讓機(jī)器人不斷采集各類場(chǎng)景中的交互信息,面對(duì)新任務(wù)時(shí)進(jìn)行技能遷移,無(wú)需從頭學(xué)起,就像小朋友學(xué)習(xí)一樣,通過(guò)舉一反三認(rèn)知世界。
但安昭輝也告訴「定焦 One」,目前人形機(jī)器人的通用泛化能力還是整個(gè)行業(yè)都在頭疼的難題,目前它只能對(duì)相似的場(chǎng)景進(jìn)行泛化,做不到像 ChatGPT 那樣回答各行各業(yè)的問(wèn)題,簡(jiǎn)言之,它還是個(gè)垂類專家而非通用專家。
不止一位從業(yè)者表示,合成數(shù)據(jù)是推動(dòng)具身智能快速落地的關(guān)鍵。以銀河通用為代表的企業(yè)在具身智能領(lǐng)域?qū)W⒀芯?,?" 腦子 " 上達(dá)到行業(yè)前沿水平。
拿銀河通用的 Galbot 為例,在北京海淀中關(guān)村的線下門店,它不用人遙操作,便可自主完成購(gòu)買接待、點(diǎn)單支付、商品拿取、當(dāng)面交付、多語(yǔ)音交互引客等全流程。在面對(duì) 300+ 冷藏 / 熱飲不同形態(tài)的商品時(shí),也能準(zhǔn)確抓取且做到不碰倒其他貨品。
在本次 WRC 大會(huì)上,英偉達(dá) Omniverse 和仿真模擬技術(shù)副總裁 Rev Lebaredian 和宇樹(shù)科技王興興、銀河通用創(chuàng)始人王鶴同框,英偉達(dá)宣布已將中國(guó)首批 Jetson Thor 芯片給銀河通用使用。在銀河通用的 WRC 展臺(tái)上展示了全球首款搭載了英偉達(dá) Jetson Thor 芯片的機(jī)器人 Galbot G1 Premium,被現(xiàn)場(chǎng)觀眾評(píng)價(jià)為 " 干活最麻利的人形機(jī)器人 "。
如果說(shuō) " 腦子關(guān) " 限制了人形機(jī)器人的能力,那么 " 成本關(guān) " 則決定了它能否大規(guī)模普及。
在本次 WRC 大會(huì)上,人形機(jī)器人的身價(jià)天差地別,但整體都價(jià)格不菲,大部分在幾十萬(wàn)的區(qū)間。最貴的一臺(tái)將近百萬(wàn),被網(wǎng)友調(diào)侃為 " 土豪專屬 ",當(dāng)然,也有少數(shù) " 親民款 ",比如宇樹(shù)科技 Unitree G1 人形機(jī)器人,售價(jià) 9.9 萬(wàn)元,但對(duì)普通家庭來(lái)說(shuō)仍不算便宜。
高昂的價(jià)格讓人望而卻步,從業(yè)者解釋,這并非漫天要價(jià),事實(shí)是,造一臺(tái)人形機(jī)器人成本很高。機(jī)器人領(lǐng)域很多核心零部件的成本和汽車產(chǎn)業(yè)類似,甚至連供應(yīng)商都是同一撥,硬件成本不低,也讓機(jī)器人短期內(nèi)難以像其他家電那樣進(jìn)入千家萬(wàn)戶。
比商業(yè)化更快的,是上市潮先來(lái)了
即便人形機(jī)器人面臨著智力與成本的雙重考驗(yàn),對(duì)于這一行業(yè)的前景,市場(chǎng)仍十分看好。
從宏觀數(shù)據(jù)看,行業(yè)規(guī)模正高速增長(zhǎng)。本次 2025 世界機(jī)器人大會(huì)開(kāi)幕式上公布了一組數(shù)據(jù):今年上半年,我國(guó)機(jī)器人產(chǎn)業(yè)營(yíng)收同比增長(zhǎng) 27.8%。工業(yè)機(jī)器人和服務(wù)機(jī)器人產(chǎn)量增長(zhǎng)同樣顯著,同比分別增長(zhǎng) 35.6% 和 25.5%。我國(guó)已連續(xù) 12 年位居全球最大工業(yè)機(jī)器人應(yīng)用市場(chǎng)。
企業(yè)端和資本端的熱度更勝一籌。
企查查數(shù)據(jù)顯示,截至目前,今年前 7 個(gè)月已注冊(cè)機(jī)器人相關(guān)企業(yè) 15.28 萬(wàn)家,較去年同期相比,增長(zhǎng) 43.81%,增速遠(yuǎn)超去年全年注冊(cè)水平。截至 8 月 12 日,國(guó)內(nèi)現(xiàn)存機(jī)器人相關(guān)企業(yè) 95.8 萬(wàn)家。
與此同時(shí),很多企業(yè)已經(jīng)瞄準(zhǔn)了資本市場(chǎng)。公開(kāi)信息顯示,目前全球已有超 20 家人形機(jī)器人公司啟動(dòng) IPO 或傳出有 IPO 意向,其中中國(guó)占 16 家,包括宇樹(shù)科技、智元機(jī)器人、傅利葉智能等。
各家聚焦的應(yīng)用場(chǎng)景和優(yōu)勢(shì)也都不一樣。
比如宇樹(shù)科技的優(yōu)勢(shì)集中在核心技術(shù)與商業(yè)化落地能力上。其 95% 以上的核心硬件實(shí)現(xiàn)自主研發(fā),在商業(yè)化方面,旗下產(chǎn)品 G1 基礎(chǔ)版以 9.9 萬(wàn)元起的售價(jià)展現(xiàn)出高性價(jià)比,落地應(yīng)用已較為成熟。
智元機(jī)器人則主打全鏈條布局。從硬件到軟件均堅(jiān)持自主研發(fā),同時(shí)通過(guò)投資機(jī)器人產(chǎn)業(yè)鏈上的多家創(chuàng)業(yè)公司,構(gòu)建起產(chǎn)業(yè)生態(tài)。
傅利葉智能聚焦特定場(chǎng)景深耕,重點(diǎn)發(fā)力醫(yī)療康復(fù)領(lǐng)域。最近推出了首款主打交互陪伴、具備 " 可觸摸 " 特性的全尺寸人形 Care-bot GR-3,其具有社交陪伴和輔助陪護(hù)功能,整體外觀形似 " 大白 ",還有微表情反饋。
至于如何判斷一家人形機(jī)器人公司的實(shí)力,不同從業(yè)者給出了不同參考標(biāo)準(zhǔn)。
gashero 認(rèn)為人形機(jī)器人和自動(dòng)駕駛領(lǐng)域具有一定的相似性,因此也可借鑒其評(píng)估方式,先把這些公司進(jìn)行分類,劃分為人工智能(具身智能)和機(jī)器人兩大派。人工智能派致力于 " 大腦 " ——更高的智能水平,機(jī)器人派則側(cè)重于 " 身體 " ——更強(qiáng)的硬件能力。
在這兩派中,gashero 認(rèn)為," 大腦 " 是人形機(jī)器人在未來(lái)突破的關(guān)鍵所在,因此更傾向于將數(shù)據(jù)方面具備更強(qiáng)實(shí)力的公司放進(jìn)第一梯隊(duì)。
Kris 則強(qiáng)調(diào),落地場(chǎng)景對(duì)于人形機(jī)器人的商業(yè)前景起著決定性作用。但如果從這一維度來(lái)看,企業(yè)梯隊(duì)劃分又會(huì)呈現(xiàn)出明顯差異,因此他更偏向于認(rèn)為行業(yè)還處在發(fā)展早期,人形機(jī)器人公司各自在不同的應(yīng)用領(lǐng)域探索、拓展市場(chǎng),很難從某一固定維度分出高下。
也有從業(yè)者認(rèn)為,依據(jù)估值來(lái)劃分人形機(jī)器人公司的實(shí)力,是一種較為直觀的方法。
按照這種劃分方式,智元機(jī)器人、宇樹(shù)科技、銀河通用處于第一梯隊(duì),估值超 70 億;它石智航、千尋智能、自變量機(jī)器人等公司排在第二梯隊(duì),估值在 20 億 -50 億;其余熱門公司估值大致在 20 億以下。
不難發(fā)現(xiàn),無(wú)論是從 " 大腦 " 與 " 身體 " 的技術(shù)側(cè)重,還是落地場(chǎng)景的探索,以及估值規(guī)模的評(píng)估,不同的維度展現(xiàn)出市場(chǎng)看待人形機(jī)器人行業(yè)的多元視角,恰恰顯示出這是一個(gè)高速生長(zhǎng)、遠(yuǎn)未定型的行業(yè)。這也意味著,人形機(jī)器人的未來(lái),將有無(wú)限可能。