7 月 26 日,世界人工智能大會(huì)(WAIC)在上海拉開(kāi)帷幕。作為全球人工智能技術(shù)的風(fēng)向標(biāo),本屆大會(huì)匯聚了來(lái)自全球 30 多個(gè)國(guó)家的頂尖企業(yè)與研究機(jī)構(gòu),共同探討人工智能的前沿突破與產(chǎn)業(yè)變革。北京人形機(jī)器人創(chuàng)新中心(簡(jiǎn)稱(chēng) " 北京人形 ")攜全國(guó)首個(gè)工業(yè) " 多本體、多場(chǎng)景、多任務(wù)自主協(xié)同作業(yè) " 實(shí)戰(zhàn)演示亮相,意味著其今年 3 月發(fā)布的 " 慧思開(kāi)物 ",在分布式具身智能體系統(tǒng)能力方面已經(jīng)實(shí)現(xiàn)了全面升級(jí)。
當(dāng)前,具身智能仍停留在 " 單場(chǎng)景、單任務(wù)、單構(gòu)型 " 的早期階段。行業(yè)亟需一套通用、可擴(kuò)展的平臺(tái),支持多構(gòu)型機(jī)器人在復(fù)雜真實(shí)環(huán)境中的應(yīng)用。北京人形此次帶來(lái)的多個(gè)工業(yè)場(chǎng)景具身智能體協(xié)作展示,是業(yè)內(nèi)首個(gè)實(shí)現(xiàn)了公開(kāi)真機(jī)演示的多具身智能體協(xié)作應(yīng)用,具備重要突破意義。該系統(tǒng)基于通用具身智能平臺(tái) " 慧思開(kāi)物 " 構(gòu)建,具備跨本體兼容、任務(wù)異步協(xié)同自主調(diào)度,實(shí)現(xiàn)了真正意義上的 " 一腦多機(jī)、一腦多能 "。這也標(biāo)志著具身智能正從實(shí)驗(yàn)室走向產(chǎn)業(yè)化,為實(shí)際應(yīng)用提供了可落地、可復(fù)制的路徑。
同時(shí),這一系列具身智能體能力也正應(yīng)用于北京人形的明星產(chǎn)品 " 天工 " 上,持續(xù)推動(dòng)其技術(shù)進(jìn)化與實(shí)際應(yīng)用拓展。在 WAIC 展區(qū)," 天工 " 通過(guò)一段段精彩舞蹈獲得了現(xiàn)場(chǎng)觀眾們的廣泛認(rèn)可。秀 " 動(dòng)感舞蹈 " 是對(duì)人形機(jī)器人全身運(yùn)動(dòng)控制能力的集中展示,全尺寸的人形機(jī)器人跳舞,因?yàn)樯砀吆腕w重的增加會(huì)導(dǎo)致整體難度呈指數(shù)級(jí)增長(zhǎng),想要順利完成全身協(xié)同的復(fù)雜動(dòng)作難度極大。而 " 天工 " 現(xiàn)場(chǎng)流暢協(xié)調(diào)的舞蹈動(dòng)作,則充分體現(xiàn)了其在全身協(xié)調(diào)性和動(dòng)態(tài)控制能力上領(lǐng)先的技術(shù)實(shí)力。此外," 天工 " 還搭載雙電池快換電系統(tǒng),具備長(zhǎng)時(shí)間續(xù)航能力,綜合能效指標(biāo)達(dá)到國(guó)際領(lǐng)先水平,雙臂末端穩(wěn)態(tài)負(fù)重更大,未來(lái)可在工業(yè)場(chǎng)景、物流場(chǎng)景中完成各種精細(xì)操作類(lèi)任務(wù)。在 8 月 8 日即將開(kāi)幕的 2025 世界機(jī)器人大會(huì)上,全新升級(jí)的 " 天工 " 還將重點(diǎn)展示其具備占據(jù)網(wǎng)絡(luò)環(huán)境感知的自主導(dǎo)航能力和全身控制的自主操作等核心技術(shù),加速人形機(jī)器人在實(shí)際場(chǎng)景中的規(guī)?;涞?。
通用具身智能平臺(tái)調(diào)度多個(gè)智能體,實(shí)現(xiàn)全國(guó)首次全自主多本體協(xié)作任務(wù)鏈
北京人形在 WAIC 展區(qū)呈現(xiàn)了一條完整的工業(yè)場(chǎng)景任務(wù)鏈:在通用具身智能平臺(tái) " 慧思開(kāi)物 " 的統(tǒng)一指揮下,各智能體機(jī)器人自主相互通報(bào)進(jìn)展、溝通工作,電控柜操作區(qū)模擬精細(xì)操作,燈泡質(zhì)檢線(xiàn)完成工業(yè)檢測(cè),物品封裝區(qū)執(zhí)行封裝作業(yè),機(jī)器人穿梭于三個(gè)場(chǎng)景之間,完成搬運(yùn)工作。系統(tǒng)通過(guò)分布式具身智能體架構(gòu),在四個(gè)機(jī)器人本體上部署了 " 電工大師 "" 搬運(yùn)工 "" 質(zhì)檢員 "" 封裝助手 " 四個(gè)任務(wù)執(zhí)行智能體,同時(shí)在云端部署了任務(wù)調(diào)度智能體,負(fù)責(zé)接受指令和整體任務(wù)調(diào)度,將子任務(wù)分發(fā)給四個(gè)機(jī)器人協(xié)同完成,現(xiàn)場(chǎng)多個(gè)智能體共同構(gòu)建起一個(gè)高效的 " 任務(wù)執(zhí)行網(wǎng)絡(luò) "。而操作員只需在 " 慧思開(kāi)物 "App 上發(fā)送 " 開(kāi)始 " 指令,觀眾便能在大屏幕上見(jiàn)證從任務(wù)下發(fā)到多個(gè)機(jī)器人協(xié)同完成全鏈路操作的全過(guò)程,直觀感受到智能機(jī)器人在各類(lèi)復(fù)雜場(chǎng)景的落地應(yīng)用。
在常見(jiàn)的智能體工作流中,同一時(shí)刻僅有一個(gè)或部分智能體被激活,只能支持同步工作流,而 " 慧思開(kāi)物 " 系統(tǒng)讓所有智能體都處于活躍異步協(xié)作狀態(tài):機(jī)器人根據(jù)任務(wù)優(yōu)先級(jí)與自身狀態(tài)自主執(zhí)行任務(wù),能夠像人一樣通過(guò)自然語(yǔ)言而非程序代碼相互溝通,完成后觸發(fā)下一階段協(xié)作流程,實(shí)現(xiàn)真正意義上的 " 機(jī)器決策機(jī)器 "。多具身智能體異步協(xié)作,要求系統(tǒng)具備實(shí)時(shí)多任務(wù)并發(fā)處理能力,包括帶優(yōu)先級(jí)的多任務(wù)插入、暫停、恢復(fù)。相比同步工作流,對(duì)整體系統(tǒng)提出更高級(jí)別的挑戰(zhàn)。每個(gè)智能體機(jī)器人都配備獨(dú)立的大腦與小腦,使得它們既可以完全獨(dú)立工作,同時(shí)可以協(xié)同作業(yè),具備從認(rèn)知到執(zhí)行的全鏈條能力,構(gòu)筑起支持未來(lái)多場(chǎng)景泛化、跨機(jī)器人協(xié)同的核心技術(shù)底座。
正因如此,觀眾才得以在展區(qū)近距離感受到各構(gòu)型機(jī)器人絲滑流暢的工業(yè)作業(yè)流程。而這背后,是北京人形研發(fā)團(tuán)隊(duì)在分布式具身智能體系統(tǒng)、多模態(tài)操作 VLA 大模型、視覺(jué)理解、空間感知、復(fù)雜任務(wù)理解、任務(wù)精準(zhǔn)拆解、工具調(diào)用、雙臂協(xié)作、自主糾錯(cuò)、實(shí)時(shí)重規(guī)劃執(zhí)行等關(guān)鍵技術(shù)上的持續(xù)進(jìn)化和集中展現(xiàn)。
在電控柜操作區(qū),接收到 " 慧思開(kāi)物 " 的指令后,機(jī)器人自主完成開(kāi)柜、點(diǎn)按旋鈕、合閘等多工序的靈巧作業(yè)。這些看似簡(jiǎn)單的操作背后,是 35 自由度機(jī)器人系統(tǒng)與接觸密集型長(zhǎng)任務(wù)雙臂靈巧手協(xié)作 VLA(視覺(jué) - 語(yǔ)言 - 動(dòng)作)模型的技術(shù)結(jié)晶。在電力檢修場(chǎng)景下,機(jī)器人需要應(yīng)對(duì)長(zhǎng)任務(wù)誤差累積、電氣操作邏輯和密集元件接觸等復(fù)雜挑戰(zhàn)。
為攻克這一難題,研發(fā)團(tuán)隊(duì)基于多模態(tài)感知系統(tǒng),采集高質(zhì)量人工演示數(shù)據(jù),開(kāi)發(fā)了基于視覺(jué) - 觸覺(jué) - 動(dòng)作模型的雙臂 - 手靈巧操作算法。針對(duì)當(dāng)前機(jī)器人無(wú)法準(zhǔn)確完成長(zhǎng)程任務(wù)的挑戰(zhàn),采用基于關(guān)鍵幀的多任務(wù)串聯(lián)與預(yù)測(cè)算法,有效降低誤差累積;通過(guò)任務(wù)自糾錯(cuò)機(jī)制,模型可根據(jù)電氣信號(hào)自動(dòng)判斷操作是否完成;結(jié)合指尖觸覺(jué)特征提取,模型能精準(zhǔn)感知接觸變化,有效應(yīng)對(duì)旋鈕和空氣開(kāi)關(guān)等復(fù)雜元件的應(yīng)力突變。與主流的單模態(tài)感知系統(tǒng)和傳統(tǒng)模仿學(xué)習(xí)相比,這一方法能夠顯著提升任務(wù)成功率至 90% 以上。機(jī)器人憑借這些技術(shù)能夠?qū)崿F(xiàn)多場(chǎng)景適應(yīng)和智能決策,在保障作業(yè)安全的同時(shí),推動(dòng)電力行業(yè)智能化升級(jí),減少高危人工操作。
電控柜通電后,燈泡質(zhì)檢區(qū)啟動(dòng)的雙機(jī)協(xié)同流程則是更具挑戰(zhàn)的柔性展現(xiàn)。機(jī)器人從貨架抓取燈泡箱體并精準(zhǔn)搬運(yùn)至指定位置,機(jī)械臂已同步被喚醒,啟動(dòng) " 抓取 - 插裝 - 點(diǎn)亮 - 質(zhì)檢 - 分揀 " 的標(biāo)準(zhǔn)化作業(yè),視覺(jué)傳感器結(jié)合多模態(tài)大模型完成光效檢測(cè),實(shí)現(xiàn)對(duì)燈泡好壞的判斷并規(guī)劃好下一步操作。
整個(gè)過(guò)程中,機(jī)器人基于三維環(huán)境感知,實(shí)現(xiàn)雙機(jī)械臂自主規(guī)避障礙、動(dòng)態(tài)規(guī)劃抓取與操作軌跡;結(jié)合力位混合控制技術(shù),末端執(zhí)行器能夠靈敏調(diào)整力度和位置,確保插裝過(guò)程平穩(wěn)且對(duì)燈泡無(wú)損傷,高精度視覺(jué)定位系統(tǒng)同時(shí)確保對(duì)燈泡的精準(zhǔn)定位。此外,機(jī)器人通過(guò) VLM 場(chǎng)景理解能力,能根據(jù)檢測(cè)到的光效和細(xì)微特征,實(shí)現(xiàn)對(duì)每一個(gè)燈泡的自主判斷和分揀。在 " 慧思開(kāi)物 " 通用具身智能平臺(tái)的調(diào)配下,系統(tǒng)可自主規(guī)劃流程,靈活調(diào)用傳感器與工具,實(shí)現(xiàn)多設(shè)備協(xié)同與任務(wù)快速重組,為 " 柔性自動(dòng)化工廠 " 提供了高效、可擴(kuò)展的方案。
在物品封裝區(qū),基于北京人形自研的端到端 VLA 模型,實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的實(shí)時(shí)糾錯(cuò)雙臂協(xié)同流暢操作。機(jī)械臂執(zhí)行物品封裝與二維碼貼合任務(wù),現(xiàn)場(chǎng)引入了燈光變化、物品位置更換等復(fù)雜擾動(dòng),以模擬真實(shí)場(chǎng)景下的動(dòng)態(tài)環(huán)境,系統(tǒng)仍能自適應(yīng)處理干擾,穩(wěn)定完成各項(xiàng)操作,真正做到了 " 使命必達(dá) "。最終由機(jī)器人在展區(qū)中自主穿梭,完成各項(xiàng)物品搬運(yùn)。
這得益于 " 慧思開(kāi)物 " 的中控決策模塊所融合的自研 VLA 模型賦予了機(jī)器人快速的動(dòng)作預(yù)測(cè)與下發(fā)能力,確保各環(huán)節(jié)操作流暢。在外部光線(xiàn)干擾下,機(jī)器人容易出現(xiàn)動(dòng)作失誤或異常。對(duì)此,研發(fā)團(tuán)隊(duì)利用特征提取能力和數(shù)據(jù)生成方案,有效解決現(xiàn)實(shí)場(chǎng)景中經(jīng)常出現(xiàn)的燈光干擾問(wèn)題;同時(shí),通過(guò)異步推理大幅提升了推理速度,使整個(gè)模型具備出色的環(huán)境適應(yīng)性與執(zhí)行魯棒性。面對(duì)突發(fā)干擾,它可實(shí)時(shí)感知任務(wù)狀態(tài),自主完成策略調(diào)整與糾錯(cuò),確保操作穩(wěn)定且準(zhǔn)確。以二維碼貼合環(huán)節(jié)為例,該模型能夠像人類(lèi)一樣理解物品袋的當(dāng)前姿態(tài),快速預(yù)測(cè)并下發(fā)合適動(dòng)作,使機(jī)械臂完成轉(zhuǎn)向與調(diào)整,并將二維碼準(zhǔn)確粘貼到位。相比傳統(tǒng)機(jī)器人依賴(lài)穩(wěn)定環(huán)境的運(yùn)行模式,該架構(gòu)通過(guò)在非結(jié)構(gòu)化場(chǎng)景中的驗(yàn)證,在動(dòng)態(tài)條件下展現(xiàn)出更強(qiáng)的任務(wù)完成能力和環(huán)境適應(yīng)性。
全身運(yùn)動(dòng)控制與數(shù)據(jù)賦能,構(gòu)筑人形智能新底座
展區(qū)另一側(cè),人形機(jī)器人 " 天工 2.0" 正伴隨動(dòng)感音樂(lè)節(jié)拍 " 舞力全開(kāi) ",流暢協(xié)調(diào)的舞姿瞬間點(diǎn)燃現(xiàn)場(chǎng)氣氛,成為引人駐足圍觀的焦點(diǎn)。舞蹈過(guò)程中,它全身多達(dá) 42 個(gè)自由度的關(guān)節(jié)協(xié)調(diào)統(tǒng)一,指尖的輕巧靈動(dòng)、手臂的高速流暢、軀干的沉穩(wěn)搖曳,無(wú)一不展現(xiàn)其高動(dòng)態(tài)全身協(xié)調(diào)控制的先進(jìn)性和穩(wěn)定性。
天工 2.0 身高約 173cm,體重約 73KG,更大的重量和更長(zhǎng)的肢體意味著更大的運(yùn)動(dòng)慣性和力矩變化,動(dòng)作控制更需快速精準(zhǔn)的實(shí)時(shí)運(yùn)算與穩(wěn)定響應(yīng);而 42 個(gè)高自由度的動(dòng)態(tài)聯(lián)動(dòng),則考驗(yàn)系統(tǒng)多關(guān)節(jié)協(xié)同、實(shí)時(shí)規(guī)劃與抗干擾能力的極限。高速舞動(dòng)中,天工 2.0 憑借下肢的大運(yùn)動(dòng)范圍與高扭矩、上肢的精準(zhǔn)控制和軀干的靈動(dòng)姿態(tài),實(shí)現(xiàn)了全身重心的持續(xù)穩(wěn)定和高動(dòng)態(tài)平衡控制。除了在運(yùn)動(dòng)控制與系統(tǒng)協(xié)同方面的精彩表現(xiàn)之外,更長(zhǎng)的續(xù)航能力、更靈活的上肢操作,也為天工 2.0 未來(lái)廣泛應(yīng)用于工業(yè)場(chǎng)景、物流場(chǎng)景提供了堅(jiān)實(shí)基礎(chǔ)。
值得一提的是,今年 4 月在北京亦莊半程馬拉松中以 2 小時(shí) 40 分 42 秒創(chuàng)造世界紀(jì)錄的冠軍機(jī)器人 " 天工 Ultra" 也驚喜亮相,吸引了大量觀眾與其打卡合影。
支撐這套系統(tǒng)運(yùn)行的數(shù)據(jù)基礎(chǔ)同樣令人矚目。在現(xiàn)場(chǎng)的數(shù)據(jù)采集區(qū),觀眾可以體驗(yàn)北京人形自研的同構(gòu)臂遙操作真機(jī)和仿真天工的實(shí)時(shí)演示,操作員的每一個(gè)動(dòng)作都能被真機(jī)和仿真機(jī)器人精準(zhǔn)復(fù)現(xiàn)和完整記錄,這種高動(dòng)態(tài)、高保真的數(shù)據(jù)采集為算法訓(xùn)練提供了寶貴素材。配合北京人形自研數(shù)據(jù)采集平臺(tái),完整呈現(xiàn)了從虛實(shí)結(jié)合的數(shù)據(jù)獲取到模型訓(xùn)練的全鏈條技術(shù)能力。這些數(shù)據(jù)不僅支撐了算法的快速迭代,更為行業(yè)標(biāo)準(zhǔn)化發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。北京人形發(fā)布的 RoboMIND 數(shù)據(jù)集已累計(jì)下載使用超 4 萬(wàn)次,成為具身智能研究的重要開(kāi)源資源。
作為國(guó)家級(jí)創(chuàng)新平臺(tái),北京人形正在構(gòu)建的不僅是技術(shù)平臺(tái),更是整個(gè)產(chǎn)業(yè)生態(tài)的底層架構(gòu)。
從競(jìng)技舞臺(tái)到未來(lái)場(chǎng)景:開(kāi)啟人機(jī)共融時(shí)代
工業(yè)場(chǎng)景 " 多本體、多場(chǎng)景、多任務(wù)自主協(xié)同作業(yè) " 能力的突破預(yù)示著具身智能正在從 " 展示型 " 向 " 應(yīng)用型 " 演進(jìn)。北京人形的這次亮相不僅完成了對(duì)具身智能技術(shù)能力的全面檢閱,也為工業(yè)制造的智能化升級(jí)提供了全新路徑。
當(dāng)展館內(nèi)最后一個(gè)任務(wù)指令完成,所有機(jī)器人自主、有序地返回待機(jī)位置時(shí),現(xiàn)場(chǎng)觀眾見(jiàn)證的已不僅是一場(chǎng)技術(shù)演示,更是一個(gè)標(biāo)志性的時(shí)刻——在這個(gè)智能制造的新時(shí)代里,機(jī)器人將不再是孤立的工具,而是能夠相互協(xié)作、主動(dòng)適應(yīng)的智能伙伴。