
具身智能領(lǐng)域一直存在著一場(chǎng)關(guān)于傳動(dòng)技術(shù)路線博弈:傳統(tǒng)剛性傳動(dòng)(諧波減速器、行星減速器等)憑借高精度、低成本的優(yōu)勢(shì),占據(jù)著絕大部分的機(jī)器人傳動(dòng)市場(chǎng)。但結(jié)構(gòu)笨重、低靈活性、低安全度又限制了其適配一些非標(biāo)準(zhǔn)化場(chǎng)景;而繩驅(qū)技術(shù)以 " 仿生肌腱 " 的獨(dú)特邏輯,在力控制精度、靈活性、安全性上形成了差異化優(yōu)勢(shì),成為打開(kāi)商業(yè)化場(chǎng)景的關(guān)鍵變量。
星塵智能正是繩驅(qū)路線的領(lǐng)軍者,創(chuàng)始人來(lái)杰擁有近 16 年的機(jī)器人研發(fā)經(jīng)驗(yàn),曾是百度小度機(jī)器人和騰訊 Robotics X 實(shí)驗(yàn)室的核心初創(chuàng)成員。2023 年成立至今,已獲得螞蟻集團(tuán)、錦秋基金、云啟資本、經(jīng)緯中國(guó)等多家知名機(jī)構(gòu)的多輪加注,融資總額近 10 億。
近期,星塵智能與仙工機(jī)器人還達(dá)成千臺(tái)級(jí)人形機(jī)器人訂單合作,計(jì)劃兩年內(nèi)落地,聚焦工業(yè)、制造、倉(cāng)儲(chǔ)、物流等場(chǎng)景,這一量級(jí)的訂單在行業(yè)內(nèi)實(shí)屬罕見(jiàn)。近日,我們有幸與多家媒體一起與星塵智能創(chuàng)始人來(lái)杰進(jìn)行了一場(chǎng)關(guān)于繩驅(qū)、遙操、模型與市場(chǎng)的深度對(duì)話。
以下為智客 ZhiKer 與來(lái)杰對(duì)話全文,略有刪減
關(guān)于繩驅(qū)技術(shù)
智客 ZhiKer:星塵智能為何選擇繩驅(qū)作為核心傳動(dòng)技術(shù)?它與傳統(tǒng)剛性傳動(dòng)相比,核心突破在哪?
來(lái)杰:選擇繩驅(qū),本質(zhì)是回歸 " 機(jī)器人像人一樣工作 " 的第一性原理——繩驅(qū)模仿人類(lèi)肌腱的傳動(dòng)邏輯,能實(shí)現(xiàn)比剛性機(jī)械臂更靈活的動(dòng)作控制,尤其在力透明度和安全性上有本質(zhì)突破。
力透明度的關(guān)鍵是 " 感知反饋 ",比如盲人開(kāi)門(mén)不用計(jì)算軌跡,靠手部力感就能完成,而傳統(tǒng)機(jī)器人只依賴視覺(jué),精度卷到 0.01 毫米仍解決不了現(xiàn)實(shí)問(wèn)題。我們的繩驅(qū)機(jī)器人能通過(guò)檢測(cè)繩上拉力,實(shí)時(shí)感知關(guān)節(jié)受力,像盲人一樣 " 摸 " 著完成動(dòng)作,比如開(kāi)門(mén)時(shí)壓把手、旋轉(zhuǎn)、推拉的連貫反饋,100% 解決這類(lèi)任務(wù)。
安全性上,繩驅(qū)能吸收碰撞沖擊力——電機(jī)被繩子包裹,機(jī)器人就算天天敲桌子也不會(huì)壞,而傳統(tǒng)剛性傳動(dòng)產(chǎn)品怕震動(dòng)、不敢 " 粗放使用 "。我們?nèi)ツ?8 月完成原型機(jī),今年 6 月搭完產(chǎn)線量產(chǎn),7 月就整機(jī)下線發(fā)售,是全球首家做到繩驅(qū)機(jī)器人量產(chǎn)出貨的。
智客 ZhiKer:繩驅(qū)技術(shù)常被質(zhì)疑 " 彈性形變影響精度 "" 壽命短 ",星塵是如何解決這些工程難題的?
來(lái)杰:這兩個(gè)問(wèn)題要靠 " 材料 + 算法 "。首先是材料,我們?cè)缙谡{(diào)研發(fā)現(xiàn),全球電梯全是繩驅(qū),能拉 3.6 噸的轎廂,安全性經(jīng)過(guò)幾十年驗(yàn)證。但機(jī)器人用繩不能照搬電梯繩:高分子材料(如大力馬)彈性太好、易蠕變,金屬繩彎折易疲勞斷裂。我們最終選了特定型號(hào)的鋼絲繩,靠選型和工程經(jīng)驗(yàn)解決壽命問(wèn)題,實(shí)測(cè)連續(xù)多任務(wù)運(yùn)行壽命能到 3.2-6.2 年,超期后還能模塊化更換小臂、關(guān)節(jié)等零件。
精度方面,沒(méi)補(bǔ)償算法時(shí),繩的彈性會(huì)導(dǎo)致 3-5 毫米誤差,但我們通過(guò) " 預(yù)標(biāo)定 + 實(shí)時(shí)補(bǔ)償 " 算法,提前測(cè)算繩的 " 力 - 形變 " 關(guān)系,電機(jī)實(shí)時(shí)調(diào)整拉力,最終把誤差控制在正負(fù) 0.03 毫米。
另外,我們還設(shè)計(jì)了 " 差分并聯(lián)機(jī)構(gòu) ":比如一個(gè)關(guān)節(jié)的轉(zhuǎn)動(dòng)由兩個(gè)多個(gè)電機(jī)共同驅(qū)動(dòng),各分擔(dān) 50%,性能反而比單電機(jī)提升一倍,還避免了傳統(tǒng)串聯(lián)電機(jī) " 一個(gè)干活、一個(gè)閑置 " 的浪費(fèi)。
智客 ZhiKer:繩驅(qū)技術(shù)目前的應(yīng)用邊界在哪?為什么其他企業(yè)難復(fù)制?
來(lái)杰:繩驅(qū)的優(yōu)勢(shì)在 " 人居場(chǎng)景 ",比如家庭、商業(yè)服務(wù),因?yàn)樗膯伪垲~定負(fù)載上限我們定在 10 千克(平舉),提東西能做到更重——這是參考人類(lèi)勞動(dòng)保護(hù)標(biāo)準(zhǔn)(15 千克以上需工具輔助),超過(guò)這個(gè)負(fù)載,比如重工業(yè)搬運(yùn),繩驅(qū)的彈性會(huì)導(dǎo)致晃動(dòng),反而不如諧波減速器。
其他企業(yè)想復(fù)制,要跨兩道坎:一是結(jié)構(gòu)專(zhuān)利與工程經(jīng)驗(yàn),我們的繩驅(qū)關(guān)節(jié)是結(jié)構(gòu)化設(shè)計(jì),拆小臂、裝電機(jī)、穿繩的流程經(jīng)過(guò)我們?cè)隍v訊時(shí)期的長(zhǎng)期選型驗(yàn)證,友商就算仿結(jié)構(gòu),至少要半年到一年;二是補(bǔ)償算法,從材料標(biāo)定、建模到真機(jī)實(shí)驗(yàn),形成閉環(huán)需要 1.5 年以上,我們的算法跑在自研驅(qū)動(dòng)板上,這是底層壁壘。今年 WRC 上有人全程錄我們的繩驅(qū)結(jié)構(gòu),也會(huì)來(lái)排隊(duì)體驗(yàn)遙操,但光抄硬件沒(méi)用,算法和工程細(xì)節(jié)才是核心。
關(guān)于遙操和 RUI
智客 ZhiKer:星塵提出 " 本體層 -RUI 層 - 模型層 " 三層產(chǎn)品矩陣,其中 RUI 層(Robot UI)被稱(chēng)為 " 機(jī)器人的 GUI ",它具體解決什么問(wèn)題?
來(lái)杰:早期個(gè)人電腦靠 GUI(圖形交互界面)普及,因?yàn)槊钚衅胀ㄈ擞貌涣?;現(xiàn)在機(jī)器人也一樣,光有硬件(本體層)和 AI 模型不夠,得有一層讓 " 人人能上手 " 的交互界面,這就是 RUI 層。它的核心是遙操作,分近程(VR 掛在脖子上,第三視角)和遠(yuǎn)程(VR 戴在頭上,第一視角)兩種,本質(zhì)是 " 讓機(jī)器人成為人的數(shù)字分身 "。
比如有個(gè)美國(guó)化學(xué)老師提了兩個(gè)需求:一是實(shí)驗(yàn)室穿防化服只能待 1 小時(shí),用 RUI 層遙操,他在玻璃房外就能控制機(jī)器人;二是學(xué)生要 2 小時(shí)看一次細(xì)胞培養(yǎng)皿,連續(xù) 72 小時(shí)守著,用遙操 + 定時(shí)任務(wù),學(xué)生在宿舍就能調(diào)參數(shù)。還有廣州化學(xué)研究所,之前去云南湖邊采水樣,來(lái)回要 7 天,實(shí)驗(yàn)才 1 小時(shí),用我們的遠(yuǎn)程遙操,現(xiàn)在不用爬山越嶺了。
我們還借鑒無(wú)人駕駛分級(jí),現(xiàn)階段是 L2 級(jí):AI 做 70% 的基礎(chǔ)動(dòng)作,人用遙操兜底 30% 的復(fù)雜決策。用 "AI+ 遙操 " 既能形成商業(yè)閉環(huán),還能在過(guò)程中采數(shù)據(jù),反哺 AI 升級(jí)到 L4(完全自主)。
智客 ZhiKer:遙操作的易用性和效率如何保障?比如普通人能快速上手嗎?
來(lái)杰:我們的遙操設(shè)計(jì)就是 " 低門(mén)檻 ",比如近程遙操用 VR+ 雙目攝像頭,能看到立體景象,不會(huì)像單目那樣 " 捏不準(zhǔn)東西 ";遠(yuǎn)程遙操跑通網(wǎng)絡(luò),網(wǎng)絡(luò)延遲已能滿足跨國(guó)、跨城操作控制(比如北京控深圳的機(jī)器人),也都在真實(shí)客戶場(chǎng)景里直接驗(yàn)證的。
效率上,數(shù)采中心測(cè)過(guò),友商做一個(gè) " 抓取 - 放置 " 動(dòng)作要 7-10 秒,我們只要 1 秒,因?yàn)闄C(jī)器人能跟人動(dòng)作同頻。而且上手快,實(shí)習(xí)生 10 分鐘就能獨(dú)立做任務(wù),小朋友玩游戲一樣能快速掌握——這就是 " 人體同構(gòu)性 " 的優(yōu)勢(shì),機(jī)器人構(gòu)型和人的身體越像,人越容易默認(rèn) " 自己動(dòng)一下,機(jī)器人也會(huì)同步動(dòng) ",不用額外學(xué)習(xí)。
另外,我們標(biāo)配 Meta VR,也支持 Pico 和 VisionPro 適配,也是從成本和精度綜合考慮:Vision Pro 的手部識(shí)別精度不夠,Pico 比 Meta 貴一點(diǎn),我們要讓客戶 " 用得起 ",所以優(yōu)先選性價(jià)比更高的設(shè)備。
關(guān)于模型
智客 ZhiKer:星塵提出的 " 快慢系統(tǒng) " 模型,設(shè)計(jì)初衷是什么?它如何讓機(jī)器人兼顧 " 本能反應(yīng) " 和 " 深度思考 "?
來(lái)杰:快慢系統(tǒng)是從 " 端側(cè)算力不足 " 的實(shí)際痛點(diǎn)來(lái)的。去年我們?cè)?4090 上跑模型很流暢,但放到移動(dòng)機(jī)器人端側(cè),算力不夠?qū)е聞?dòng)作卡頓——這時(shí)候我們發(fā)現(xiàn),機(jī)器人的 " 決策 " 和 " 動(dòng)作執(zhí)行 " 不需要一個(gè)頻率:慢系統(tǒng)負(fù)責(zé)決策,比如 " 把東西放進(jìn)抽屜 ",1 秒一次就夠;快系統(tǒng)負(fù)責(zé) " 下意識(shí)動(dòng)作 ",比如抓東西時(shí)的細(xì)微調(diào)整,需要高頻響應(yīng)。
這就像人:媽媽打毛衣不用過(guò)腦子(快系統(tǒng)),但抽屜被關(guān)上時(shí),會(huì)立刻停下重新規(guī)劃(慢系統(tǒng))。慢系統(tǒng)我們用 LM 模型 +Vit 做任務(wù)編排,快系統(tǒng)則融入力覺(jué)、觸覺(jué)反饋,比如抓杯子時(shí),快系統(tǒng)能實(shí)時(shí)調(diào)整力度,避免掉地上。去年年底我們做這個(gè)系統(tǒng)時(shí),剛好 Figure 發(fā)布 Helix 也是類(lèi)似思路,說(shuō)明這是從實(shí)際需求出發(fā)的共性方向,不是純概念。
智客 ZhiKer:星塵的 " 全身 VLA 模型 " 和行業(yè)內(nèi)常見(jiàn)的 " 桌面機(jī)械臂模型 " 有什么區(qū)別?元技能遷移能力又是如何實(shí)現(xiàn)的?
來(lái)杰:行業(yè)里很多 VLA 模型只做 " 桌面場(chǎng)景 " ——比如固定攝像頭拍桌子,機(jī)械臂擰瓶蓋、疊衣服,這不叫 " 通用 "。我們的全身 VLA 是 " 以機(jī)器人全身為中心 ",下半身能移動(dòng)協(xié)同、上半身能協(xié)同操作,比如收東西、倒垃圾,整個(gè)感知和動(dòng)作是連貫的,不是局限在桌面。
元技能遷移的核心是 " 語(yǔ)言標(biāo)注 + 特征提取 "。比如我們采集一堆 " 鏟東西 " 的數(shù)據(jù),都標(biāo)上 " 鏟 " 的標(biāo)簽,模型會(huì)提取 " 鏟 " 的核心特征——比如手腕發(fā)力角度、手臂運(yùn)動(dòng)軌跡。之后就算給它開(kāi)瓶器,它也能識(shí)別 " 這是能鏟的工具 ",嘗試用開(kāi)瓶器鏟瓜子;學(xué)會(huì)用一種鏟子后,換其他形狀的鏟子也不用重新訓(xùn)練,甚至能自己調(diào)整動(dòng)作適應(yīng)新工具。之前我們測(cè)試時(shí),沒(méi)訓(xùn)練過(guò)開(kāi)瓶器的模型,居然能用它鏟香蕉片,還想把碗鏟滿,這就是遷移能力的 " 涌現(xiàn) "。
智客 ZhiKer:目前 AI 模型訓(xùn)練的數(shù)據(jù)策略是什么?觸覺(jué)傳感器這類(lèi)技術(shù)為什么暫時(shí)沒(méi)大規(guī)模應(yīng)用?
來(lái)杰:我們的數(shù)據(jù)策略是 " 真機(jī)為主,多源融合 "。現(xiàn)在有幾十人的數(shù)采團(tuán)隊(duì) 24 小時(shí)采真機(jī)數(shù)據(jù),因?yàn)檎鏅C(jī)數(shù)據(jù)的價(jià)值不會(huì)降,而合成數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)(比如數(shù)字人骨骼數(shù)據(jù))成本會(huì)快速下降,我們會(huì)把這些數(shù)據(jù)結(jié)合起來(lái)用——比如用合成數(shù)據(jù)換桌面、換工具,增加模型泛化性。數(shù)據(jù)管線已經(jīng)實(shí)現(xiàn) " 采標(biāo) - 訓(xùn)練 - 產(chǎn)出 " 自動(dòng)化,研發(fā)只要把模型部署到機(jī)器人上就能驗(yàn)證。
觸覺(jué)傳感器我們其實(shí)做過(guò)預(yù)研,我聯(lián)創(chuàng)之前是達(dá)芬奇手術(shù)機(jī)器人的觸覺(jué)專(zhuān)家,但現(xiàn)在遇到的問(wèn)題是 " 模型不吃觸覺(jué)數(shù)據(jù) ":不同觸覺(jué)傳感器的一致性差,抓東西時(shí)力度、角度的細(xì)微差異,都會(huì)導(dǎo)致數(shù)據(jù)噪聲大,訓(xùn)出來(lái)的效果不穩(wěn)定。我們買(mǎi)了全國(guó)能買(mǎi)到的觸覺(jué)傳感器測(cè)試,結(jié)果都不理想,所以現(xiàn)在把它歸為預(yù)研方向,等 AI 模型能明確 " 需要什么樣的觸覺(jué)反饋 ",再針對(duì)性攻克,這也是我們 "Design for AI" 的理念——先讓 AI 告訴我們 " 要什么 ",再做硬件設(shè)計(jì)。
關(guān)于商業(yè)化
智客 ZhiKer:星塵目前的商業(yè)化場(chǎng)景主要集中在哪些領(lǐng)域??jī)?yōu)先級(jí)是如何劃分的?
來(lái)杰:我們的商業(yè)化分兩類(lèi):一類(lèi)是 " 情緒價(jià)值 + 功能價(jià)值 " 結(jié)合的場(chǎng)景,這是我們重點(diǎn)投入的——比如和京東合作的商圈機(jī)器人,既能做咖啡(功能),又能互動(dòng)娛樂(lè)(情緒);央視買(mǎi)了我們的機(jī)器人組 " 小央樂(lè)隊(duì) ",在深圳機(jī)場(chǎng)、國(guó)家大劇院表演指揮,這就是把具身智能和文化娛樂(lè)結(jié)合,玩出新玩法。這類(lèi)服務(wù)很快也會(huì)有大的訂單公布。
另一類(lèi)是和合作伙伴共建的場(chǎng)景,比如和仙工智能合作物流分揀——我們出半身機(jī)器人,他們出 AGV,一起做適配,10 月底會(huì)有完整方案展出;還有深圳養(yǎng)老院的探索,嘗試用機(jī)器人做輔助護(hù)理。優(yōu)先級(jí)上,我們先做 " 能快速形成閉環(huán) " 的場(chǎng)景,比如實(shí)驗(yàn)室遙操、商圈服務(wù),這些場(chǎng)景需求明確,AI+ 遙操的模式能快速落地。
智客 ZhiKer:您提到星塵要做 " 增量市場(chǎng) ",而不是搶存量市場(chǎng),能具體解釋一下嗎?
來(lái)杰:增量市場(chǎng)有兩個(gè)核心:一是 " 放大人類(lèi)能力 ",比如有個(gè)化學(xué)教授說(shuō),他的博士生有很多實(shí)驗(yàn)想法,但要自己動(dòng)手做,沒(méi)時(shí)間搞研發(fā)——如果機(jī)器人能幫他們做實(shí)驗(yàn),博士生就能專(zhuān)注于思路設(shè)計(jì),這就是讓 " 一個(gè)人的價(jià)值變大 ";二是 " 打破時(shí)空限制 ",不同地區(qū)的人力成本有差異,但不可能把偏遠(yuǎn)地區(qū)的人都調(diào)到大城市干活,有了遙操機(jī)器人,偏遠(yuǎn)地區(qū)的人能遠(yuǎn)程控制大城市的機(jī)器人做分揀、護(hù)理,這就打開(kāi)了人力供給的瓶頸,不是搶現(xiàn)有工人的活,而是創(chuàng)造新的勞動(dòng)機(jī)會(huì)。
智客 ZhiKer:家庭場(chǎng)景是具身智能的終極目標(biāo)之一,星塵對(duì)家庭機(jī)器人的定位是 " 遠(yuǎn)程專(zhuān)家分身 ",這和 " 全自動(dòng)家庭助理 " 有什么不同?
來(lái)杰:我們不認(rèn)為現(xiàn)在能做 " 全自動(dòng)家庭助理 " ——開(kāi)放式家庭場(chǎng)景太復(fù)雜,機(jī)器人很難應(yīng)對(duì)所有突發(fā)情況。但 " 專(zhuān)家數(shù)字分身 " 是現(xiàn)階段能落地的:比如你出差,家里的貓沒(méi)人喂,帶個(gè) VR 或用電腦,遠(yuǎn)程控制機(jī)器人給貓?zhí)砑Z、換水,這時(shí)候機(jī)器人傳遞的不只是 " 喂貓 " 的功能,還有 " 你在照顧貓 " 的情緒價(jià)值。
之前我們調(diào)研發(fā)現(xiàn),老人更希望 " 女兒遠(yuǎn)程控制機(jī)器人幫自己削蘋(píng)果 ",而不是 " 機(jī)器人自動(dòng)削蘋(píng)果 " ——因?yàn)榍罢哂杏H人的 " 溫度 ",后者是冷冰冰的機(jī)器。所以家庭場(chǎng)景的第一步,是讓機(jī)器人成為 " 人的延伸 ",而不是 " 取代人 "。價(jià)格上,北美調(diào)研顯示 8000-10000 美金是家庭能接受的范圍,國(guó)內(nèi)未來(lái)會(huì)通過(guò)供應(yīng)鏈優(yōu)化降本,讓更多人用得起。我們很快也會(huì)發(fā)布一個(gè)性價(jià)比極高的新一代產(chǎn)品。(文|智客 ZhiKer,作者|郭虹妘,編輯|陶天宇)
更多對(duì)全球市場(chǎng)、跨國(guó)公司和中國(guó)經(jīng)濟(jì)的深度分析與獨(dú)家洞察,歡迎訪問(wèn) Barron's 巴倫中文網(wǎng)官方網(wǎng)站