文|硅谷101
在人工智能的浪潮里,3D數(shù)字人正在悄然改變著我們內(nèi)容創(chuàng)作和互動(dòng)的方式。你或許已經(jīng)發(fā)現(xiàn),數(shù)字人主播和虛擬偶像們,看起來越來越流暢自然了。這背后是一場(chǎng)數(shù)字人的技術(shù)革命:如今的3D數(shù)字人不再是那個(gè)表情略顯僵硬、只能按預(yù)設(shè)腳本運(yùn)行的"木偶";它們能夠根據(jù)指令,實(shí)時(shí)地生成豐富的語音、精準(zhǔn)的表情,協(xié)調(diào)的肢體動(dòng)作,并且成本變得可被接受。
進(jìn)化的數(shù)字人,不僅活躍在當(dāng)下的直播間和客服中心,未來更將在3A級(jí)游戲和影視工業(yè)領(lǐng)域大展拳腳。然而你可能不知道的是,3D數(shù)字人濫觴于機(jī)器人領(lǐng)域。在計(jì)算機(jī)圖形學(xué)與機(jī)器人學(xué)之間,存在著一道打通虛擬與現(xiàn)實(shí)的"旋轉(zhuǎn)門",幾十年來不斷有學(xué)者穿越這道門走向另一端去尋求突破之道。
過去,研究者們用驅(qū)動(dòng)機(jī)器人的方式,驅(qū)動(dòng)虛擬世界中的數(shù)字人;如今,數(shù)字人所積累的經(jīng)驗(yàn),又反過來幫助機(jī)器人去理解物理世界的錯(cuò)綜復(fù)雜。
本期《硅谷101》,主播泓君邀請(qǐng)了魔琺科技創(chuàng)始人兼CEO 柴金祥教授 。柴教授從2000年左右便在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所投身3D數(shù)字人研究,已經(jīng)從事該領(lǐng)域二十余年。泓君與柴教授深入聊了3D數(shù)字人的前世今生,它取得了哪些突破性的進(jìn)展,又面臨著哪些挑戰(zhàn),以及數(shù)字人的數(shù)據(jù)和模型是如何加速具身智能進(jìn)化的。
以下是這次對(duì)話內(nèi)容的精選:
數(shù)字人:下一代內(nèi)容生產(chǎn)者
泓君:前幾天,硅谷大家都在關(guān)注Sora2,好像每個(gè)人都會(huì)拿它去做一段Demo,包括我們前幾天剛剛開了《硅谷101》的科技大會(huì),我們就生成了一段讓Sam Altman幫我們?nèi)バ麄魑覀兇髸?huì)的Sora2的視頻??雌饋硭谄聊焕锩娴男蜗缶褪且粋€(gè)比較數(shù)字人的形象,這個(gè)對(duì)你們的業(yè)務(wù)會(huì)有影響嗎?
柴金祥:我覺得Sora2相比Sora1,進(jìn)步是蠻大的,Sora1還是以風(fēng)景為主,Sora2主要的形態(tài)是以人為中心的,可以讓視頻里的人做各種各樣的事情。我也大概用了一下,第一個(gè)感覺,視頻生成現(xiàn)在還是10秒鐘的時(shí)間,還是沒有跳出被時(shí)間的限制文生視頻。第二個(gè)點(diǎn)其實(shí)也特別重要,就是物理上的一致性,基本上大家看刷屏的時(shí)候很多效果其實(shí)還是蠻好的,但你真正自己做的時(shí)候還是有很多瑕疵。
泓君:問題太多了。它那個(gè)視頻里面有皮卡丘跟一個(gè)唐老鴨在總統(tǒng)競(jìng)選的一段辯論,可以在原視頻上改,我就說把這個(gè)辯論變成一個(gè)在《硅谷101》上關(guān)于AGI的辯論,我們活動(dòng)的主題是"Alignment2025",但你仔細(xì)去看的話,它后面的Alignment那個(gè)字就是錯(cuò)的,就開始亂碼了。
柴金祥:對(duì)。創(chuàng)作者除了生成視頻,還需要能修正錯(cuò)誤、調(diào)整細(xì)節(jié),這能力它還沒有。更重要的是,它無法精細(xì)控制人的動(dòng)作和表情。不過,Sora2第一次讓人看到了用大模型驅(qū)動(dòng)人物多樣動(dòng)作的可能性。
我們做的是3D數(shù)字人,如果最終目標(biāo)是讓人能交流、跳舞、娛樂,那大模型會(huì)是什么形態(tài)?訓(xùn)練數(shù)據(jù)又是什么?Sora2說它用所有視頻作為訓(xùn)練數(shù)據(jù)。最近Genie3出來,是3D的生成,給你一種交互型的感覺是吧?但它不是人,它是關(guān)于場(chǎng)景相關(guān)的。
我們覺得,最終可能需要2D+3D的訓(xùn)練技術(shù)結(jié)合,我們希望生成的人沒有10秒限制、沒有瑕疵、物理準(zhǔn)確、可控制、實(shí)時(shí)且成本低。所以我們除了3D訓(xùn)練數(shù)據(jù),也開始結(jié)合大量視頻數(shù)據(jù)來訓(xùn)練大模型,提升數(shù)字人的表達(dá)力。視頻數(shù)據(jù)如果模型做得好,是有生成能力的。
泓君:我簡(jiǎn)單總結(jié)一下:Sora2是文生視頻,你們是文生3D。這個(gè)3D它可以是在VR領(lǐng)域里面進(jìn)行展示的,比如說我戴著一個(gè)VR頭盔,我可以360度地去看到這個(gè)人。
柴金祥:是,就是2D和3D的區(qū)別。Sora2是文生2D視頻。3D放在VR/AR里,就跟現(xiàn)實(shí)一樣。3D還有一個(gè)好處,它能控制,就像人一樣,你讓它怎么動(dòng)就怎么動(dòng)。但2D在像素層面,要對(duì)它進(jìn)行動(dòng)作、表情的精準(zhǔn)控制,會(huì)比較難。
泓君:我看到很多公司展廳屏幕上的數(shù)字人是你們做的,有一點(diǎn)我可能很難區(qū)分,假設(shè)我進(jìn)到一個(gè)展廳,看到一個(gè)屏幕上的非常立體的數(shù)字人,它有動(dòng)作、聲音、表情,跟我看到Sam Altman在一個(gè)視頻里的數(shù)字人,除了時(shí)長(zhǎng)的區(qū)別,它在核心的技術(shù)上它的區(qū)別是什么呢?
柴金祥:第一個(gè)區(qū)別是,屏幕上這個(gè)數(shù)字人是人機(jī)交流的載體,人跟機(jī)器交流的時(shí)候,其實(shí)你是實(shí)時(shí)互動(dòng)的,我們希望端對(duì)端延時(shí)一般要小于2秒或1.5秒,不能像生成視頻等10分鐘、5分鐘。
第二個(gè)區(qū)別是,當(dāng)你用文生視頻去做的時(shí)候,手指是個(gè)特別難的事情,經(jīng)常多一根或少一截,但如果是展廳里,數(shù)字人為你講解產(chǎn)品,你肯定是不希望這個(gè)體驗(yàn)很差的,它的動(dòng)作不能有瑕疵,物理上要準(zhǔn)確,表情、動(dòng)作要一致。
最后一個(gè)區(qū)別,把3D數(shù)字人部署在終端上,成本不能高。終端屏幕可能就一萬人民幣,如果生成視頻交互了20分鐘,即使它能實(shí)時(shí)做,一年放在那也得花很多錢,長(zhǎng)期也負(fù)擔(dān)不起。但從Sora2文生視頻的角度來說,這個(gè)成本它是不能scale up的。
泓君:它的成本是多高?用你們的這個(gè)成本是多高?為什么成本之間會(huì)有這樣的一個(gè)差距?
柴金祥:我不一定能給具體數(shù)字,但可以告訴你一個(gè)量級(jí):與大模型做的語音合成相比,我們的成本可能是幾十分之一。這里核心是2D和3D的區(qū)別。3D描述人的動(dòng)作表情,只需要幾百個(gè)參數(shù),人的肌肉可能就是大幾百塊,你只要去控制一些肌肉就可以了。下一步是用3D渲染把3D內(nèi)容變成視頻,還有3D解算,包括頭發(fā)、衣服的物理解算。如果用AI做渲染和解算,成本就主要是生成這幾百個(gè)參數(shù)的成本,和大模型生成Token一樣,所以它的成本就非常非常低。文生視頻沒有結(jié)構(gòu)化信息,全是像素,推理和生產(chǎn)成本就會(huì)非常非常高。
泓君:所以你們能把成本降下來,是因?yàn)橛幸粋€(gè)自己的端模型,可以這樣理解嗎?
柴金祥:是的,我們有一個(gè)把文本變成3D多模態(tài)表達(dá)能力的模型。從文本生成語音、表情、動(dòng)作、手勢(shì)的參數(shù),傳到終端屏幕上,我們用AI渲染和解算,把它變成視頻。AI渲染對(duì)終端算力要求極低,現(xiàn)在用國(guó)內(nèi)幾百塊錢的芯片,比如瑞芯微的RK3566,我們?cè)诙松暇涂梢耘芰恕?/p>
泓君:比如說它要跟人做實(shí)時(shí)互動(dòng)跟問答,這種還是在端模型上,還是說你后面除了你自己的這個(gè)端模型,在表達(dá)的內(nèi)容上你會(huì)去接大模型?
柴金祥:好問題。人和數(shù)字人交流需要兩個(gè)模型:一個(gè)像ChatGPT的多模態(tài)到文本模型,現(xiàn)在你ChatGPT的話,你可以輸入聲音、圖片,它最后輸出文字。
另一個(gè)是從文本到3D多模態(tài)的模型,我們做的是文字到3D多模態(tài)輸出,輸出語音、姿態(tài)、動(dòng)作、表情、手勢(shì),讓生成的數(shù)字人更像真人交互,
我們有自己垂域的大模型,也可以接國(guó)內(nèi)千問、DeepSeek、豆包等模型,形成端對(duì)端的人與數(shù)字人像真人一樣的交流體驗(yàn)。
泓君:所以你們從多模態(tài)到文本可以利用大模型,從文本到多模態(tài)是自己的端模型。
柴金祥:我們叫它"文生3D多模態(tài)大模型"。
泓君:這已經(jīng)是一個(gè)產(chǎn)品"星云平臺(tái)",可以發(fā)布了嗎?
柴金祥:是的,我們10月發(fā)布,現(xiàn)在在測(cè)試。有幾百個(gè)B端企業(yè)客戶在測(cè)試,有的已付費(fèi)。我們預(yù)計(jì)兩周后發(fā)布我們這個(gè)文生3D多模態(tài)模型。因?yàn)槲覀冏约涸谧龅倪^程做了很長(zhǎng)很長(zhǎng)時(shí)間,從我20多年前讀研開始做,花了很多精力。我們希望大家不要重復(fù)造輪子,能夠把能力提供給所有開發(fā)者,集成到他們的應(yīng)用中去。
泓君:了解。我覺得很有意思的一點(diǎn)就是,隨著星云平臺(tái)發(fā)布,你們從3D數(shù)字人公司變成了3D數(shù)字人平臺(tái)公司,我這樣理解是對(duì)的嗎?
柴金祥:差不多,對(duì),是的。
泓君:之前在NVIDIA發(fā)布會(huì)上,黃仁勛很自豪地說"你看到的我不是真的我",他坐在一個(gè)壁爐前,是一個(gè)虛擬3D數(shù)字人在跟大家介紹,渲染得非常非常真實(shí)。他經(jīng)常用他自己的虛擬人去講他們的顯卡性能有多強(qiáng)大,他那個(gè)成本大概有多少?
柴金祥:這個(gè)成本蠻高的。他做的其實(shí)還是視頻輸出,如果造一個(gè)老黃這樣的虛擬人,需要研發(fā)團(tuán)隊(duì)配合美術(shù)團(tuán)隊(duì),在美國(guó)找頂尖的美術(shù)團(tuán)隊(duì)做,成本大概10萬美金左右,做到發(fā)布會(huì)那種逼真效果。
這還只是造出這個(gè)人,做視頻可能要按秒算成本。這屬于專業(yè)級(jí)內(nèi)容生產(chǎn),還沒到人人可用的階段。
泓君:對(duì),每次去游戲展會(huì)感受明顯,大家怎么去造那個(gè)3D數(shù)字人。以前造3D數(shù)字人,是讓演員穿動(dòng)作捕捉服,用環(huán)形攝像機(jī)拍每個(gè)部位,再建模,一步一步地把它還原出來。這是好萊塢或游戲公司常用的方式吧?
柴金祥:對(duì),專業(yè)級(jí)造人包括3A游戲公司和好萊塢,比如Avatar,或老黃的數(shù)字人。整體來說它是兩部分的東西。
第一部分是造人,一般叫掃描,用很多相機(jī),你坐在那,做各種表情,把人的幾何形狀和表面紋理重建出來,包括肌肉,學(xué)術(shù)上叫建模和綁定。
第二是讓它動(dòng)起來,穿動(dòng)捕服,用相機(jī)捕捉動(dòng)作,驅(qū)動(dòng)剛才造的那個(gè)人,用渲染引擎輸出視頻。
整個(gè)過程從建模綁定到動(dòng)畫再到輸出視頻,都非常昂貴。
泓君:這是大模型之前,好萊塢和游戲公司常用的方式?,F(xiàn)在有了模型,這套方式還是主流嗎?還是說他們其實(shí)也在探索能不能用3D直接去生成人?
柴金祥:這問題特別好。3D內(nèi)容的AI化取決于兩件事:高質(zhì)量數(shù)據(jù),和AI算法能否對(duì)3D內(nèi)容做大模型。
咱們今天看到了,所有的影視動(dòng)畫和游戲公司,擅長(zhǎng)做內(nèi)容,把美術(shù)和3D模型做得很逼真,但絕大部分AI能力缺乏,因?yàn)樗麄兒突ヂ?lián)網(wǎng)、科技公司是兩條線,交叉很少。他們當(dāng)然想擁抱AI,但能力欠缺。
AI公司算法強(qiáng),但其實(shí)是沒有數(shù)據(jù)的。3D內(nèi)容必須先有大量高質(zhì)量3D數(shù)據(jù)才能做大模型,這是他們的目標(biāo),但現(xiàn)在兩個(gè)行業(yè)沒有交叉。
泓君:大模型公司缺好萊塢的數(shù)據(jù),好萊塢制作公司缺AI算法,可以這樣理解嗎?
柴金祥:是,基本是這樣。
泓君:但我看也有公司開始嘗試。你們?cè)贏I浪潮之前,做數(shù)字人和積累數(shù)據(jù)也很久了吧?
柴金祥:是的,我們2018年成立,最初為B端公司,如游戲、影視、動(dòng)畫、或做3D虛擬偶像的公司,提供3D內(nèi)容制作,用AI+美術(shù)一起來提升效率和質(zhì)量。在這個(gè)過程中當(dāng)然AI的能力也在提升,但大家都要突破的點(diǎn)是3D內(nèi)容的高質(zhì)量數(shù)據(jù)。沒有數(shù)據(jù),AI算法再厲害也沒法干。
泓君:從2018年到2025年,你們大概積累了多少數(shù)據(jù)?可以透露嗎?
柴金祥:拿動(dòng)畫數(shù)據(jù)來說,前面我們?yōu)槠髽I(yè)服務(wù),后來我們自己來做了些動(dòng)畫數(shù)據(jù)?,F(xiàn)在3D高質(zhì)量動(dòng)畫數(shù)據(jù),我們有1000多個(gè)小時(shí)。這個(gè)數(shù)據(jù)可能跟視頻的數(shù)據(jù)或者文本的數(shù)據(jù)來講是小的,但如果考慮到成本,高質(zhì)量的人臉動(dòng)畫、手勢(shì)、表情等動(dòng)畫數(shù)據(jù),一秒鐘成本至少1000人民幣左右。在國(guó)內(nèi)成本高是一方面,另外你還得找到團(tuán)隊(duì)有非常強(qiáng)的能力把質(zhì)量做得這么高,所以這個(gè)數(shù)據(jù)量是很難在短時(shí)間內(nèi)積累起來的。
泓君:很有意思,所以數(shù)據(jù)是你能訓(xùn)練成這樣的一個(gè)模型的一個(gè)核心要素。
柴金祥:我覺得數(shù)據(jù)是最核心的。如果沒有數(shù)據(jù),其他任何研發(fā)都沒法做。除了剛才講到的3D數(shù)據(jù),我們也有其他的視頻數(shù)據(jù)。這些是純粹的視頻數(shù)據(jù),比如有人在走路也好,有人在跟人交流也好,它沒有3D信息,但我們開始把這兩者融合起來去做模型的訓(xùn)練。
虛實(shí)之間誕生的"雙生學(xué)科"
泓君:你當(dāng)初為什么會(huì)選擇進(jìn)入3D數(shù)字人這個(gè)領(lǐng)域?
柴金祥:我2000年去卡內(nèi)基梅隆大學(xué)(CMU)讀博士,在機(jī)器人研究所做的就是這個(gè)方向。我的博士論文就是關(guān)于如何創(chuàng)建一個(gè)可交互的3D數(shù)字人,以及如何用AI去做動(dòng)畫。我們團(tuán)隊(duì)?wèi)?yīng)該是世界上最早用AI做動(dòng)畫的,因?yàn)橐矂倻惽桑?000年左右運(yùn)動(dòng)捕捉技術(shù)出現(xiàn)了,有了動(dòng)畫數(shù)據(jù)就可以做AI了。從那時(shí)起,我就專注于3D動(dòng)畫和數(shù)字人。2006年畢業(yè)去德州農(nóng)工大學(xué)(Texas A&M)當(dāng)教授,也一直做這個(gè)方向。那時(shí)動(dòng)畫研究屬于圖形學(xué)領(lǐng)域,是專門為影視動(dòng)畫公司游戲公司這個(gè)行業(yè)服務(wù)的。那時(shí)候我們發(fā)表了很多論文,全是關(guān)于3D數(shù)字人跟3D動(dòng)畫相關(guān)的。到2018年創(chuàng)業(yè),我也繼續(xù)做這件事,所以我在這個(gè)領(lǐng)域堅(jiān)持了二十多年了。
泓君:我知道您的博士導(dǎo)師是杰西卡·霍奇斯(Jessica Hodgins),她主要研究人形機(jī)器人和3D數(shù)字動(dòng)畫。而且她的博士生導(dǎo)師是馬克·雷伯特(Marc Raibert),是波士頓動(dòng)力(Boston Dynamic)的創(chuàng)始人,現(xiàn)在最有名的機(jī)器人公司,也是特別早的一家機(jī)器人公司。所以看起來整個(gè)的3D生成它最開始的應(yīng)用就是在好萊塢領(lǐng)域的。
柴金祥:我導(dǎo)師杰西卡·霍奇斯,她也是卡內(nèi)基梅隆大學(xué)1989年博士畢業(yè),她在讀博時(shí)是做機(jī)器人的。當(dāng)時(shí)的人形機(jī)器人只有"單腳",因?yàn)殡p足平衡太難了。她那時(shí)候是用物理運(yùn)動(dòng)控制動(dòng)力學(xué)的方式,控制機(jī)器人走跑跳。
她畢業(yè)后,很奇怪地,進(jìn)到的方向是圖形學(xué)和動(dòng)畫領(lǐng)域,她的想法是:既然能在現(xiàn)實(shí)世界控制機(jī)器人運(yùn)動(dòng),是否能用同樣方法驅(qū)動(dòng)虛擬世界的3D數(shù)字人?
她是全世界第一個(gè)用物理運(yùn)動(dòng)控制方法做數(shù)字人動(dòng)畫的學(xué)者。她在佐治亞理工學(xué)院(Georgia Tech)做教授,基于物理的仿真跟控制做動(dòng)畫,然后2000年她回到CMU任教,2000年動(dòng)畫數(shù)據(jù)慢慢有了剛才講的運(yùn)動(dòng)捕捉的出現(xiàn)。我就是她在卡梅帶的最早的博士。我們是那時(shí)候是最早用AI做動(dòng)畫的。后來大家發(fā)覺得,這個(gè)動(dòng)畫用AI做挺好的,反過來是不是還能去做Robotics這個(gè)行業(yè)?
現(xiàn)在大家可能知道的很多做Robotics做很厲害的人,其實(shí)以前都是做動(dòng)畫的。比如PI(Physical Intelligence)聯(lián)合創(chuàng)始人、伯克利教授Sergey Levine,但你肯定都不知道,他是在斯坦福拿的博士學(xué)位,并且他是用物理的方式,用運(yùn)動(dòng)控制動(dòng)力學(xué)的方式來做動(dòng)畫的。他畢業(yè)了以后說,我這個(gè)能做動(dòng)畫,我也能做機(jī)器人,他后來當(dāng)教授的時(shí)候就是開始做機(jī)器人。
泓君:難怪PI他們的核心思路是解決機(jī)器人的"大腦"問題,就是軟件層的問題,他就是希望通過模型層來指揮機(jī)器人,我覺得這個(gè)跟他最開始不是從硬件研究開始的,而是用機(jī)器人去做動(dòng)畫,聽起來是一脈相承的。

柴金祥:的確是的。再舉一個(gè)例子,我還有一個(gè)好朋友Karen Liu,她現(xiàn)在在斯坦福當(dāng)教授,以前是在佐治亞理工學(xué)院(Georgia Tech)當(dāng)教授,她同時(shí)做Animation和Robotics。
我們那批做動(dòng)畫的人,后來很多都轉(zhuǎn)向機(jī)器人領(lǐng)域,因?yàn)?strong>這兩個(gè)領(lǐng)域高度相通——都是驅(qū)動(dòng)"人",一個(gè)在虛擬世界,一個(gè)在物理世界。動(dòng)畫相對(duì)更容易入手,因?yàn)闄C(jī)器人是有本體的,你搭個(gè)硬件就老半天。另外現(xiàn)實(shí)世界受很多限制,比如重力、房間限制、機(jī)器人硬件限制。動(dòng)畫實(shí)際上沒有這些限制。所以那時(shí)候很多做物理的人開始做動(dòng)畫。
動(dòng)畫這方面也分成幾派,一派用物理方法做,Jessica肯定是其中之一。還有CMU的Michiel van de Panne,他是我博士委員會(huì)成員,一直做Controller、運(yùn)動(dòng)控制。那時(shí)候做動(dòng)畫的中心也在卡內(nèi)基梅隆大學(xué)。Karen Liu的導(dǎo)師Zoran Popovi也是卡梅畢業(yè)的。當(dāng)時(shí)做動(dòng)畫的學(xué)者很少,國(guó)內(nèi)基本沒人做,歐洲也沒人,主要集中在美國(guó)兩三個(gè)研究組。
后動(dòng)畫有個(gè)大飛躍是從2000年,運(yùn)動(dòng)捕捉有了數(shù)據(jù)后,大家慢慢開始用AI做。那時(shí)比較早的,現(xiàn)在叫強(qiáng)化學(xué)習(xí),我記得最早的動(dòng)畫論文是2004年還是2005年就用強(qiáng)化學(xué)習(xí)做動(dòng)畫。虛擬世界與實(shí)際世界的底層運(yùn)動(dòng)控制邏輯非常相似,都屬于"小腦"范疇的動(dòng)作規(guī)劃與運(yùn)動(dòng)控制。如今新興的VLA模型則更偏向"大腦"層面。
泓君:很有意思。我們討論好萊塢技術(shù)時(shí),常有聽眾問為什么科技節(jié)目關(guān)注電影工業(yè)。其實(shí)好萊塢一直是推動(dòng)技術(shù)發(fā)展的重要力量,許多AI技術(shù)最早都應(yīng)用于電影制作。你們有沒有想過,把你們的3D數(shù)字人產(chǎn)品用于好萊塢造人?比如用生成式技術(shù)讓靜態(tài)演員動(dòng)起來,這可能對(duì)傳統(tǒng)制作方式形成"降維打擊"。
柴金祥:這里面涉及幾個(gè)關(guān)鍵點(diǎn):質(zhì)量、成本和應(yīng)用場(chǎng)景。好萊塢質(zhì)量可能最高的,再往下是3A級(jí)游戲,再往下是生活中一些交互比較簡(jiǎn)單的場(chǎng)景。如果你要做好萊塢方向,它的高保真、質(zhì)量可能特別重要,他們可以等100個(gè)小時(shí)、200個(gè)小時(shí),花更多錢等你的高質(zhì)量。但在實(shí)時(shí)交互里,可能等不了那么多時(shí)間,要馬上看到結(jié)果能夠交互,質(zhì)量上不一定要像好萊塢那么高。
泓君:但是可以做好萊塢IP的衍生。
柴金祥:對(duì),衍生品肯定可以,但需要更高質(zhì)量的3D數(shù)據(jù)來做AI大模型。這塊在我們自己的行進(jìn)路徑上,有先后順序,對(duì)我們自己來說,可能先運(yùn)用到日常生活中,比如交互、服務(wù)、陪伴,再到游戲,再到好萊塢。因?yàn)殡y度來說,好萊塢如果要做到那個(gè)水平,難度很高很高,質(zhì)量要很高,能生產(chǎn)這種高質(zhì)量數(shù)據(jù)的人,全世界可能就沒幾個(gè)。
AI渲染結(jié)算帶來的成本革命
泓君:問一個(gè)稍稍敏感的問題,你可以選擇不答。你們現(xiàn)在把API接口開放出去,肯定有基礎(chǔ)接入成本。你覺得這個(gè)模式能賺錢嗎?
柴金祥:這肯定能。因?yàn)樵谡桨l(fā)布平臺(tái)之前,我們已經(jīng)有了B端客戶。在國(guó)內(nèi)做AI公司,商業(yè)上的賬必須算得過來,除非你是字節(jié)、阿里、騰訊那樣的大廠。所以這里面有一個(gè)核心點(diǎn),也是我們過去半年最大的突破。半年前我們的交互能力和API就做好了,但那時(shí)成本非常高。當(dāng)時(shí)服務(wù)一個(gè)數(shù)字人需要一張顯卡,成本差不多兩三萬。很多B端客戶來問,一聽到這個(gè)價(jià)格就不用了。
泓君:這個(gè)成本是怎么降下來的?
柴金祥:因?yàn)槲覀兪?D內(nèi)容,所有影視動(dòng)畫公司、游戲公司都逃不開一點(diǎn)——必須要有渲染引擎和解算引擎。
泓君:這個(gè)我太懂了,我們做視頻,渲染真的太耗時(shí)間了。
柴金祥:對(duì)。如果要支持3D內(nèi)容實(shí)時(shí)交互,每一路都需要一張顯卡負(fù)責(zé)渲染和解算。我們當(dāng)時(shí)用了可能最好的Unreal引擎,但成本就擺在那里。我們一直在想,如果不解決這張顯卡的成本問題,談應(yīng)用落地根本不可能,無論是展廳大屏、手機(jī)還是平板上都用不起。
我原本覺得這個(gè)問題很難解決,但技術(shù)有時(shí)很奇妙,我們突然想到了一個(gè)方法。很幸運(yùn)地,我們用AI技術(shù)完成了渲染和解算,不再需要傳統(tǒng)的渲染引擎和昂貴的顯卡。現(xiàn)在在非常便宜的終端芯片上,一兩百、兩三百塊錢的,就能跑起來。
泓君:所以你們用端到端的AI模型,解決了渲染問題。
柴金祥:渲染只是其中一部分。完整流程分兩步:第一步是用模型從文本生成語音和3D表情、動(dòng)作的參數(shù);第二步是把這些參數(shù)通過AI渲染和解算轉(zhuǎn)換成實(shí)時(shí)視頻。這樣整體成本比語音生成還要低。
泓君:如果你們真能做到大幅降低渲染成本,這次的生成式AI技術(shù)會(huì)對(duì)Unreal這樣的游戲引擎公司造成沖擊嗎?對(duì)NVIDIA可能就是一個(gè)左手跟右手的關(guān)系。
柴金祥:對(duì)Unreal不一定是好事,我認(rèn)為對(duì)游戲公司來說更多是機(jī)會(huì)?,F(xiàn)在3A級(jí)游戲都需要云端有顯卡,或者手機(jī)上得有比較強(qiáng)的算力,不然玩起來會(huì)發(fā)燙。如果將來能用AI方式解決渲染和解算,不需要引擎和顯卡就能玩游戲,那游戲就能無處不在?;蛘邔碚嬲龑?shí)現(xiàn)元宇宙時(shí),虛擬世界的參與成本也許會(huì)變得很低很低。
泓君:現(xiàn)在用AI方式解決渲染問題,質(zhì)量能達(dá)到傳統(tǒng)游戲引擎的水平嗎?大概到了一個(gè)什么樣的進(jìn)度位?
柴金祥:在我們這個(gè)特定應(yīng)用場(chǎng)景下,質(zhì)量基本一樣。因?yàn)槲覀兊挠?xùn)練數(shù)據(jù)就是用最高質(zhì)量的游戲引擎渲染的,AI模型是在大量數(shù)據(jù)基礎(chǔ)上逼近原來的效果。我們做過并列對(duì)比(Side-by-Side Comparison),左邊是游戲引擎渲染,右邊是AI渲染,沒有一個(gè)人能看出左右之間的區(qū)別。
泓君:這非常顛覆。如果我們綜合評(píng)估你們模型的能力,你覺得最強(qiáng)的一點(diǎn)是什么?比如現(xiàn)在看2D視頻渲染,最大的痛點(diǎn)可能是口型對(duì)不上、眼神空洞,這種虛假感。你們?cè)趯?D數(shù)字人應(yīng)用到不同行業(yè)時(shí),遇到的最大痛點(diǎn)是什么?怎么解決的?
柴金祥:這個(gè)問題很好。我們收到的客戶反饋主要集中在三個(gè)方面。第一是質(zhì)量,包括語音、動(dòng)作、表情、唇形是否自然逼真?是不是像真人一樣?第二是延時(shí),我跟它交互聊天時(shí),不能一句話等5秒鐘才回應(yīng),那我肯定沒有這個(gè)耐心了;第三是客戶非常關(guān)心的成本,如果太貴,即使體驗(yàn)好客戶也不愿意投入。
質(zhì)量、延遲、成本——這是我們規(guī)?;涞匾降?三座大山"。還有個(gè)關(guān)鍵點(diǎn)是讓數(shù)字人支持多終端——大屏、小屏、手機(jī)APP,支持并發(fā),這涉及不同操作系統(tǒng)、不同芯片算力。
我們解決質(zhì)量和延時(shí)問題,主要靠大模型提升能力。質(zhì)量方面當(dāng)然訓(xùn)練數(shù)據(jù)最重要——如果3D人的質(zhì)量很差,根本做不好。另外就是大模型本身的能力:能否通過文本生成語音、表情動(dòng)作和匹配的唇形?能否從文本中提取情緒(比如笑或打招呼)自動(dòng)生成關(guān)鍵意圖?TTS語音生成是否也有情緒的?這些都關(guān)系到如何讓大模型產(chǎn)生高質(zhì)量輸出。
加速具身智能突破泛化
泓君:我們剛剛聊了很多AI技術(shù)如何應(yīng)用于虛擬世界。那反過來,你們現(xiàn)在訓(xùn)練的模型能操控機(jī)器人嗎?你們?cè)囘^嗎?
柴金祥:我們?cè)囘^。3D數(shù)字人和3D動(dòng)畫的一個(gè)優(yōu)勢(shì)就是能夠驅(qū)動(dòng)機(jī)器人。比如一個(gè)3D數(shù)字人能跟你交流,聽懂你的問題,生成相應(yīng)的語音、動(dòng)作、表情和姿態(tài)。對(duì)機(jī)器人來說,我們可以用同樣的技術(shù)驅(qū)動(dòng)它,讓機(jī)器人實(shí)現(xiàn)實(shí)時(shí)語音、動(dòng)作和手勢(shì)。只是現(xiàn)在的機(jī)器人沒有臉部肌肉,所以表現(xiàn)不出表情。
現(xiàn)在的機(jī)器人更像是藍(lán)領(lǐng)工人。如果將來要做陪伴型機(jī)器人,或者做白領(lǐng)工作,比如銷售、老師,可能就需要表情了。首先我們要知道機(jī)器人在交流時(shí),手勢(shì)該怎么動(dòng)?表情該怎么變化?姿態(tài)該如何調(diào)整?下一步就是通過模仿學(xué)習(xí),像NVIDIA的方法那樣,通過仿真實(shí)現(xiàn)直接驅(qū)動(dòng)和交流。
泓君:太有意思了。在實(shí)際應(yīng)用中,你們將模型數(shù)據(jù)接到機(jī)器人上,覺得對(duì)哪部分提升最大?機(jī)器人沒有表情,但手勢(shì)可以動(dòng),你們能同時(shí)驅(qū)動(dòng)手和腳嗎?還是只能驅(qū)動(dòng)上半身?
柴金祥:我們可以同時(shí)驅(qū)動(dòng)手和腳。告訴你個(gè)有意思的事,在國(guó)內(nèi)合作中,我們生成的動(dòng)作數(shù)據(jù)包含臉部、手部和腿部的完整動(dòng)作。
其實(shí)現(xiàn)在很多機(jī)器人公司在平衡性方面還不夠完善,即使我們通過API提供了動(dòng)作數(shù)據(jù),他們也需要結(jié)合強(qiáng)化學(xué)習(xí)和仿真來實(shí)現(xiàn)。如果在這方面做得特別好的,可能也能夠驅(qū)動(dòng)起來。上身其實(shí)有很多動(dòng)作,有一定的泛化性。
這個(gè)事情其實(shí)我覺得這沒有那么難,就像我們爬樓梯一樣,我的動(dòng)作能夠通過我們的能力生產(chǎn)出來,然后在仿真環(huán)境中加上強(qiáng)化學(xué)習(xí),讓它復(fù)制這些動(dòng)作,一點(diǎn)問題都沒有。
泓君:所以機(jī)器人的平衡問題在于,我們收集的3D數(shù)據(jù)只是動(dòng)作姿態(tài),沒有力的反饋。一旦加入力的因素,就會(huì)出現(xiàn)平衡問題、摔跤問題。
柴金祥:我覺得你好專業(yè),這里有兩個(gè)核心點(diǎn):驅(qū)動(dòng)機(jī)器人需要運(yùn)動(dòng)學(xué)(Kinematics)和動(dòng)力學(xué)(Dynamics)。第一步是運(yùn)動(dòng)學(xué),比如要抓杯子,需要知道手的pose是什么,該怎么動(dòng)去抓住它。第二步是動(dòng)力學(xué),解決需要用多少力、按什么路徑去抓取的問題。我們先做運(yùn)動(dòng)學(xué),也就是運(yùn)動(dòng)規(guī)劃,這兩者可以結(jié)合起來。
泓君:所以我理解其實(shí)機(jī)器人公司尋求合作時(shí),兩者都需要。如果從零開始做機(jī)器人公司,最缺的就是數(shù)據(jù),而你們有數(shù)據(jù)的模型就已經(jīng)訓(xùn)練好了。
柴金祥:是的。因?yàn)槲覀兙劢褂诮换ィ乱徊轿覀兘衲陼?huì)發(fā)布一個(gè)3D動(dòng)作大模型。比如你告訴它"往前走五步,趴下再爬起來跑",它就能自動(dòng)生成3D動(dòng)作數(shù)據(jù)。這些數(shù)據(jù)可以用來訓(xùn)練機(jī)器人,有了這樣的動(dòng)作大模型,甚至不需要?jiǎng)幼鞑蹲?,因?yàn)椴蹲揭彩菫榱双@取類似數(shù)據(jù)。
泓君:波士頓動(dòng)力的機(jī)器人爬樓梯、旋轉(zhuǎn)、搬箱子已經(jīng)很成熟了。但這是在大模型出現(xiàn)之前,他們研發(fā)了很多年,用了各種方法。你現(xiàn)在用AI模型驅(qū)動(dòng)爬樓梯動(dòng)作,這兩者技術(shù)路徑是完全不同還是相似?

柴金祥:你提到一個(gè)有意思的點(diǎn),波士頓動(dòng)力以前能爬樓梯,但泛化能力不強(qiáng)。比如你給它不同高度的樓梯,它不一定每種樓梯都能爬好。他們展示demo時(shí)總是用同一個(gè)樓梯。
這就是泛化性的重要性。今天做人形機(jī)器人都要面對(duì)這個(gè)問題:生成數(shù)據(jù)后,能否處理數(shù)據(jù)之外的情況?比如爬樓梯,每個(gè)樓梯高度、層數(shù)、摩擦系數(shù)都不同,這些都是一些要泛化的參數(shù)。
那今天你有沒有能力,給任何一個(gè)樓梯都能爬得穩(wěn)?另外能否控制爬快一點(diǎn),或爬慢一點(diǎn)?這仍然是個(gè)難題,根源還是數(shù)據(jù)。我們要做的核心就是在虛擬世界中,通過3D動(dòng)畫大模型生產(chǎn)出動(dòng)畫的數(shù)據(jù),讓它爬樓梯,讓它見過所有情況。機(jī)器人動(dòng)作的泛化性和數(shù)字人動(dòng)作的泛化性,其實(shí)這兩件事是一樣的。
泓君:你覺得用AI做機(jī)器人經(jīng)歷了哪些變遷?就像你說的,最早可能沒人想到用AI做機(jī)器人,后來開始加入強(qiáng)化學(xué)習(xí)。
柴金祥:最早的時(shí)候,AI機(jī)器人這個(gè)方向很難很難,尤其是人形機(jī)器人,我們叫Biped,最難的問題就是雙足平衡。另一個(gè)難題是抓取。那個(gè)時(shí)候做人形機(jī)器人最有一段時(shí)間日本很火,比如本田的ASIMO。工程師要調(diào)整走路參數(shù),你都不知道后面有多少工程師在調(diào)這個(gè)參數(shù)。這些參數(shù)還不穩(wěn)定,把地面稍微改一改,它就可能跌倒了。那時(shí)AI和學(xué)習(xí)的方法用得不多,主要做控制器。
泓君:所以早期機(jī)器人發(fā)展主要關(guān)注控制,為了讓機(jī)器人不跌倒。
柴金祥:如果能走,不跌倒,就已經(jīng)很了不起了。后來大家覺得光這樣走不行,你能不能有一定的泛化能力?在不同平面、不同表面,以不同速度行走。如果不用AI方法,這幾乎不可能實(shí)現(xiàn)。

泓君:你覺得現(xiàn)在的機(jī)器人相比20年前進(jìn)化了多少?
柴金祥:我的進(jìn)化還是蠻大的。以前讓雙足機(jī)器人走跑跳,覺得好難好難,但現(xiàn)在看國(guó)內(nèi)很多人形機(jī)器人公司,運(yùn)動(dòng)會(huì)上拿遙控器控制,大部分走跑問題都解決了。這在20年前基本不可能,balance太難了。
泓君:但這是通過遠(yuǎn)程操控實(shí)現(xiàn)的。
柴金祥:即使遠(yuǎn)程操控,還是要解決動(dòng)力學(xué)控制的問題。我覺得如果有視覺語言動(dòng)作大模型,就不需要那個(gè)遙控器了。但用小腦控制這個(gè)事情,讓它走,不跌倒,仍然很難?,F(xiàn)在的進(jìn)步在于數(shù)據(jù)、強(qiáng)化學(xué)習(xí)、仿真環(huán)境,像NVIDIA。技術(shù)進(jìn)步后,能力開放出來了,大家都能在仿真環(huán)境里做,你就發(fā)現(xiàn)其實(shí)沒那么的難了。
泓君:機(jī)器人走路不摔倒,是現(xiàn)在機(jī)器人公司的普遍水平,還是只有頭部公司能做到?
柴金祥:對(duì)稍好的團(tuán)隊(duì)?wèi)?yīng)該沒問題。但關(guān)鍵點(diǎn),就是你的泛化能力有多強(qiáng)?在日常訓(xùn)練的特定場(chǎng)景中不摔倒,如果在新場(chǎng)景搞不定,還是會(huì)摔倒。
泓君:那你覺得世界上有多少公司能在部分場(chǎng)景實(shí)現(xiàn)機(jī)器人不摔倒?
柴金祥:如果完全不摔倒,在新的應(yīng)用場(chǎng)景其實(shí)蠻難的,我不知道現(xiàn)在有沒有公司能做到很強(qiáng)的泛化能力和魯棒性。如果有,我肯定要學(xué)習(xí)一下的。就拿爬樓梯來說,如果設(shè)置沒見過的樓梯情況,我不相信現(xiàn)在世界上有任何一個(gè)人形機(jī)器人公司能做到。
還有個(gè)問題是抓取,早期用人形手抓取的研究不多,機(jī)器人整個(gè)業(yè)界多用吸盤來吸。但現(xiàn)在很多人研究靈巧手,讓機(jī)器人一樣用筷子夾東西,這非常難,需要大腦加小腦配合。大腦要先識(shí)別物體和抓取方式,小腦控制筷子夾取。我認(rèn)為現(xiàn)在看到的都是demo,在特定應(yīng)用場(chǎng)景下可能有些泛化性,但再擴(kuò)展就很難。
泓君:我們10月5日的活動(dòng)您也去了,現(xiàn)場(chǎng)有機(jī)器人開可樂。彩排時(shí)我放了瓶可樂,他們說要把拉環(huán)對(duì)準(zhǔn)手指方向,否則那個(gè)機(jī)器人的手的靈活度還很難去把可樂轉(zhuǎn)一個(gè)方向打開。
柴金祥:這還是在特定布置好的環(huán)境里,更不用說進(jìn)入家庭后各種復(fù)雜情況。大家現(xiàn)在看到VLA模型可能解決這個(gè)問題,但能否100%解決,其實(shí)也沒人知道。如果能,需要多少數(shù)據(jù)才能達(dá)到足夠的泛化能力和魯棒性?大家相信擴(kuò)展定律(Scaling Laws),相信大模型總有一天能解決,但這里面的挑戰(zhàn)是很大很大。
泓君:從你的角度看,現(xiàn)在世界上最好的機(jī)器人公司是哪家?為什么?
柴金祥:做機(jī)器人有不同的流派:有做本體的、做硬件的、做小腦的、做大腦的。我覺得很難說誰最好,因?yàn)?好"有不同的定義。是在研究上有突破,還是已經(jīng)落地商用?也許某條路看起來很有希望,但最后發(fā)現(xiàn)是死路,暫時(shí)的領(lǐng)先不一定是最終領(lǐng)先。國(guó)內(nèi)也有不同流派,比如宇樹做機(jī)器人本體加小腦,它不做大腦。
泓君:大腦指什么?
柴金祥:大腦是處理VLA、疊衣服這類任務(wù)。小腦是處理爬樓梯、跳舞、跑步等。我覺得目前還沒看到真正的曙光,可能我比較悲觀。就像其他領(lǐng)域,VR/AR、自動(dòng)駕駛都有起起落落,AI領(lǐng)域也會(huì)這樣。這是機(jī)器人第一波浪潮,長(zhǎng)期前景光明,但短期挑戰(zhàn)很多。
泓君:你覺得機(jī)器人模型達(dá)到GPT-3時(shí)刻需要多久?
柴金祥:我沒有那么強(qiáng)的認(rèn)知。我覺得今天的數(shù)據(jù)要泛化能力,還需要很長(zhǎng)一段時(shí)間。我看到的情況還無法清晰判斷是2年還是3年,但我覺得10年內(nèi)有希望解決。
泓君:所以你們公司沒有直接切入機(jī)器人賽道,而是選擇3D和機(jī)器人的交叉領(lǐng)域。
柴金祥:如果讓3D數(shù)字人在數(shù)字世界、在VR空間或屏幕上與人交流,能夠抓取、走路、爬樓梯,在數(shù)字世界里已經(jīng)很有用,它已經(jīng)可以有實(shí)際應(yīng)用和商業(yè)落地了。
反過來,做這些對(duì)機(jī)器人也很有價(jià)值。因?yàn)樵谛∧X控制方面,你需要先知道怎么動(dòng),再用強(qiáng)化學(xué)習(xí)決定用多少力。從研究角度,機(jī)器人是個(gè)好方向,有太多可探索的,但從商業(yè)化角度,我自己覺得其實(shí)挑戰(zhàn)很多。如果真要商業(yè)化落地,人形機(jī)器人在白領(lǐng)領(lǐng)域可能比藍(lán)領(lǐng)更快。

泓君:你提到數(shù)字世界也會(huì)涉及力的反饋,比如好萊塢動(dòng)畫里面,我們把一個(gè)蘋果、一個(gè)南瓜甩出,去變成醬,怎么炸開?
柴金祥:那個(gè)就是物理。還比如說,你是一個(gè)數(shù)字人或3D的角色,從二層樓跳到一層樓,你跳下去的時(shí)候,跟地面的反饋和滾動(dòng)必須符合物理。我們的大模型生成動(dòng)畫后,它本身就可以用物理方式在虛擬世界中仿真它。同樣的方式,也可以用強(qiáng)化學(xué)習(xí)的方式去生成這個(gè)控制器,我可以在實(shí)際世界中這么做,因?yàn)檫@個(gè)邏輯是相通的。
泓君:但我有個(gè)問題。如果我們收集動(dòng)畫世界的數(shù)據(jù)來學(xué)習(xí),我知道一個(gè)人從樓梯摔下后怎么彈、怎么滾的,只是看到現(xiàn)象并用這些數(shù)據(jù)訓(xùn)練大模型,能反饋,能模擬,但我們還是不知道力是多少。
就是我們說Scaling跟這個(gè)所有的大模型,都是黑盒模型。但是我們?cè)侔堰@個(gè)場(chǎng)景拉回到現(xiàn)實(shí),我們要讓機(jī)器人砸到或拿到一個(gè)東西,這個(gè)力的大小,我不知道需要通過反復(fù)調(diào)控計(jì)算得出,所以需要力的數(shù)據(jù)。其實(shí)人在現(xiàn)實(shí)生活中舉杯子也不需要計(jì)算力,靠經(jīng)驗(yàn)習(xí)慣和感知就好了。
我的總體意思就是,過去機(jī)器人研究包括力學(xué)反饋,都是用白盒方法,但現(xiàn)在模型用黑盒和一套更加經(jīng)驗(yàn)主義的方法去做。
柴金祥:這就是為什么在泛化到現(xiàn)實(shí)世界時(shí)挑戰(zhàn)很大,因?yàn)榉夯婕暗囊蛩靥?,整個(gè)的過程中你要學(xué)力的控制的函數(shù)。
泓君:以前是要自己計(jì)算嗎?
柴金祥:對(duì),現(xiàn)在用強(qiáng)化學(xué)習(xí),只要有足夠多的數(shù)據(jù)跟它reward,它就能慢慢能夠做。但問題是,我說的抓杯子只是個(gè)小例子,這個(gè)世界上有多少種情況?所以我希望將來有一個(gè)基座大模型,有足夠多數(shù)據(jù)后,在特定場(chǎng)景下我能去調(diào)優(yōu)這個(gè)模型,把它慢慢做好。
泓君:我聽下來覺得,機(jī)器人領(lǐng)域這波最大進(jìn)展是研究方式從白盒模型的研究,變成了黑盒模型的研究。從必須知道每個(gè)細(xì)節(jié)的受力點(diǎn),靠計(jì)算和細(xì)節(jié)調(diào)配的研究,變成了端到端的模型,我們不知道內(nèi)部是怎么運(yùn)作的,但它可以工作。
柴金祥:是的,這條路確實(shí)打開了新局面。以前的時(shí)候,那套東西更多是顯式的,那種方法肯定不能規(guī)?;?,所以我們覺得做機(jī)器人太難了,怎么做也沒有希望的那種感覺。
但是今天我作為一個(gè)外行,我覺得雖然很難,但長(zhǎng)期來看是有希望的。這套方法在大語言模型和其他領(lǐng)域已經(jīng)展示了能力。如果在機(jī)器人這個(gè)方向上,如果你有足夠多數(shù)據(jù),是有可能解決這個(gè)問題的,但中間會(huì)不會(huì)遇到意想不到的問題和低谷,我不知道。
泓君:看起來現(xiàn)在是剛找到一條新的路的那個(gè)興奮感的時(shí)候,但結(jié)果能否收斂?能否持續(xù)看到效果?這中間肯定會(huì)有起起落落。
柴金祥:是的。