中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      硅星人 7分鐘前

      從對話框到數(shù)字人:魔琺星云如何讓每個 AI 都擁有 " 身體 "?

      從文字、圖片到視頻,AI 的創(chuàng)造力在二維世界一路狂飆。我們驚嘆于 ChatGPT 的對答如流,也為 Sora 的超現(xiàn)實視頻而震撼。但這一切精彩,都被禁錮在冰冷的屏幕上,終究是一串流動的像素,無法用真實的肢體與我們交流。

      真正的下一站,是讓AI走出平面,擁有一個可以在三維空間中表達和交互的身體。

      在這樣背景下,硅星人發(fā)現(xiàn)了一個 3D 領(lǐng)域中最難實現(xiàn)的,3D 數(shù)字人的生成平臺:魔琺科技旗下的星云平臺,覆蓋了從文本直接生成包含語音、動作、表情在內(nèi)的完整 3D 表達的 AI 平臺。

      魔琺 CEO 柴金祥對硅星人講到了他的判斷:" 未來每個 APP 都會是一個‘人’。你不再需要點擊填表,只需對著屏幕上的‘她’說話,她會理解你的需求,用語言和肢體為你完成一切。"

      從 2D 到 3D,這不僅是維度的跨越,更是一場深刻的交互革命。當(dāng) AI 終于獲得身體,我們的數(shù)字生活將如何改變?帶著這個疑問,硅星人測試了星云平臺,試圖理解:當(dāng) AI 獲得 " 身體 " 后,技術(shù)實現(xiàn)是什么,應(yīng)用場景會發(fā)生什么變化。

      實測星云:秒回復(fù)、零卡頓、自然表達

      星云平臺最顛覆的一點,是它把創(chuàng)造 3D 數(shù)字人的權(quán)力,交到了每個普通開發(fā)者手里。你不再需要專業(yè)的建?;騽赢媹F隊,只需在網(wǎng)頁上動動手指,調(diào)整幾個參數(shù),一個專屬的數(shù)字人便誕生了。實時互動、語音播報、多語種切換,甚至直接生成視頻,所有你需要的功能,它都為你打包好了。

      一開口,我就感覺到了不同。當(dāng)我們報出 5000 元的預(yù)算和辦公需求,他幾乎是立刻就給出了三個最新的型號方案。從聯(lián)想、戴爾到華為,每一款的 CPU、內(nèi)存和續(xù)航,他都講得明明白白,就像一位真正懂行的朋友在幫你精心挑選。

      當(dāng)他正在介紹硬盤參數(shù)時,我們毫無征兆地打斷他,提出想看更便宜的機型。他只是停頓了大約一秒,就立刻領(lǐng)會了我們的新意圖,無縫切換到新的推薦了最新的款式。

      為了探索更多的場景,我們又測試了兩個截然不同的角色:一個是一絲不茍的招聘面試官,另一個則是情感細膩的AI虛擬男友。

      我們讓他用英文面試一個新的崗位。他的表現(xiàn)像個真正的 HR:提問有邏輯,從項目經(jīng)驗—技術(shù)?!鉀Q方案,英文輸出很自然,還會根據(jù)回答追問細節(jié)。而 AI 虛擬男友的核心不是傳遞信息,而是提供陪伴感。最明顯的是肢體語言和情緒的匹配,會擺動雙臂配合撒嬌語氣,安慰的時候會做出輕拍肩膀的手勢,語氣溫柔時表情也會變?nèi)岷汀?/p>

      測試下來最大的感受是,你不再覺得是在跟一個機器人對話,而是在與一個 " 活生生 " 的虛擬角色交流。

      無論是專業(yè)術(shù)語、情緒表達還是突然改變的需求,他總能精準(zhǔn)捕捉到話語背后的意圖,不會答非所問。但更重要的是,他擁有自己的 " 身體語言 "。他不再只是一個會動的嘴巴,推薦產(chǎn)品時的自信手勢、撒嬌時的俏皮擺臂、面試時的專注神情,都伴隨著對話實時生成。

      破解數(shù)字人的 " 不可能三角 "

      在流暢的用戶體驗背后,是星云平臺的技術(shù)創(chuàng)新。

      數(shù)字人行業(yè)存在一個長期未解決的 " 不可能三角 ":要質(zhì)量加低延時,成本會激增,無法規(guī)?;?;要高并發(fā)加低成本,必須犧牲質(zhì)量;要質(zhì)量加高并發(fā),延時就會上升,無法實時交互。星云平臺通過模型層面的技術(shù)突破和系統(tǒng)層面的架構(gòu)創(chuàng)新,來解決這個 " 不可能三角 "。

      星云的核心技術(shù)是由 LAM(Language Action Model)驅(qū)動數(shù)字人,這是一個文本生成多模態(tài) 3D 的大模型。LAM 的輸出不是文本或圖像,而是 " 身體語言 "。這個差異決定了數(shù)字人的能力邊界。傳統(tǒng)數(shù)字人處理的是 " 說什么 " 的問題,而 LAM 要解決的是 " 怎么說 ",同樣一句話在不同場景下,語調(diào)、節(jié)奏、表情、手勢會完全不同,這些細節(jié)才是讓數(shù)字人顯得自然的關(guān)鍵。

      具體來說,當(dāng)輸入文本或語音后,模型需要理解的不僅是字面意思,還包括情緒基調(diào)、場景語境、表達意圖。比如同樣是 " 好的 " 這兩個字,在客服場景是確認語氣,在虛擬陪伴場景可能是撒嬌語氣,在招聘場景則是正式禮貌的回應(yīng)。

      理解語義之后,模型會同時生成四種模態(tài)的 3D 表達信號:

      語音層面包括語調(diào)、節(jié)奏、情緒的變化:推薦產(chǎn)品時語速快、語氣熱情,安慰時語速慢、語氣溫柔;

      動作層面包括姿態(tài)、手勢、身體語言:介紹產(chǎn)品參數(shù)時的指向手勢、強調(diào)重點時的手部動作、撒嬌時的身體搖擺;

      表情層面包括情緒、眼神、眉目動態(tài):微笑的程度、眼神的方向、眉毛的起伏都會根據(jù)對話內(nèi)容調(diào)整;

      手勢層面是與語義同步的肢體動作:說 " 這個 " 時手指會指向某個方向,說 " 大概這么長 " 時手勢會比劃距離。

      這四種模態(tài)是同步生成的,不是分開處理再拼接。模型輸出的是對 " 這句話應(yīng)該怎么說 " 的完整理解。

      但光有 LAM 模型還不夠。如何讓它快速運行、低成本部署、支持大規(guī)模并發(fā)?這需要從系統(tǒng)架構(gòu)層面重新設(shè)計。傳統(tǒng)數(shù)字人方案的流程是:云端渲染完整視頻,傳輸?shù)接脩粼O(shè)備,然后播放。這個流程存在幾個問題:渲染 3D 畫面需要高性能 GPU,云端成本極高;傳輸視頻流需要大帶寬,每路用戶每秒占用數(shù)十 MB;視頻生成和傳輸都有延時,難以做到實時交互;用戶量上升后,云端壓力呈指數(shù)增長,難以規(guī)?;?。

      星云改變了這個流程。云端只負責(zé)生成參數(shù),不渲染畫面。LAM 模型接收文本后,生成語音參數(shù)(音頻波形特征)和動作參數(shù)(3D骨骼、表情、手勢等控制信號),這些參數(shù)的數(shù)據(jù)量很小,只有幾 KB 到幾十 KB。然后將這些參數(shù)傳輸?shù)接脩粼O(shè)備,這里傳輸?shù)牟皇且曨l流,而是 " 如何渲染 " 的指令。

      用戶設(shè)備接收參數(shù)后,通過端側(cè) AI 渲染模塊將參數(shù)實時轉(zhuǎn)化為畫面。這個模塊可以運行在 RK3566/RK3588 等百元級國產(chǎn)芯片上,不需要高端顯卡。整個鏈路的延遲在 1 秒左右,云端生成參數(shù)、端側(cè)渲染畫面、用戶看到數(shù)字人說話,這個過程是實時的。

      這種架構(gòu)帶來的變化是:延時從秒級降到毫秒級、帶寬從每秒數(shù)十 MB 降到 KB 級、云端可以支持千路以上同時在線,同時云端不需要配備大量 GPU,端側(cè)可以用百元級芯片,整體成本據(jù)稱下降到傳統(tǒng)方案的幾十分之一;端側(cè) AI 渲染模塊可以運行在手機、平板、智能屏、車機等各種設(shè)備上。

      技術(shù)方案背后,還有一個關(guān)鍵問題:LAM 模型從哪里學(xué)會 " 說這句話應(yīng)該配什么動作 "?魔琺創(chuàng)始人柴金祥告訴我們:"3D 數(shù)字人領(lǐng)域最大的壁壘不是算法,是數(shù)據(jù)。文本、圖片在互聯(lián)網(wǎng)隨處可見,但高質(zhì)量的 3D 動作、表情數(shù)據(jù)幾乎不存在。"

      魔琺從 2018 年起就開始積累這些數(shù)據(jù)。早期為游戲公司、影視動畫公司制作 3D 內(nèi)容時,這些商業(yè)項目產(chǎn)生的動畫數(shù)據(jù)經(jīng)過脫敏處理后成為訓(xùn)練數(shù)據(jù)的一部分;后期則完全自研和制作動畫數(shù)據(jù),專門組建動畫團隊,針對 LAM 模型的訓(xùn)練需求制作各種場景、各種情緒、各種表達方式的 3D 動畫。目前累計了數(shù)千小時的高質(zhì)量 3D 動畫數(shù)據(jù),涵蓋人臉表情、手部動作、身體姿態(tài)、多人互動等完整數(shù)據(jù)集。

      這些數(shù)據(jù)的積累周期和成本投入,構(gòu)成了星云平臺難以復(fù)制的護城河。

      從數(shù)字人到 Embodied Agent

      如果只把星云理解為 " 做 3D 數(shù)字人的平臺 ",會錯過它真正的技術(shù)定位。

      星云將自己定義為語言驅(qū)動身體的具身智能平臺:不是內(nèi)容生產(chǎn)工具,而是面向開發(fā)者的基礎(chǔ)設(shè)施。它輸出的不是渲染好的視頻或動畫,而是 " 動作參數(shù) ",這些參數(shù)可以驅(qū)動虛擬世界的 3D 數(shù)字人,也可以驅(qū)動物理世界的人形機器人。

      我們首先要區(qū)分清楚兩個概念:Embodied AI(具身智能)指的是讓 AI 具備 " 身體感知與行動能力 " 的智能形式:AI 不只思考,還能通過身體與環(huán)境交互。Embodied Agent(具身智能體)是這種智能的具體載體:擁有 " 身體 " 的智能體,可以在虛擬或現(xiàn)實空間中感知、表達、行動和交互。區(qū)別在于 : 具身智能是能力,具身智能體是擁有這種能力的載體。

      星云定義自己為 " 具身智能 3D 數(shù)字人平臺 ",聚焦的是 Embodied Agent 層,提供 " 身體 ",作為承載智能的容器。大模型已經(jīng)提供了 " 大腦 ",現(xiàn)在缺的是讓這個 " 大腦 " 可見、可交互的 " 身體 "。一個 AI 客服可以用文字回答問題,也可以用語音回答問題,但這些形式都是 " 無形 " 的。星云的功能是給這個 AI 添加一個 " 身體 ":3D 數(shù)字人形象,讓它能通過表情、手勢、肢體語言表達情緒和意圖。這個 " 身體 " 不只是視覺呈現(xiàn),而是完整的表達系統(tǒng)。

      開發(fā)者通過 SDK 或 API 接入星云,就能讓自己的 AI 應(yīng)用具備數(shù)字人形態(tài)。這個邏輯類似于 AWS 不做具體應(yīng)用,但提供計算、存儲、網(wǎng)絡(luò)的基礎(chǔ)能力,開發(fā)者基于這些能力構(gòu)建應(yīng)用。

      更進一步的技術(shù)規(guī)劃在于 : 從虛擬到物理的統(tǒng)一輸出格式。星云的底層是 LAM 模型,輸入文本或語音,輸出語義一致的三維動作、表情和手勢。這意味著星云的功能不限于讓 AI 在屏幕上可見,它可能成為連接虛擬智能與物理智能的接口。

      據(jù)硅星人了解,魔琺目前正在與多家人形機器人公司合作,驗證這條技術(shù)路徑。他們提供的不是完整的機器人方案,而是 " 語言→動作 " 的轉(zhuǎn)化層:機器人廠商負責(zé)硬件和控制系統(tǒng),星云負責(zé)讓機器人理解對話內(nèi)容并生成對應(yīng)的肢體表達。

      結(jié)尾:

      從 Embodied AI 到 Embodied Agent,星云平臺開放的不只是 API 接口,而是通往 " 每個 APP 都是一個人 " 時代的入口。

      這個判斷聽起來激進,但邏輯清晰。過去十年,AI 的進化路徑是從 " 專用工具 " 到 " 通用助手 ":從只能識別圖片的算法,到能對話、能寫作、能推理的大模型。但這些 AI 仍然是 " 看不見 " 的,用戶通過文字框或語音交互,感受到的是智能,看不到 " 人 "。

      星云要做的是給這些 AI 加上 " 身體 ",不只是視覺形象,而是完整的表達系統(tǒng)。當(dāng) AI 真正擁有 " 身體 ",從 " 看不見的算法 " 變成 " 站在你面前的伙伴 ",人機交互方式將被重新定義。

      這種重新定義不只發(fā)生在虛擬世界。從屏幕里的 3D 數(shù)字人到物理世界的人形機器人,星云正在打通的是同一條技術(shù)鏈路:語言驅(qū)動身體。LAM 模型輸出的動作參數(shù),既可以渲染成虛擬形象,也可以控制物理機器人。這意味著未來的 AI 應(yīng)用,可能同時存在于兩個世界:線上是數(shù)字人客服,線下是機器人接待員;線上是虛擬健身教練,線下是陪伴型機器人,它們使用同一套 " 大腦 ",只是 " 身體 " 形態(tài)不同。

      具身智能時代的全貌我們尚難預(yù)見,但可以確定的是,我們正在經(jīng)歷的不只是技術(shù)升級,而是交互范式的轉(zhuǎn)變:從人適應(yīng)機器,到機器理解人。星云提供的是這個轉(zhuǎn)變的基礎(chǔ)設(shè)施,一切才剛剛開始。

      相關(guān)閱讀

      最新評論

      沒有更多評論了
      硅星人

      硅星人

      硅是創(chuàng)造未來的基礎(chǔ),歡迎登陸硅星球。

      訂閱

      覺得文章不錯,微信掃描分享好友

      掃碼分享