又一個電影級的視頻模型出現(xiàn)了,這一次是百度。
話不多說,先來看效果。
7 月 2 日,百度正式發(fā)布視頻生成模型 MuseSteamer,這是國內(nèi)首個支持聲畫同步的視頻生成模型。從技術(shù)參數(shù)來看,MuseSteamer 支持最長 10 秒視頻生成、最高 1080p 分辨率,具備音視頻一體化生成能力,并推出了 Turbo、Lite、Pro 三個版本以覆蓋不同應(yīng)用場景。
技術(shù)實現(xiàn)了畫面與音效、人聲臺詞的協(xié)同創(chuàng)作,徹底打破傳統(tǒng) AIGC 視頻 " 先畫面后配音 " 的割裂流程。在權(quán)威榜單 VBench I2V 中,MuseSteamer 以 89.38% 總分強勢登頂全球第一。
這一觀察頗具行業(yè)價值。過去一年,視頻生成模型賽道異?;馃?,從 OpenAI 的 Sora 到字節(jié)的 PixelDance,從快手的可靈到智譜的 CogVideoX,各家都在技術(shù)指標(biāo)上激烈競爭——更長的時長、更高的分辨率、更強的一致性。然而隨著技術(shù)逐漸成熟,商業(yè)化落地成為了一個關(guān)鍵難題。大多數(shù)模型仍停留在技術(shù)展示階段,距離真正的商業(yè)應(yīng)用還有相當(dāng)距離。
百度這個從商業(yè)場景中 " 長出來 " 的視頻模型,能否在商業(yè)表現(xiàn)上更勝一籌,離商業(yè)化更近一步?帶著這個問題,我們對 MuseSteamer 進行了一手評測。
第一部分:一手實測,當(dāng) MuseSteamer 遇見 " 甲方爸爸 "
實測的部分,我們并沒有選擇常規(guī)的技術(shù)指標(biāo)測試,而是挑選了廣告主和商家的真實需求場景,來驗證 MuseSteamer 的生成結(jié)果是否真正可用。
需要說明的是,「繪想」作為百度推出的 AI 創(chuàng)作平臺,既面向 C 端用戶提供創(chuàng)作工具,也為 B 端客戶提供商業(yè)化的工具。只是我們今天的評測重點放在了商業(yè)化應(yīng)用上,畢竟在 AIGC 商業(yè)化的關(guān)鍵節(jié)點,行業(yè)需要的不僅僅是技術(shù)指標(biāo)的突破,更需要能夠滿足這些真實商業(yè)需求的實用工具。
能否真正解決商家的實際問題、創(chuàng)造商業(yè)價值才是檢驗?zāi)P涂捎门c否的核心標(biāo)準(zhǔn)。
我們從中選取了三個最具代表性的場景進行測試:汽水廣告的動感表現(xiàn)、奢侈品廣告片的質(zhì)感呈現(xiàn),以及小說投放中 " 讓文字動起來 " 的創(chuàng)意需求。
首先是汽水廣告視頻測試,我們的目標(biāo)是呈現(xiàn)炎熱夏日中汽水的清涼質(zhì)感。原始圖片構(gòu)圖復(fù)雜:前景是一瓶汽水,背景虛化處有 4 個人在泳池中嬉戲,畫面中還疊加了大量中文字體。這對模型提出了多重挑戰(zhàn):準(zhǔn)確識別主體對象、合理安排運鏡路徑、處理景深虛焦效果,以及協(xié)調(diào)人物動作的自然性。
第二個測試場景難度顯著提升——我們從靜物展示轉(zhuǎn)向了動態(tài)人物操作。測試內(nèi)容是奢侈品工匠精心打磨拉鏈的場景,旨在通過細(xì)膩的手工工藝展現(xiàn)品牌的工匠精神。為了更客觀地評估效果,我們選擇了市面上另一款主流視頻生成模型作為對比,在相同提示詞條件下進行生成。
MuseSteamer 在這一場景中展現(xiàn)出了更為成熟的敘事節(jié)奏把控。模型智能地采用了慢鏡頭推進的展示方式,工匠的打磨動作舒緩而有力,符合奢侈品廣告中常見的 " 時間藝術(shù) " 表達手法。隨著鏡頭的緩慢推進,皮夾的材質(zhì)紋理和拉鏈的金屬光澤得到了細(xì)致的放大呈現(xiàn)。
相比之下,對比模型在處理同一場景時出現(xiàn)了明顯的節(jié)奏失控—,工匠的打磨動作過于急促,幾乎不符合現(xiàn)實操作的頻率。
當(dāng)然,真實的商業(yè)需求往往超出普通創(chuàng)作者的測試范圍。搜索場景中存在大量長尾需求,這些長尾需求可能連素材都很難找,但是視頻生成模型通過對于內(nèi)容的理解和生成,其實是容易把這種視頻生成出來的。
同時我們也測試了動漫效果,比較符合現(xiàn)在年輕人的審美。我們虛構(gòu)了一個經(jīng)典的動漫戰(zhàn)斗場景:讓主角在危急時刻釋放雷電大招,周圍的路人驚慌失措四散逃竄。
從生成結(jié)果來看,MuseSteamer 對二次元場景的理解相當(dāng)?shù)轿?。雷電特效的渲染極具真實感,電光的閃爍、分叉走向都很自然,完全沒有那種生硬的 CG 感。人物的逃跑動作也很流暢,整個畫面的動漫風(fēng)格保持得很統(tǒng)一,既有日系動畫的精致感,又帶有一些現(xiàn)代 3D 渲染的質(zhì)感。
經(jīng)過多個場景的深度測試,我們發(fā)現(xiàn)相比于其他視頻模型,MuseSteamer 在商業(yè)展示領(lǐng)域有一定優(yōu)勢——生成的內(nèi)容往往能夠達到直接投放使用的程度。這種 " 開箱即用 " 的商業(yè)化成熟度,與其背后大量商業(yè)廣告訓(xùn)練數(shù)據(jù)的積累密不可分。
目前,繪想平臺優(yōu)先推出 turbo 版,支持 5s 直接生成視頻能力,8 月份將陸續(xù)上線 Lite、Pro 和有聲版本,屆時將覆蓋從成本敏感型到專業(yè)制作級的全場景需求。從我們的測試體驗來看,這個從商業(yè)需求中 " 野蠻生長 " 出來的模型,正在用實用主義的路徑,為 AIGC 視頻的商業(yè)化落地提供新的思路。
第二部分:需求驅(qū)動的迭代邏輯
在視頻生成模型的發(fā)展浪潮中,行業(yè)正在分化出兩條不同的發(fā)展路徑。一條是技術(shù)驅(qū)動路徑,專注于追求模型參數(shù)、生成質(zhì)量、一致性等技術(shù)指標(biāo)的突破;另一條是商業(yè)驅(qū)動路徑,以解決實際業(yè)務(wù)問題為出發(fā)點進行產(chǎn)品開發(fā)。
這兩種路徑背后反映的是一個根本問題:我們到底為什么需要一個視頻生成模型?是為了技術(shù)展示和娛樂體驗,還是為了創(chuàng)造實際的商業(yè)價值?
MuseSteamer 選擇了后者。這個模型誕生于百度商業(yè)體系的具體需求場景,而非實驗室的技術(shù)探索。當(dāng)短劇投放、奢侈品廣告、小說推廣等業(yè)務(wù)場景對視頻內(nèi)容提出具體要求時,技術(shù)團隊發(fā)現(xiàn)現(xiàn)有的外部模型調(diào)用周期無法滿足快速迭代的業(yè)務(wù)需求,于是決定自研解決方案。
MuseSteamer 團隊負(fù)責(zé)人點明了需求驅(qū)動的優(yōu)勢體現(xiàn)在快速反饋機制上。這種反饋機制推動了產(chǎn)品的快速迭代。當(dāng)市場提出動漫風(fēng)格需求時,團隊發(fā)現(xiàn)原有數(shù)據(jù)中動漫相關(guān)素材相對較少,用一個多月的時間補充數(shù)據(jù)并調(diào)整模型參數(shù),快速滿足了市場需求。運鏡功能的開發(fā)更能說明這種快速響應(yīng)模式。最初商業(yè)廣告創(chuàng)意要求相對簡單,但隨著廣告主創(chuàng)意需求的演進,運鏡需求開始大量涌現(xiàn)。
面對這一需求,團隊需要解決的不僅是技術(shù)實現(xiàn)問題,還包括用戶表達問題。團隊開發(fā)了一套模型來自動優(yōu)化 prompt 中的運鏡描述,并讓訓(xùn)練數(shù)據(jù)理解運鏡邏輯,整個開發(fā)周期用了兩周時間。這種快速迭代能力來源于商業(yè)場景對效率的現(xiàn)實要求。
劉林介紹到,MuseSteamer 通過 " 篩選 - 凈化 - 配比 " 進行數(shù)據(jù)準(zhǔn)備,10 億 + 多源異構(gòu)數(shù)據(jù)、三級標(biāo)簽體系、ActiveLearning 保障更高級的畫面質(zhì)感。多目標(biāo)反饋的強化學(xué)習(xí)調(diào)優(yōu)確保了生成視頻在具備更大動作幅度的同時保持主體一致性。在 " 懂審美 " 方面,團隊引入美學(xué)條件控制調(diào)優(yōu),通過隱式批判學(xué)習(xí)和影視標(biāo)準(zhǔn)嚴(yán)選,讓模型懂美、創(chuàng)造美。
基于對市場需求的分析,MuseSteamer 采用了差異化的產(chǎn)品策略。團隊推出了完整的模型家族:Turbo 版作為全能模型,5 秒視頻生成耗時僅 2 分鐘,支持 720p 清晰度,覆蓋大多數(shù)創(chuàng)作場景;Lite 版面向成本敏感用戶,同樣支持 720p 清晰度,但具有極速生成速度和極低價格;Pro 版則是 1080p 高清版本,具有更高畫質(zhì)和更細(xì)膩的審美表現(xiàn),適合專業(yè)影視級創(chuàng)作。
在技術(shù)創(chuàng)新方面,MuseSteamer 最突出的特點是其音視頻一體化生成能力,這使其成為國內(nèi)首個實現(xiàn)聲畫同步的視頻生成模型。劉林在演講中強調(diào):" 傳統(tǒng) AIGC 視頻創(chuàng)作實踐中,往往是先生成視頻,再進行配音和配音效。割裂的創(chuàng)作環(huán)節(jié)不僅消耗大量時間,更會削弱作品的完整藝術(shù)表達。MuseSteamer 創(chuàng)新性支持一體化生成帶有音效和人物臺詞的視頻。"
這種技術(shù)突破不僅高效滿足了商業(yè)需求,也為更廣泛的 C 端場景提供了全新可能。在電影拍攝領(lǐng)域,MuseSteamer 的 " 鏡頭平權(quán) " 理念正在重新定義創(chuàng)作門檻。劉林提到:" 運鏡能力也是考驗影視創(chuàng)作業(yè)余與專業(yè)的分水嶺,MuseSteamer 為每個創(chuàng)作者提供了 ' 鏡頭平權(quán) ' 的可能性。試想當(dāng)每個創(chuàng)作者都能調(diào)用塔可夫斯基的鏡頭詩意,我們將見證怎樣的創(chuàng)意爆發(fā)?"
對于獨立電影制作者和內(nèi)容創(chuàng)作者而言,MuseSteamer 提供了前所未有的制作可能性。" 不需要復(fù)雜的片場布景、不需要專業(yè)的特效后期,MuseSteamer 僅僅依靠 18 張圖片,就能完成在傳統(tǒng)影視行業(yè)百萬級的專業(yè)制作效果。" 這種能力對于預(yù)算有限的創(chuàng)作者來說具有革命性意義。
從更廣闊的視角來看,AIGC 行業(yè)正在經(jīng)歷從 " 技術(shù)驅(qū)動 " 向 " 應(yīng)用驅(qū)動 " 的轉(zhuǎn)變。MuseSteamer 的成功在于驗證了一種可能性:當(dāng)技術(shù)服務(wù)于明確的商業(yè)需求時,產(chǎn)品的實用性和市場接受度會顯著提升。同時,這種在商業(yè)場景中錘煉出的技術(shù)能力,反過來也為 C 端用戶提供了更強大、更實用的創(chuàng)作工具。
而這種變化,最終將推動整個行業(yè)從技術(shù)展示走向價值創(chuàng)造,從概念驗證走向規(guī)?;瘧?yīng)用。