AI 音效已經(jīng)進(jìn)化成這樣了嗎??
打開聲音,來快速感受一下最新 feel:
模擬嬰兒哭聲,那叫一個(gè)高低起伏、蕩氣回腸,整個(gè)節(jié)奏和嬰兒表情姿態(tài)神同步了。
一輛火車由遠(yuǎn)及近駛來,整個(gè)背景音也頗具空間層次感,毫不違和。
甚至連小號(hào)這種樂器演奏,聲音也能和演奏者的動(dòng)作一一對(duì)上。
沒錯(cuò),這就是阿里通義語音團(tuán)隊(duì)最新開源的泛音頻生成模型 ThinkSound,主要用于視頻配音,主打讓每一幀畫面都有專屬匹配音效。
據(jù)介紹,它首次將今年大熱的CoT 思維鏈推理引入了音頻領(lǐng)域,解決了傳統(tǒng)視頻配樂技術(shù)往往只能生成單調(diào)的背景音,而難以捕捉畫面中的動(dòng)態(tài)細(xì)節(jié)和空間關(guān)系的難題。
就是說,AI 現(xiàn)在也能像專業(yè)音效師一樣逐步思考,通過捕捉視覺細(xì)節(jié)來生成音畫同步的高保真音頻。
官方測(cè)評(píng)顯示,ThinkSound 在業(yè)界知名的音視頻數(shù)據(jù)集 VGGSound 上,對(duì)比 6 種主流方法(Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper 和 MMAudio),在核心指標(biāo)上均實(shí)現(xiàn)了顯著提升。
會(huì)思考后,音畫同步更強(qiáng)了
為什么需要 " 會(huì)思考 " 的音頻生成模型?
其實(shí)這主要是因?yàn)?,現(xiàn)有端到端視頻 - 音頻(V2A)生成技術(shù)難以捕捉音畫細(xì)節(jié)。
比如對(duì)于貓頭鷹何時(shí)在輕聲啾啾、何時(shí)振翅準(zhǔn)備起飛,或者樹枝在振動(dòng)時(shí)發(fā)出的輕微摩擦聲,由于缺乏對(duì)視覺—聲學(xué)細(xì)節(jié)的深入理解,生成的音頻往往顯得過于通用,有時(shí)甚至?xí)鲥e(cuò),導(dǎo)致音畫不匹配。
而引入鏈?zhǔn)剿季S(CoT)推理后,整個(gè)過程可以拆解為:先分析視覺動(dòng)態(tài)、再推斷聲學(xué)屬性,最后按照時(shí)間順序合成與環(huán)境相符的音效。
這一模仿人類音效師的多階段創(chuàng)作流程,能精準(zhǔn)建立起聲音和畫面之間的對(duì)應(yīng)關(guān)系。
一言以蔽之,正如推理能力能提升語言模型的回答質(zhì)量,CoT 也能增強(qiáng) AI 生成音效的真實(shí)感與同步性。
玩法也很 easy,用戶僅需上傳一段視頻,模型就能自動(dòng) " 按幀匹配音效 " ——
給一段 Sora 模型生成的視頻,各種地上跑的、水里游的都能一鍵自動(dòng)生成音效,仔細(xì)聽還能發(fā)現(xiàn)真實(shí)的環(huán)境噪音。
值得一提的是,理論上 ThinkSound 不限制上傳視頻的時(shí)長,但考慮到生成效果,當(dāng)前團(tuán)隊(duì)建議最佳視頻時(shí)長為 10s。
三階思維鏈驅(qū)動(dòng)音頻生成
那么,鏈?zhǔn)剿季S推理具體如何發(fā)揮作用的呢?概括而言,ThinkSound 擁有兩大核心模塊:
鏈?zhǔn)酵评淼亩嗄B(tài)大語言模型(MLLM)
基于流匹配的統(tǒng)一音頻生成模型
基于以上模塊,實(shí)現(xiàn)了一個(gè)三階思維鏈驅(qū)動(dòng)的音頻生成過程。
按照?qǐng)F(tuán)隊(duì)介紹,這一過程核心面臨兩個(gè)挑戰(zhàn):
如何構(gòu)建符合預(yù)期的 CoT?以及如何將 CoT 有效地注入到音頻流匹配模型中?
第一階段,基礎(chǔ)音效推理鏈構(gòu)建(Foundational Foley CoT Generation)。
首先,ThinkSound 會(huì)同時(shí)分析音頻和視頻,從聲音、時(shí)間順序和內(nèi)容三個(gè)角度理解發(fā)生了什么。
具體而言,團(tuán)隊(duì)首先通過 VideoLLaMA2 生成 CoT 推理鏈,分別提取畫面中的運(yùn)動(dòng)動(dòng)態(tài)(如貓頭鷹振翅瞬間)與場(chǎng)景語義(如夜晚森林環(huán)境)。
然后結(jié)合 Qwen2-Audio 生成的初步音頻描述,由 GPT-4.1-nano 輸出結(jié)構(gòu)化的 CoT 步驟,確保推理包含事件識(shí)別、屬性推斷與因果順序,為后續(xù)合成模塊提供時(shí)空對(duì)齊精度。
第二階段,面向交互的對(duì)象級(jí)推理鏈構(gòu)建(Interactive Object-Centric CoT Generation)。
接下來用戶可以點(diǎn)擊視頻里的某個(gè)部分,ThinkSound 會(huì)找出視頻中具體的聲音來源區(qū)域(如煙花、鳥、車等),進(jìn)行單獨(dú)分析。
這時(shí)會(huì)用到 Grounded SAM-2(開源視頻目標(biāo)定位與追蹤框架),來標(biāo)注并跟蹤視頻中的 " 感興趣區(qū)域 "(ROI)。
所謂 " 感興趣區(qū)域 ",是指視頻中那些可能發(fā)出聲音或與音頻內(nèi)容緊密相關(guān)的可見對(duì)象或區(qū)域,如一只正在叫的貓頭鷹(← ROI)對(duì)應(yīng)著貓頭鷹鳴叫。
之后再把這些區(qū)域與原始聲音對(duì)照,分析具體哪一部分該保留、哪一部分是干擾;并融合其他視頻的 CoT 信息,輔助判斷應(yīng)該怎么處理音頻。
第三階段,基于指令的音頻編輯推理鏈構(gòu)建(Instruction-Based Audio Editing CoT Generation)。
最后用戶可以一句話(如 " 加點(diǎn)爆炸聲 "" 去掉人聲 ")下達(dá)編輯指令,ThinkSound 將根據(jù)原始音頻和推理鏈,執(zhí)行編輯操作。
具體而言,它把指令與當(dāng)前音頻對(duì)應(yīng)的推理鏈進(jìn)行融合,利用 GPT-4.1-nano 生成一套結(jié)構(gòu)化的音頻編輯步驟。
最終,所有 CoT 指令都會(huì)被傳遞給統(tǒng)一音頻基礎(chǔ)模型,該模型基于條件流匹配 ( conditional flow matching ) 技術(shù)實(shí)現(xiàn)高保真音頻合成。
就是說,它能同時(shí)理解視頻畫面、文字描述和聲音上下文,并將這些信息融合起來,以逐步生成真實(shí)自然的音效。
AudioCoT:首個(gè)帶思維鏈標(biāo)注的音頻數(shù)據(jù)集
與此同時(shí),團(tuán)隊(duì)還專門為 ThinkSound 構(gòu)建了一個(gè)鏈?zhǔn)揭纛l推理數(shù)據(jù)集——AudioCoT。
數(shù)據(jù)集主要包括兩大類,時(shí)長總計(jì)2531.8 小時(shí):
第一類:源自 VGGSound ( 453.6 小時(shí) ) 和 AudioSet ( 287.5 小時(shí)),經(jīng) 9.1 秒固定長度分段、剔除靜音片段、并特別排除了含人聲片段后精選而來的視頻—音頻對(duì),涵蓋動(dòng)物鳴叫、機(jī)械運(yùn)轉(zhuǎn)、環(huán)境音效等真實(shí)場(chǎng)景。
第二類:源自 AudioSet-SL ( 262.6 小時(shí) ) 、AudioCaps ( 112.6 小時(shí) ) 、Freesound ( 1286.6 小時(shí) ) 與 BBC Sound Effects ( 128.9 小時(shí)),利用多樣化的字幕 / 標(biāo)簽描述加深模型對(duì)聽覺語義的理解。
有了以上數(shù)據(jù)后,團(tuán)隊(duì)繼續(xù)通過一套精細(xì)的處理流程,來確保模型真正實(shí)現(xiàn)音畫同步。
這個(gè)流程分為三個(gè)主要階段:
音頻 - 文本對(duì)齊過濾:首先檢查音頻和文本描述是否匹配,如果其匹配度低(CLAP 分?jǐn)?shù)小于 0.2),就會(huì)重新生成匹配,直到達(dá)到較好的質(zhì)量,并且持續(xù)低分音頻樣本將被剔除。
目標(biāo)跟蹤一致性:然后確保視頻中的物體與音頻對(duì)應(yīng),如果視頻中的目標(biāo)在整個(gè)片段中都能保持可見,才會(huì)保留下來。那些視頻目標(biāo)不清晰或者無法穩(wěn)定跟蹤的片段會(huì)被去掉。
音頻組件的語義配對(duì):最后通過 GPT-4.1-nano 來分析音頻的標(biāo)簽,基于語義區(qū)分性(避免音頻提取和移除任務(wù)混淆)和上下文合理性(確保配對(duì)聲音在同一聲學(xué)場(chǎng)景中共現(xiàn)合理)兩個(gè)標(biāo)準(zhǔn),確保音頻對(duì)語義明確且實(shí)用。
總之,借助以上架構(gòu)和數(shù)據(jù)集,ThinkSound 能同時(shí)完成音頻生成和編輯任務(wù)。
更多實(shí)驗(yàn)結(jié)果
除了在 VGGSound 上超越 6 種主流音頻生成方法,團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)。
他們核心驗(yàn)證了兩件事:
有推理和無推理,是否影響音頻生成質(zhì)量?
在輸入音頻和視頻特征時(shí),不同整合方法是否有影響?
結(jié)果發(fā)現(xiàn),對(duì)比單純的 CLIP 文本編碼和 T5 鏈?zhǔn)酵评?,后者所生成音頻的真實(shí)感和質(zhì)量大大提高。
此外,將 CLIP 的視覺特征和 T5 的文本推理結(jié)合起來,能進(jìn)一步優(yōu)化音頻的理解和表現(xiàn)。
而且門控融合(一個(gè)智能融合音頻和視頻特征的機(jī)制)能達(dá)到最好的效果,它在各個(gè)指標(biāo)上都表現(xiàn)最優(yōu)。
這項(xiàng)研究來自阿里通義語音團(tuán)隊(duì)。
仔細(xì)梳理這個(gè)團(tuán)隊(duì)在語音生成領(lǐng)域的一系列動(dòng)作,不難發(fā)現(xiàn)他們已經(jīng)在開源社區(qū)占據(jù)了一席之地。
就在上個(gè)月,團(tuán)隊(duì)發(fā)布了語音生成大模型Cosyvoice 3.0,通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練和特殊設(shè)計(jì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練,它能提供多語言語音生成、零樣本語音復(fù)刻等功能。
加上其 1.0、2.0 系列,Cosyvoice 已在 GitHub 攬星14.9k,廣受開源社區(qū)喜愛。
它在廣泛的音頻理解生成類任務(wù),如語音對(duì)話、語音識(shí)別、語音翻譯、情感識(shí)別上均獲得良好效果,且延遲較低。
相關(guān)論文也早已在 HuggingFace 上公開。
最后順便介紹一下論文作者。
論文唯一一作劉華岱,研究方向?yàn)?AI 音頻生成與多模態(tài)理解,至今為止在 ICML、ICLR、ACL 等國際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表論文十余篇。
其中,他還以一作身份主導(dǎo)了 OmniAudio(ICML)、FlashAudio(ACL Oral)、AudioLCM(ACM MM)等開源音頻生成工作。
https://thinksound-project.github.io/
論文:
https://arxiv.org/pdf/2506.21448
開源地址:
https://github.com/liuhuadai/ThinkSound
https://huggingface.co/liuhuadai/ThinkSound
https://www.modelscope.cn/studios/AudioGeneral/ThinkSound
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~
最新最專業(yè)的 AI 產(chǎn)品信息及分析
不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見