作者 | 金碧輝
編輯 | 程茜
智東西 7 月 1 日消息,阿里通義實(shí)驗(yàn)室全球首個(gè)應(yīng)用思維鏈(CoT)技術(shù)的音頻生成模型 ThinkSound 今天開(kāi)源,該模型首次將 CoT 引入音頻生成領(lǐng)域,通過(guò)多階段推理框架解決傳統(tǒng)視頻轉(zhuǎn)音頻(V2A)技術(shù)的音畫(huà)錯(cuò)位問(wèn)題,并開(kāi)源配套數(shù)據(jù)集 AudioCoT。
ThinkSound 模型可直接應(yīng)用于影視后期制作,為 AI 生成的視頻自動(dòng)匹配精準(zhǔn)的環(huán)境噪音與爆炸聲效;服務(wù)于游戲開(kāi)發(fā)領(lǐng)域,實(shí)時(shí)生成雨勢(shì)變化等動(dòng)態(tài)場(chǎng)景的自適應(yīng)音效;同時(shí)可以無(wú)障礙視頻生產(chǎn),為視障用戶同步生成畫(huà)面描述與環(huán)境音效。
ThinkSound 模型生成的視頻內(nèi)容
目前,ThinkSound 一共有 ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,開(kāi)發(fā)者可按需調(diào)用適配。開(kāi)發(fā)者可通過(guò) GitHub、Hugging Face、魔搭社區(qū)免費(fèi)調(diào)用 Apache 2.0 協(xié)議的開(kāi)源代碼。
性能驗(yàn)證顯示,在 VGGSound 測(cè)試集上,ThinkSound 的 Fréchet 音頻距離降至 34.56,較此前主流模型 MMAudio 顯著提升 20.1%;時(shí)序?qū)R誤差率僅 9.8%,同比降低 37.2%;聲音事件判別指標(biāo) KLPaSST 與 KLPaNNs 分別達(dá)到 1.52 和 1.32,均為當(dāng)前同類(lèi)模型最佳結(jié)果。在面向影視場(chǎng)景的 MovieGen Audio Bench 測(cè)試中,其表現(xiàn)大幅領(lǐng)先 Meta 的 Movie Gen Audio 模型。
技術(shù)主頁(yè):
https://thinksound-project.github.io/
開(kāi)源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound
體驗(yàn)地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
一、三階段流程完成推理,模擬人類(lèi)音效師創(chuàng)作流程
ThinkSound 模型的突破性在于其成功模擬了專業(yè)音效師的核心工作邏輯,通過(guò)三階段推理流程實(shí)現(xiàn)自動(dòng)化音效生成。
首先,模型執(zhí)行視覺(jué)事件解析,逐幀分析視頻內(nèi)容,精準(zhǔn)識(shí)別關(guān)鍵物理事件如玻璃碎裂軌跡或腳步移動(dòng)速度,并同時(shí)判斷畫(huà)面中物體的材質(zhì)屬性,例如金屬、木材或液體,輸出帶時(shí)間戳的結(jié)構(gòu)化事件與屬性數(shù)據(jù)。
然后模型進(jìn)入聲學(xué)屬性推導(dǎo)階段,基于解析出的視覺(jué)特征,運(yùn)用物理規(guī)則進(jìn)行映射:依據(jù)材質(zhì)類(lèi)型推導(dǎo)聲音的頻譜特性,金屬材質(zhì)會(huì)產(chǎn)生高頻共振;根據(jù)運(yùn)動(dòng)強(qiáng)度計(jì)算聲波能量,雨滴高度直接影響混響強(qiáng)度;同時(shí)模擬環(huán)境空間如密閉房間或開(kāi)放廣場(chǎng)對(duì)聲場(chǎng)反射的影響,最終生成物理特性準(zhǔn)確的聲學(xué)參數(shù)矩陣。
最后是時(shí)序?qū)R合成階段,模型通過(guò)動(dòng)態(tài)對(duì)齊引擎將聲學(xué)參數(shù)與視頻幀精確綁定,利用時(shí)間編碼器自適應(yīng)補(bǔ)償畫(huà)面跳幀或慢動(dòng)作變化以確保聲波連續(xù)性,并采用分層渲染技術(shù)實(shí)時(shí)合成音頻流,包含基礎(chǔ)音色層、環(huán)境反射層及運(yùn)動(dòng)特效層。
這一流程實(shí)現(xiàn)了與畫(huà)面幀的精準(zhǔn)同步,其時(shí)序誤差率低至僅 9.8%,較傳統(tǒng)模型大幅降低 37.2%,從而將傳統(tǒng)手工音效制作中耗時(shí)數(shù)小時(shí)的音畫(huà)對(duì)齊工作壓縮至分鐘級(jí)完成。
在生物聲學(xué)場(chǎng)景中,ThinkSound 模型生成的嬰兒哭聲音頻嚴(yán)格匹配表情動(dòng)作變化,其音高動(dòng)態(tài)范圍與呼吸節(jié)奏波動(dòng)精準(zhǔn)遵循嬰幼兒生理發(fā)聲模式,通過(guò)時(shí)序?qū)R算法確??蘼晱?qiáng)度峰值與面部扭曲程度實(shí)現(xiàn)幀級(jí)同步。
ThinkSound-1.3B 的參數(shù)量為 13 億,是當(dāng)前開(kāi)源版本中規(guī)模最大的模型,適合專業(yè)級(jí)音效生成任務(wù);ThinkSound-724M 的參數(shù)量為 7.24 億,該模型平衡了生成質(zhì)量與計(jì)算效率。適合需要較高音效質(zhì)量但資源受限的場(chǎng)景;ThinkSound-533M 的參數(shù)量為 5.33 億),定位為輕量級(jí)入門(mén)模型。在保證基礎(chǔ)音效生成能力的同時(shí),顯著降低硬件門(mén)檻,適用于快速原型開(kāi)發(fā)和教育研究用途。
二、整合總計(jì) 2531.8 小時(shí)音頻,構(gòu)建全球首個(gè) AudioCoT 數(shù)據(jù)集
為突破傳統(tǒng)音頻生成模型 " 黑箱操作 "、缺乏可解釋設(shè)計(jì)邏輯的瓶頸,阿里團(tuán)隊(duì)構(gòu)建了業(yè)界首個(gè)且規(guī)模最大的帶思維鏈標(biāo)注音頻數(shù)據(jù)集 AudioCoT。
該數(shù)據(jù)集整合了總計(jì) 2531.8 小時(shí)的音頻、視覺(jué)素材,涵蓋影視片段庫(kù)、高保真自然聲場(chǎng)采集及國(guó)際知名專業(yè)音效庫(kù)。
AudioCoT 的核心突破在于其思維鏈標(biāo)注體系:每條數(shù)據(jù)均由專業(yè)團(tuán)隊(duì)深度標(biāo)注出完整的邏輯鏈條。標(biāo)注團(tuán)隊(duì)從視覺(jué)事件分析識(shí)別畫(huà)面中的關(guān)鍵觸發(fā)元素,到聲學(xué)特性推理推導(dǎo)聲音應(yīng)有的物理和感知屬性,再到音效合成策略明確實(shí)現(xiàn)目標(biāo)聲音的技術(shù)路徑。這種從視覺(jué)輸入到聲音輸出的完整邏輯映射,為模型構(gòu)建了理解聲音設(shè)計(jì) " 為什么 " 和 " 怎么做 " 的知識(shí)圖譜。
ThinkSound 在訓(xùn)練中不僅學(xué)習(xí)生成聲音,還能夠基于畫(huà)面元素自動(dòng)推理并調(diào)整生成聲音的屬性,改變了依賴預(yù)設(shè)標(biāo)簽的黑箱生成模式,實(shí)現(xiàn)了生成高質(zhì)量音頻的同時(shí) " 知其所以然 ",增強(qiáng) AI 生成音效的真實(shí)感和同步性。
三、關(guān)鍵指標(biāo)超越主流方案,時(shí)序?qū)R誤差率降低 37%
在權(quán)威測(cè)試集 VGGSound 上,ThinkSound 的 Fréchet 音頻距離(FD)降至 34.56(對(duì)比 MMAudio 的 43.26),逼近真實(shí)音效分布;聲音事件判別精度 KLPaSST/KLPaNNs 達(dá) 1.52/1.32,ThinkSound 超越 MMAudio 等標(biāo)桿模型。
在影視場(chǎng)景測(cè)試集 MovieGen Audio Bench 中,ThinkSound 以 20% 優(yōu)勢(shì)超越 Meta 的 Movie Gen Audio 模型,尤其在爆炸、金屬摩擦等復(fù)雜聲效的時(shí)序?qū)R誤差率降低 37%。
為驗(yàn)證 ThinkSound 核心技術(shù)設(shè)計(jì)的必要性,阿里團(tuán)隊(duì)展開(kāi)消融實(shí)驗(yàn)。
當(dāng)前視頻生成音頻(V2A)技術(shù)長(zhǎng)期面臨的核心痛點(diǎn),是模型難以捕捉視覺(jué)事件與聲音之間的物理關(guān)聯(lián)。例如,玻璃碎裂的畫(huà)面本應(yīng)觸發(fā)高頻清脆聲,但傳統(tǒng)模型常輸出模糊的 " 破碎聲 " 或與畫(huà)面時(shí)序錯(cuò)位的音效。其根源在于數(shù)據(jù)與建模的局限性,主流方案依賴文本、音頻的淺層匹配,缺乏對(duì)聲學(xué)物理規(guī)律的推理能力。例如,早期模型 Make-An-Audio 雖通過(guò) CLAP 文本編碼器和頻譜自編碼器提升可控性,但仍無(wú)法解析 " 物體材質(zhì)如何影響聲音頻率 " 這類(lèi)邏輯鏈。
同時(shí),傳統(tǒng)模型還存在時(shí)序錯(cuò)位問(wèn)題,通用模型如 Meta 的 Movie Gen Audio 在復(fù)雜場(chǎng)景中常出現(xiàn)音畫(huà)不同步,例如爆炸聲滯后于火光畫(huà)面,因模型未建立事件因果鏈。
團(tuán)隊(duì)將視頻的 CLIP 視覺(jué)特征與 T5 文本推理特征在時(shí)間軸上對(duì)齊融合,相比單獨(dú)輸入音頻特征,音畫(huà)同步精度提升 23%。
門(mén)控融合機(jī)制通過(guò)動(dòng)態(tài)分配權(quán)重,例如會(huì)優(yōu)先處理視覺(jué)事件聲效而非環(huán)境背景音,在 KLPaSST 指標(biāo)上實(shí)現(xiàn) 17% 的提升,F(xiàn)réchet 音頻距離降低 12%,超越常規(guī)的拼接融合與加法融合策略。
結(jié)語(yǔ):ThinkSound 開(kāi)源,阿里三大模型補(bǔ)全音頻工具鏈
ThinkSound 的發(fā)布標(biāo)志著音頻生成從 " 能發(fā)聲 " 邁向 " 懂畫(huà)面 " 的智能階段。其技術(shù)價(jià)值不僅在于性能提升,更在于將專業(yè)音效設(shè)計(jì)流程標(biāo)準(zhǔn)化、自動(dòng)化,把傳統(tǒng)需數(shù)小時(shí)的手工音畫(huà)對(duì)齊工作壓縮至分鐘級(jí)完成。
對(duì)產(chǎn)業(yè)而言,ThinkSound 與阿里此前開(kāi)源 CosyVoice 2.0(語(yǔ)音合成)、Qwen2.5-Omni(全模態(tài)交互)形成技術(shù)矩陣,覆蓋從語(yǔ)音到環(huán)境音效的全場(chǎng)景音頻生成需求。開(kāi)發(fā)者可基于此構(gòu)建影視配音、游戲?qū)崟r(shí)音效、無(wú)障礙視頻制作等低成本工具,尤其為中小創(chuàng)作者提供接近專業(yè)工作室的音頻生產(chǎn)能力。