中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 11分鐘前

      阿里通義開源首個(gè) CoT 音頻模型,音 · 畫同步被狠狠拿捏了

      AI 音效已經(jīng)進(jìn)化成這樣了嗎??

      打開聲音,來快速感受一下最新 feel:

      模擬嬰兒哭聲,那叫一個(gè)高低起伏、蕩氣回腸,整個(gè)節(jié)奏和嬰兒表情姿態(tài)神同步了。

      一輛火車由遠(yuǎn)及近駛來,整個(gè)背景音也頗具空間層次感,毫不違和。

      甚至連小號(hào)這種樂器演奏,聲音也能和演奏者的動(dòng)作一一對(duì)上。

      沒錯(cuò),這就是阿里通義語音團(tuán)隊(duì)最新開源的泛音頻生成模型 ThinkSound,主要用于視頻配音,主打讓每一幀畫面都有專屬匹配音效

      據(jù)介紹,它首次將今年大熱的CoT 思維鏈推理引入了音頻領(lǐng)域,解決了傳統(tǒng)視頻配樂技術(shù)往往只能生成單調(diào)的背景音,而難以捕捉畫面中的動(dòng)態(tài)細(xì)節(jié)和空間關(guān)系的難題。

      就是說,AI 現(xiàn)在也能像專業(yè)音效師一樣逐步思考,通過捕捉視覺細(xì)節(jié)來生成音畫同步的高保真音頻。

      官方測(cè)評(píng)顯示,ThinkSound 在業(yè)界知名的音視頻數(shù)據(jù)集 VGGSound 上,對(duì)比 6 種主流方法(Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper 和 MMAudio),在核心指標(biāo)上均實(shí)現(xiàn)了顯著提升。

      p.s. ↓ 表示越低越好,↑ 表示越高越好

      會(huì)思考后,音畫同步更強(qiáng)了

      為什么需要 " 會(huì)思考 " 的音頻生成模型?

      其實(shí)這主要是因?yàn)?,現(xiàn)有端到端視頻 - 音頻(V2A)生成技術(shù)難以捕捉音畫細(xì)節(jié)。

      比如對(duì)于貓頭鷹何時(shí)在輕聲啾啾、何時(shí)振翅準(zhǔn)備起飛,或者樹枝在振動(dòng)時(shí)發(fā)出的輕微摩擦聲,由于缺乏對(duì)視覺—聲學(xué)細(xì)節(jié)的深入理解,生成的音頻往往顯得過于通用,有時(shí)甚至?xí)鲥e(cuò),導(dǎo)致音畫不匹配。

      而引入鏈?zhǔn)剿季S(CoT)推理后,整個(gè)過程可以拆解為:先分析視覺動(dòng)態(tài)、再推斷聲學(xué)屬性,最后按照時(shí)間順序合成與環(huán)境相符的音效。

      這一模仿人類音效師的多階段創(chuàng)作流程,能精準(zhǔn)建立起聲音和畫面之間的對(duì)應(yīng)關(guān)系。

      一言以蔽之,正如推理能力能提升語言模型的回答質(zhì)量,CoT 也能增強(qiáng) AI 生成音效的真實(shí)感與同步性。

      從更多生成結(jié)果也能看到,當(dāng)音頻模型懂得 " 思考 " 后,音畫同步這事兒也就變得更加簡單了。

      玩法也很 easy,用戶僅需上傳一段視頻,模型就能自動(dòng) " 按幀匹配音效 " ——

      給一段 Sora 模型生成的視頻,各種地上跑的、水里游的都能一鍵自動(dòng)生成音效,仔細(xì)聽還能發(fā)現(xiàn)真實(shí)的環(huán)境噪音。

      值得一提的是,理論上 ThinkSound 不限制上傳視頻的時(shí)長,但考慮到生成效果,當(dāng)前團(tuán)隊(duì)建議最佳視頻時(shí)長為 10s。

      三階思維鏈驅(qū)動(dòng)音頻生成

      那么,鏈?zhǔn)剿季S推理具體如何發(fā)揮作用的呢?概括而言,ThinkSound 擁有兩大核心模塊:

      鏈?zhǔn)酵评淼亩嗄B(tài)大語言模型(MLLM)

      基于流匹配的統(tǒng)一音頻生成模型

      基于以上模塊,實(shí)現(xiàn)了一個(gè)三階思維鏈驅(qū)動(dòng)的音頻生成過程

      按照?qǐng)F(tuán)隊(duì)介紹,這一過程核心面臨兩個(gè)挑戰(zhàn):

      如何構(gòu)建符合預(yù)期的 CoT?以及如何將 CoT 有效地注入到音頻流匹配模型中?

      技術(shù)架構(gòu):三階思維鏈驅(qū)動(dòng)音頻生成

      第一階段,基礎(chǔ)音效推理鏈構(gòu)建(Foundational Foley CoT Generation)。

      首先,ThinkSound 會(huì)同時(shí)分析音頻和視頻,從聲音、時(shí)間順序和內(nèi)容三個(gè)角度理解發(fā)生了什么。

      具體而言,團(tuán)隊(duì)首先通過 VideoLLaMA2 生成 CoT 推理鏈,分別提取畫面中的運(yùn)動(dòng)動(dòng)態(tài)(如貓頭鷹振翅瞬間)與場(chǎng)景語義(如夜晚森林環(huán)境)。

      然后結(jié)合 Qwen2-Audio 生成的初步音頻描述,由 GPT-4.1-nano 輸出結(jié)構(gòu)化的 CoT 步驟,確保推理包含事件識(shí)別、屬性推斷與因果順序,為后續(xù)合成模塊提供時(shí)空對(duì)齊精度。

      第二階段,面向交互的對(duì)象級(jí)推理鏈構(gòu)建(Interactive Object-Centric CoT Generation)。

      接下來用戶可以點(diǎn)擊視頻里的某個(gè)部分,ThinkSound 會(huì)找出視頻中具體的聲音來源區(qū)域(如煙花、鳥、車等),進(jìn)行單獨(dú)分析。

      這時(shí)會(huì)用到 Grounded SAM-2(開源視頻目標(biāo)定位與追蹤框架),來標(biāo)注并跟蹤視頻中的 " 感興趣區(qū)域 "(ROI)。

      所謂 " 感興趣區(qū)域 ",是指視頻中那些可能發(fā)出聲音或與音頻內(nèi)容緊密相關(guān)的可見對(duì)象或區(qū)域,如一只正在叫的貓頭鷹(← ROI)對(duì)應(yīng)著貓頭鷹鳴叫。

      之后再把這些區(qū)域與原始聲音對(duì)照,分析具體哪一部分該保留、哪一部分是干擾;并融合其他視頻的 CoT 信息,輔助判斷應(yīng)該怎么處理音頻。

      第三階段,基于指令的音頻編輯推理鏈構(gòu)建(Instruction-Based Audio Editing CoT Generation)。

      最后用戶可以一句話(如 " 加點(diǎn)爆炸聲 "" 去掉人聲 ")下達(dá)編輯指令,ThinkSound 將根據(jù)原始音頻和推理鏈,執(zhí)行編輯操作。

      具體而言,它把指令與當(dāng)前音頻對(duì)應(yīng)的推理鏈進(jìn)行融合,利用 GPT-4.1-nano 生成一套結(jié)構(gòu)化的音頻編輯步驟。

      最終,所有 CoT 指令都會(huì)被傳遞給統(tǒng)一音頻基礎(chǔ)模型,該模型基于條件流匹配 ( conditional flow matching ) 技術(shù)實(shí)現(xiàn)高保真音頻合成。

      簡單來說,在音頻生成的底層實(shí)現(xiàn)上,ThinkSound 采用了一種結(jié)合視覺、語言和上下文信息的多模態(tài)流式建模方法。

      就是說,它能同時(shí)理解視頻畫面、文字描述和聲音上下文,并將這些信息融合起來,以逐步生成真實(shí)自然的音效。

      AudioCoT:首個(gè)帶思維鏈標(biāo)注的音頻數(shù)據(jù)集

      與此同時(shí),團(tuán)隊(duì)還專門為 ThinkSound 構(gòu)建了一個(gè)鏈?zhǔn)揭纛l推理數(shù)據(jù)集——AudioCoT。

      數(shù)據(jù)集主要包括兩大類,時(shí)長總計(jì)2531.8 小時(shí)

      第一類:源自 VGGSound ( 453.6 小時(shí) ) 和 AudioSet ( 287.5 小時(shí)),經(jīng) 9.1 秒固定長度分段、剔除靜音片段、并特別排除了含人聲片段后精選而來的視頻—音頻對(duì),涵蓋動(dòng)物鳴叫、機(jī)械運(yùn)轉(zhuǎn)、環(huán)境音效等真實(shí)場(chǎng)景。

      第二類:源自 AudioSet-SL ( 262.6 小時(shí) ) 、AudioCaps ( 112.6 小時(shí) ) 、Freesound ( 1286.6 小時(shí) ) 與 BBC Sound Effects ( 128.9 小時(shí)),利用多樣化的字幕 / 標(biāo)簽描述加深模型對(duì)聽覺語義的理解。

      有了以上數(shù)據(jù)后,團(tuán)隊(duì)繼續(xù)通過一套精細(xì)的處理流程,來確保模型真正實(shí)現(xiàn)音畫同步。

      這個(gè)流程分為三個(gè)主要階段:

      音頻 - 文本對(duì)齊過濾:首先檢查音頻和文本描述是否匹配,如果其匹配度低(CLAP 分?jǐn)?shù)小于 0.2),就會(huì)重新生成匹配,直到達(dá)到較好的質(zhì)量,并且持續(xù)低分音頻樣本將被剔除。

      目標(biāo)跟蹤一致性:然后確保視頻中的物體與音頻對(duì)應(yīng),如果視頻中的目標(biāo)在整個(gè)片段中都能保持可見,才會(huì)保留下來。那些視頻目標(biāo)不清晰或者無法穩(wěn)定跟蹤的片段會(huì)被去掉。

      音頻組件的語義配對(duì):最后通過 GPT-4.1-nano 來分析音頻的標(biāo)簽,基于語義區(qū)分性(避免音頻提取和移除任務(wù)混淆)和上下文合理性(確保配對(duì)聲音在同一聲學(xué)場(chǎng)景中共現(xiàn)合理)兩個(gè)標(biāo)準(zhǔn),確保音頻對(duì)語義明確且實(shí)用。

      總之,借助以上架構(gòu)和數(shù)據(jù)集,ThinkSound 能同時(shí)完成音頻生成和編輯任務(wù)。

      更多實(shí)驗(yàn)結(jié)果

      除了在 VGGSound 上超越 6 種主流音頻生成方法,團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)。

      他們核心驗(yàn)證了兩件事:

      有推理和無推理,是否影響音頻生成質(zhì)量?

      在輸入音頻和視頻特征時(shí),不同整合方法是否有影響?

      結(jié)果發(fā)現(xiàn),對(duì)比單純的 CLIP 文本編碼和 T5 鏈?zhǔn)酵评?,后者所生成音頻的真實(shí)感和質(zhì)量大大提高。

      此外,將 CLIP 的視覺特征和 T5 的文本推理結(jié)合起來,能進(jìn)一步優(yōu)化音頻的理解和表現(xiàn)。

      其次,把視頻和音頻的特征在同一時(shí)間點(diǎn)進(jìn)行對(duì)齊和合并,能比單獨(dú)輸入音頻更好地同步聲音和畫面。

      而且門控融合(一個(gè)智能融合音頻和視頻特征的機(jī)制)能達(dá)到最好的效果,它在各個(gè)指標(biāo)上都表現(xiàn)最優(yōu)。

      來自通義語音團(tuán)隊(duì)

      這項(xiàng)研究來自阿里通義語音團(tuán)隊(duì)。

      仔細(xì)梳理這個(gè)團(tuán)隊(duì)在語音生成領(lǐng)域的一系列動(dòng)作,不難發(fā)現(xiàn)他們已經(jīng)在開源社區(qū)占據(jù)了一席之地。

      就在上個(gè)月,團(tuán)隊(duì)發(fā)布了語音生成大模型Cosyvoice 3.0,通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練和特殊設(shè)計(jì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練,它能提供多語言語音生成、零樣本語音復(fù)刻等功能。

      加上其 1.0、2.0 系列,Cosyvoice 已在 GitHub 攬星14.9k,廣受開源社區(qū)喜愛。

      更早之前,團(tuán)隊(duì)還推出了基于模態(tài)對(duì)齊實(shí)現(xiàn)的端到端音頻多模態(tài)大模型MinMo。

      它在廣泛的音頻理解生成類任務(wù),如語音對(duì)話、語音識(shí)別、語音翻譯、情感識(shí)別上均獲得良好效果,且延遲較低。

      相關(guān)論文也早已在 HuggingFace 上公開。

      再到這次的 ThinkSound,團(tuán)隊(duì)依舊延續(xù)了開源路線,除了能在幾個(gè)開源社區(qū)體驗(yàn)?zāi)P凸δ?,他們后續(xù)還計(jì)劃在完善模型后發(fā)布相應(yīng) API。

      最后順便介紹一下論文作者。

      論文唯一一作劉華岱,研究方向?yàn)?AI 音頻生成與多模態(tài)理解,至今為止在 ICML、ICLR、ACL 等國際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表論文十余篇。

      其中,他還以一作身份主導(dǎo)了 OmniAudio(ICML)、FlashAudio(ACL Oral)、AudioLCM(ACM MM)等開源音頻生成工作。

      項(xiàng)目主頁:

      https://thinksound-project.github.io/

      論文:

      https://arxiv.org/pdf/2506.21448

      開源地址:

      https://github.com/liuhuadai/ThinkSound

      https://huggingface.co/liuhuadai/ThinkSound

      https://www.modelscope.cn/studios/AudioGeneral/ThinkSound

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~

      進(jìn)群后,你將直接獲得:

      最新最專業(yè)的 AI 產(chǎn)品信息及分析

      不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼

      內(nèi)部專屬內(nèi)容與專業(yè)討論

      點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了