中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<table id="ayiyi"><xmp id="ayiyi"></xmp></table>

<samp id="ayiyi"><strong id="ayiyi"></strong></samp>

<dl id="ayiyi"><xmp id="ayiyi"></xmp></dl>

<center id="ayiyi"></center>

<button id="ayiyi"></button>

<nav id="ayiyi"><samp id="ayiyi"></samp></nav>

量子位 11分鐘前

阿里通義開源首個(gè) CoT 音頻模型，音 · 畫同步被狠狠拿捏了

AI 音效已經(jīng)進(jìn)化成這樣了嗎？？

打開聲音，來快速感受一下最新 feel：

模擬嬰兒哭聲，那叫一個(gè)高低起伏、蕩氣回腸，整個(gè)節(jié)奏和嬰兒表情姿態(tài)神同步了。

一輛火車由遠(yuǎn)及近駛來，整個(gè)背景音也頗具空間層次感，毫不違和。

甚至連小號(hào)這種樂器演奏，聲音也能和演奏者的動(dòng)作一一對(duì)上。

沒錯(cuò)，這就是阿里通義語音團(tuán)隊(duì)最新開源的泛音頻生成模型 ThinkSound，主要用于視頻配音，主打讓每一幀畫面都有專屬匹配音效。

據(jù)介紹，它首次將今年大熱的CoT 思維鏈推理引入了音頻領(lǐng)域，解決了傳統(tǒng)視頻配樂技術(shù)往往只能生成單調(diào)的背景音，而難以捕捉畫面中的動(dòng)態(tài)細(xì)節(jié)和空間關(guān)系的難題。

就是說，AI 現(xiàn)在也能像專業(yè)音效師一樣逐步思考，通過捕捉視覺細(xì)節(jié)來生成音畫同步的高保真音頻。

官方測(cè)評(píng)顯示，ThinkSound 在業(yè)界知名的音視頻數(shù)據(jù)集 VGGSound 上，對(duì)比 6 種主流方法（Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper 和 MMAudio），在核心指標(biāo)上均實(shí)現(xiàn)了顯著提升。

p.s. ↓ 表示越低越好，↑ 表示越高越好

會(huì)思考后，音畫同步更強(qiáng)了

為什么需要 " 會(huì)思考 " 的音頻生成模型？

其實(shí)這主要是因?yàn)?，現(xiàn)有端到端視頻 - 音頻（V2A）生成技術(shù)難以捕捉音畫細(xì)節(jié)。

比如對(duì)于貓頭鷹何時(shí)在輕聲啾啾、何時(shí)振翅準(zhǔn)備起飛，或者樹枝在振動(dòng)時(shí)發(fā)出的輕微摩擦聲，由于缺乏對(duì)視覺—聲學(xué)細(xì)節(jié)的深入理解，生成的音頻往往顯得過于通用，有時(shí)甚至?xí)鲥e(cuò)，導(dǎo)致音畫不匹配。

而引入鏈?zhǔn)剿季S（CoT）推理后，整個(gè)過程可以拆解為：先分析視覺動(dòng)態(tài)、再推斷聲學(xué)屬性，最后按照時(shí)間順序合成與環(huán)境相符的音效。

這一模仿人類音效師的多階段創(chuàng)作流程，能精準(zhǔn)建立起聲音和畫面之間的對(duì)應(yīng)關(guān)系。

一言以蔽之，正如推理能力能提升語言模型的回答質(zhì)量，CoT 也能增強(qiáng) AI 生成音效的真實(shí)感與同步性。

從更多生成結(jié)果也能看到，當(dāng)音頻模型懂得 " 思考 " 后，音畫同步這事兒也就變得更加簡單了。

玩法也很 easy，用戶僅需上傳一段視頻，模型就能自動(dòng) " 按幀匹配音效 " ——

給一段 Sora 模型生成的視頻，各種地上跑的、水里游的都能一鍵自動(dòng)生成音效，仔細(xì)聽還能發(fā)現(xiàn)真實(shí)的環(huán)境噪音。

值得一提的是，理論上 ThinkSound 不限制上傳視頻的時(shí)長，但考慮到生成效果，當(dāng)前團(tuán)隊(duì)建議最佳視頻時(shí)長為 10s。

三階思維鏈驅(qū)動(dòng)音頻生成

那么，鏈?zhǔn)剿季S推理具體如何發(fā)揮作用的呢？概括而言，ThinkSound 擁有兩大核心模塊：

鏈?zhǔn)酵评淼亩嗄B(tài)大語言模型（MLLM）

基于流匹配的統(tǒng)一音頻生成模型

基于以上模塊，實(shí)現(xiàn)了一個(gè)三階思維鏈驅(qū)動(dòng)的音頻生成過程。

按照?qǐng)F(tuán)隊(duì)介紹，這一過程核心面臨兩個(gè)挑戰(zhàn)：

如何構(gòu)建符合預(yù)期的 CoT？以及如何將 CoT 有效地注入到音頻流匹配模型中？

技術(shù)架構(gòu)：三階思維鏈驅(qū)動(dòng)音頻生成

第一階段，基礎(chǔ)音效推理鏈構(gòu)建（Foundational Foley CoT Generation）。

首先，ThinkSound 會(huì)同時(shí)分析音頻和視頻，從聲音、時(shí)間順序和內(nèi)容三個(gè)角度理解發(fā)生了什么。

具體而言，團(tuán)隊(duì)首先通過 VideoLLaMA2 生成 CoT 推理鏈，分別提取畫面中的運(yùn)動(dòng)動(dòng)態(tài)（如貓頭鷹振翅瞬間）與場(chǎng)景語義（如夜晚森林環(huán)境）。

然后結(jié)合 Qwen2-Audio 生成的初步音頻描述，由 GPT-4.1-nano 輸出結(jié)構(gòu)化的 CoT 步驟，確保推理包含事件識(shí)別、屬性推斷與因果順序，為后續(xù)合成模塊提供時(shí)空對(duì)齊精度。

第二階段，面向交互的對(duì)象級(jí)推理鏈構(gòu)建（Interactive Object-Centric CoT Generation）。

接下來用戶可以點(diǎn)擊視頻里的某個(gè)部分，ThinkSound 會(huì)找出視頻中具體的聲音來源區(qū)域（如煙花、鳥、車等），進(jìn)行單獨(dú)分析。

這時(shí)會(huì)用到 Grounded SAM-2（開源視頻目標(biāo)定位與追蹤框架），來標(biāo)注并跟蹤視頻中的 " 感興趣區(qū)域 "（ROI）。

所謂 " 感興趣區(qū)域 "，是指視頻中那些可能發(fā)出聲音或與音頻內(nèi)容緊密相關(guān)的可見對(duì)象或區(qū)域，如一只正在叫的貓頭鷹（← ROI）對(duì)應(yīng)著貓頭鷹鳴叫。

之后再把這些區(qū)域與原始聲音對(duì)照，分析具體哪一部分該保留、哪一部分是干擾；并融合其他視頻的 CoT 信息，輔助判斷應(yīng)該怎么處理音頻。

第三階段，基于指令的音頻編輯推理鏈構(gòu)建（Instruction-Based Audio Editing CoT Generation）。

最后用戶可以一句話（如 " 加點(diǎn)爆炸聲 "" 去掉人聲 "）下達(dá)編輯指令，ThinkSound 將根據(jù)原始音頻和推理鏈，執(zhí)行編輯操作。

具體而言，它把指令與當(dāng)前音頻對(duì)應(yīng)的推理鏈進(jìn)行融合，利用 GPT-4.1-nano 生成一套結(jié)構(gòu)化的音頻編輯步驟。

最終，所有 CoT 指令都會(huì)被傳遞給統(tǒng)一音頻基礎(chǔ)模型，該模型基于條件流匹配 ( conditional flow matching ) 技術(shù)實(shí)現(xiàn)高保真音頻合成。

簡單來說，在音頻生成的底層實(shí)現(xiàn)上，ThinkSound 采用了一種結(jié)合視覺、語言和上下文信息的多模態(tài)流式建模方法。

就是說，它能同時(shí)理解視頻畫面、文字描述和聲音上下文，并將這些信息融合起來，以逐步生成真實(shí)自然的音效。

AudioCoT：首個(gè)帶思維鏈標(biāo)注的音頻數(shù)據(jù)集

與此同時(shí)，團(tuán)隊(duì)還專門為 ThinkSound 構(gòu)建了一個(gè)鏈?zhǔn)揭纛l推理數(shù)據(jù)集——AudioCoT。

數(shù)據(jù)集主要包括兩大類，時(shí)長總計(jì)2531.8 小時(shí)：

第一類：源自 VGGSound ( 453.6 小時(shí) ) 和 AudioSet ( 287.5 小時(shí)），經(jīng) 9.1 秒固定長度分段、剔除靜音片段、并特別排除了含人聲片段后精選而來的視頻—音頻對(duì)，涵蓋動(dòng)物鳴叫、機(jī)械運(yùn)轉(zhuǎn)、環(huán)境音效等真實(shí)場(chǎng)景。

第二類：源自 AudioSet-SL ( 262.6 小時(shí) ) 、AudioCaps ( 112.6 小時(shí) ) 、Freesound ( 1286.6 小時(shí) ) 與 BBC Sound Effects ( 128.9 小時(shí)），利用多樣化的字幕 / 標(biāo)簽描述加深模型對(duì)聽覺語義的理解。

有了以上數(shù)據(jù)后，團(tuán)隊(duì)繼續(xù)通過一套精細(xì)的處理流程，來確保模型真正實(shí)現(xiàn)音畫同步。

這個(gè)流程分為三個(gè)主要階段：

音頻 - 文本對(duì)齊過濾：首先檢查音頻和文本描述是否匹配，如果其匹配度低（CLAP 分?jǐn)?shù)小于 0.2），就會(huì)重新生成匹配，直到達(dá)到較好的質(zhì)量，并且持續(xù)低分音頻樣本將被剔除。

目標(biāo)跟蹤一致性：然后確保視頻中的物體與音頻對(duì)應(yīng)，如果視頻中的目標(biāo)在整個(gè)片段中都能保持可見，才會(huì)保留下來。那些視頻目標(biāo)不清晰或者無法穩(wěn)定跟蹤的片段會(huì)被去掉。

音頻組件的語義配對(duì)：最后通過 GPT-4.1-nano 來分析音頻的標(biāo)簽，基于語義區(qū)分性（避免音頻提取和移除任務(wù)混淆）和上下文合理性（確保配對(duì)聲音在同一聲學(xué)場(chǎng)景中共現(xiàn)合理）兩個(gè)標(biāo)準(zhǔn)，確保音頻對(duì)語義明確且實(shí)用。

總之，借助以上架構(gòu)和數(shù)據(jù)集，ThinkSound 能同時(shí)完成音頻生成和編輯任務(wù)。

更多實(shí)驗(yàn)結(jié)果

除了在 VGGSound 上超越 6 種主流音頻生成方法，團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)。

他們核心驗(yàn)證了兩件事：

有推理和無推理，是否影響音頻生成質(zhì)量？

在輸入音頻和視頻特征時(shí)，不同整合方法是否有影響？

結(jié)果發(fā)現(xiàn)，對(duì)比單純的 CLIP 文本編碼和 T5 鏈?zhǔn)酵评?，后者所生成音頻的真實(shí)感和質(zhì)量大大提高。

此外，將 CLIP 的視覺特征和 T5 的文本推理結(jié)合起來，能進(jìn)一步優(yōu)化音頻的理解和表現(xiàn)。

其次，把視頻和音頻的特征在同一時(shí)間點(diǎn)進(jìn)行對(duì)齊和合并，能比單獨(dú)輸入音頻更好地同步聲音和畫面。

而且門控融合（一個(gè)智能融合音頻和視頻特征的機(jī)制）能達(dá)到最好的效果，它在各個(gè)指標(biāo)上都表現(xiàn)最優(yōu)。

來自通義語音團(tuán)隊(duì)

這項(xiàng)研究來自阿里通義語音團(tuán)隊(duì)。

仔細(xì)梳理這個(gè)團(tuán)隊(duì)在語音生成領(lǐng)域的一系列動(dòng)作，不難發(fā)現(xiàn)他們已經(jīng)在開源社區(qū)占據(jù)了一席之地。

就在上個(gè)月，團(tuán)隊(duì)發(fā)布了語音生成大模型Cosyvoice 3.0，通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練和特殊設(shè)計(jì)的強(qiáng)化學(xué)習(xí)后訓(xùn)練，它能提供多語言語音生成、零樣本語音復(fù)刻等功能。

加上其 1.0、2.0 系列，Cosyvoice 已在 GitHub 攬星14.9k，廣受開源社區(qū)喜愛。

更早之前，團(tuán)隊(duì)還推出了基于模態(tài)對(duì)齊實(shí)現(xiàn)的端到端音頻多模態(tài)大模型MinMo。

它在廣泛的音頻理解生成類任務(wù)，如語音對(duì)話、語音識(shí)別、語音翻譯、情感識(shí)別上均獲得良好效果，且延遲較低。

相關(guān)論文也早已在 HuggingFace 上公開。

再到這次的 ThinkSound，團(tuán)隊(duì)依舊延續(xù)了開源路線，除了能在幾個(gè)開源社區(qū)體驗(yàn)?zāi)Ｐ凸δ?，他們后續(xù)還計(jì)劃在完善模型后發(fā)布相應(yīng) API。

最后順便介紹一下論文作者。

論文唯一一作劉華岱，研究方向?yàn)?AI 音頻生成與多模態(tài)理解，至今為止在 ICML、ICLR、ACL 等國際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表論文十余篇。

其中，他還以一作身份主導(dǎo)了 OmniAudio（ICML）、FlashAudio（ACL Oral）、AudioLCM（ACM MM）等開源音頻生成工作。

項(xiàng)目主頁：

https://thinksound-project.github.io/

論文：

https://arxiv.org/pdf/2506.21448

開源地址：

https://github.com/liuhuadai/ThinkSound

https://huggingface.co/liuhuadai/ThinkSound

https://www.modelscope.cn/studios/AudioGeneral/ThinkSound

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群，只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手，發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群～

進(jìn)群后，你將直接獲得：

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai 阿里

相關(guān)閱讀

推理效率超NV H100！華為展示CloudMatrix 384“超級(jí)AI服務(wù)器”：384顆昇騰NPU+192顆鯤鵬CPU全對(duì)等互聯(lián)

數(shù)碼測(cè)評(píng) 1小時(shí)前

進(jìn)貨記錄都能查美團(tuán)外賣正式推出“浣熊食堂” 三年1200家

快科技 49分鐘前

小米16 Pro首曝：6.3/6.8英寸兩種尺寸史無前例

快科技 2小時(shí)前

性能最激進(jìn)的天璣手機(jī)！一加Ace 5至尊版官宣降價(jià)：2399元起

快科技 2小時(shí)前

狂甩平均線31%！華碩ROG夜神RTX 5090創(chuàng)Port Royal新紀(jì)錄

快科技 2小時(shí)前

從單點(diǎn)替代到系統(tǒng)重構(gòu)，工業(yè)智能體能否成為企業(yè)增長新引擎？

鈦媒體 2小時(shí)前

蘋果考慮另起爐灶，用外部人工智能模型來支持新版Siri

36氪 4小時(shí)前

最強(qiáng)拍照手機(jī)易主！OPPO Find X8 Ultra DXO拍照評(píng)分169：世界第一

快科技 5小時(shí)前

榮耀MagicPad 3支持離焦護(hù)眼技術(shù)：開啟25分鐘短暫性近視指標(biāo)降低13度

快科技 11小時(shí)前

Apple Music問世十周年全新工作室空間項(xiàng)目正式啟動(dòng)

數(shù)碼測(cè)評(píng) 14小時(shí)前

黃仁勛親自招募兩AI專家加入英偉達(dá)：本科均畢業(yè)于清華大學(xué)

快科技 23小時(shí)前

告別激進(jìn)？H&M中國戰(zhàn)略變了

虎嗅APP 14小時(shí)前

企業(yè)并購生存指南：從相親到過日子的實(shí)戰(zhàn)心法

鈦媒體 23小時(shí)前

情懷殺+黑科技！日本Maxell新磁帶機(jī)融合藍(lán)牙/USB-C：645元開售秒光

快科技昨天

華為近期一項(xiàng)語音助手相關(guān)專利公布

36氪昨天

最新評(píng)論

沒有更多評(píng)論了

量子位

訂閱

覺得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

藍(lán)鯊財(cái)經(jīng)社

追求最新的AI技術(shù)與財(cái)經(jīng)商業(yè)領(lǐng)域結(jié)合

Blockchain News

<samp id="em0q2"></samp>

<cite id="em0q2"></cite>

<samp id="em0q2"><strong id="em0q2"></strong></samp>

<center id="em0q2"><xmp id="em0q2"></xmp></center>