為什么 AI 生成的視頻總是模糊卡頓?為什么細(xì)節(jié)紋理經(jīng)不起放大?為什么動作描述總與畫面錯位?
其中一個重要原因在于,現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于 1080P(1920 × 1080),且大部分視頻的說明(caption)簡單粗糙,不利于大模型學(xué)習(xí)。
當(dāng)主流視頻生成模型還在 720P 畫質(zhì)掙扎時,浙江大學(xué) APRIL 實驗室聯(lián)合多家高校推出的高質(zhì)量開源 UHD-4K(其中 22.4% 為 8K)文本到視頻數(shù)據(jù)集—— UltraVideo,破解了這一困局。
該數(shù)據(jù)集涵蓋廣泛主題(超過 100 種),每個視頻配備 9 個結(jié)構(gòu)化字幕及一個總結(jié)性字幕(平均 824 詞)。
作為全球首個開源 4K/8K 超高清視頻數(shù)據(jù)集,UltraVideo配合結(jié)構(gòu)化語義描述框架,讓視頻生成實現(xiàn)從 " 勉強能看 " 到 " 影院級質(zhì)感 " 的跨越式進(jìn)化。
團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型,實現(xiàn)三大突破:
原生 4K 生成:直接輸出 4K(3840 × 2160)分辨率視頻;
語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;
資源高效:僅用 LoRA 輕量化訓(xùn)練,單卡可部署。
當(dāng)前視頻生成面臨兩大瓶頸:
分辨率陷阱:模型在低清數(shù)據(jù)訓(xùn)練后,直接生成 4K 視頻會出現(xiàn)嚴(yán)重失真。如圖 2 所示,na ve Wan-T2V-1.3B 在 1080P 生成時畫質(zhì)顯著下降,而提升到 4K(2160 × 3840)分辨率時完全失效。
語義鴻溝:簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。
UltraVideo 通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷:
源頭把控:人工從 YouTube 精選 5000 部 4K/8K 原片,時長從 1 分鐘到 2 小時不等,并對視頻進(jìn)行二次人工審核,以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題,在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。
統(tǒng)計信息過濾:去 OCR 字幕、去黑邊、曝光 / 灰度檢測淘汰劣質(zhì)視頻片段
模型二次過濾:視頻美學(xué)評估、時序運動打分、視頻 - 文本一致性排序、基于 MLLM 的 16 種常見視頻缺陷過濾。
結(jié)構(gòu)化描述:基于 Qwen2.5-VL-72B 自動化 caption 管線,生成 9 類語義標(biāo)簽(鏡頭運動 / 光影 / 氛圍等),并通過 Qwen3-4B 匯總總結(jié)描述(每個視頻平均 824 個單詞)。
基于 UltraVideo 數(shù)據(jù)集,團(tuán)隊在中小規(guī)模的 Wan-T2V-1.3B 上進(jìn)行實驗。
團(tuán)隊驚訝發(fā)現(xiàn),僅用 42K 包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。
由于團(tuán)隊僅使用 LoRA 進(jìn)行微調(diào),并未涉及模型結(jié)構(gòu)的修改,相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他 T2V 模型上。
此外,由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢,團(tuán)隊從 VBench 中隨機抽取了十分之一( 96)的提示進(jìn)行測試。
如表 4 所示,團(tuán)隊比較了五個模型:(1)官方 Wan-T2V-1.3B 模型,分辨率為 480 × 832(2)將分辨率提高到 1K(1088 × 1920)(3)1K 全參數(shù)微調(diào)(4)1K LoRA PEFT。(5)4K LoRA PEFT
1、將官方模型擴展到 1K 會導(dǎo)致性能顯著下降。
2、基于 UltraWan-1K 的全參數(shù)訓(xùn)練顯著提升了 1K 分辨率下的生成效果。但與原生模型相比,訓(xùn)練超參數(shù)(如批大小和提示)的差異可能導(dǎo)致其整體結(jié)果略差于基于 UltraWan-1K 的 LoRA 模型。考慮到訓(xùn)練成本,研究團(tuán)隊推薦使用基于 LoRA 的 UltraWan-1K 方案。
3、更高的 UltraWan-4K 模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率(推理使用 33 幀以確保時間超過 1 秒)導(dǎo)致某些指標(biāo)與 UltraWan-1K 相比有所下降。
團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型,實現(xiàn)三大突破——原生 4K 生成:直接輸出 4K(3840 × 2160)分辨率視頻;語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;資源高效:僅用 LoRA 輕量化訓(xùn)練,單卡可部署。
下圖展示了定性的效果對比。官方的 Wan-T2V-1.3B 無法直接生成高分辨率 1K 視頻,而 UltraWan 能夠處理語義一致的 1K/4K 生成任務(wù)。
在 UltraVideo 中,通過調(diào)整分辨率、幀率和音頻,它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù),例如探索低級 UHD 視頻超分辨率、幀插值、編解碼器,以及高級視頻編輯、逐幀處理、音樂生成。
這項工作不僅填補了高分辨率視頻生成研究中的重要空白,還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿,為未來 UHD 視頻生成的突破奠定了基礎(chǔ)。
團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示,UltraVideo 已全面開源,同時也開源了 UltraWan-1K/4K LoRA 權(quán)重。
論文:https://arxiv.org/abs/2506.13691
項目主頁:https://xzc-zju.github.io/projects/UltraVideo/
數(shù)據(jù)集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo
模型:https://huggingface.co/APRIL-AIGC/UltraWan
Demo 展示:https://www.youtube.com/watch?v=KPh62pfSHLQ
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點亮星標(biāo)
科技前沿進(jìn)展每日見