中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 11分鐘前

      1080p 飛升 4k,浙大開源原生超高清視頻生成方案,突破 AI 視頻生成清晰度上限

      為什么 AI 生成的視頻總是模糊卡頓?為什么細(xì)節(jié)紋理經(jīng)不起放大?為什么動作描述總與畫面錯位?

      其中一個重要原因在于,現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于 1080P(1920 × 1080),且大部分視頻的說明(caption)簡單粗糙,不利于大模型學(xué)習(xí)。

      當(dāng)主流視頻生成模型還在 720P 畫質(zhì)掙扎時,浙江大學(xué) APRIL 實驗室聯(lián)合多家高校推出的高質(zhì)量開源 UHD-4K(其中 22.4% 為 8K)文本到視頻數(shù)據(jù)集—— UltraVideo,破解了這一困局。

      該數(shù)據(jù)集涵蓋廣泛主題(超過 100 種),每個視頻配備 9 個結(jié)構(gòu)化字幕及一個總結(jié)性字幕(平均 824 詞)。

      作為全球首個開源 4K/8K 超高清視頻數(shù)據(jù)集,UltraVideo配合結(jié)構(gòu)化語義描述框架,讓視頻生成實現(xiàn)從 " 勉強能看 " 到 " 影院級質(zhì)感 " 的跨越式進(jìn)化。

      團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型,實現(xiàn)三大突破:

      原生 4K 生成:直接輸出 4K(3840 × 2160)分辨率視頻;

      語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;

      資源高效:僅用 LoRA 輕量化訓(xùn)練,單卡可部署。

      方法:四階過濾打造高質(zhì)量 4K 視頻數(shù)據(jù)集

      當(dāng)前視頻生成面臨兩大瓶頸:

      分辨率陷阱:模型在低清數(shù)據(jù)訓(xùn)練后,直接生成 4K 視頻會出現(xiàn)嚴(yán)重失真。如圖 2 所示,na ve Wan-T2V-1.3B 在 1080P 生成時畫質(zhì)顯著下降,而提升到 4K(2160 × 3840)分辨率時完全失效。

      語義鴻溝:簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。

      然而,以電影級應(yīng)用為目標(biāo)的 4K/8K 內(nèi)容生成急需超高清數(shù)據(jù)與結(jié)構(gòu)化語義視頻描述指導(dǎo)。

      UltraVideo 通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷:

      源頭把控:人工從 YouTube 精選 5000 部 4K/8K 原片,時長從 1 分鐘到 2 小時不等,并對視頻進(jìn)行二次人工審核,以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題,在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。

      統(tǒng)計信息過濾:去 OCR 字幕、去黑邊、曝光 / 灰度檢測淘汰劣質(zhì)視頻片段

      模型二次過濾:視頻美學(xué)評估、時序運動打分、視頻 - 文本一致性排序、基于 MLLM 的 16 種常見視頻缺陷過濾。

      結(jié)構(gòu)化描述:基于 Qwen2.5-VL-72B 自動化 caption 管線,生成 9 類語義標(biāo)簽(鏡頭運動 / 光影 / 氛圍等),并通過 Qwen3-4B 匯總總結(jié)描述(每個視頻平均 824 個單詞)。

      最終,團(tuán)隊獲得了 3s-10s 的 42k 短視頻和 10 秒以上的 17k 長視頻,其中 8K 視頻占比 22.4%,以支持未來更高分辨率的研究。

      視頻的主題多樣性對視頻模型的訓(xùn)練效果至關(guān)重要。團(tuán)隊對 Koala-36M 的標(biāo)題進(jìn)行了名詞統(tǒng)計,經(jīng)由 LLMs 和人工處理確認(rèn)后,獲得了七個主要主題(108 個主題),即視頻場景、主體、動作、時間事件、攝像機運動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進(jìn)行的統(tǒng)計分析。

      實測:小樣本撬動 4K 生成

      基于 UltraVideo 數(shù)據(jù)集,團(tuán)隊在中小規(guī)模的 Wan-T2V-1.3B 上進(jìn)行實驗。

      團(tuán)隊驚訝發(fā)現(xiàn),僅用 42K 包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。

      由于團(tuán)隊僅使用 LoRA 進(jìn)行微調(diào),并未涉及模型結(jié)構(gòu)的修改,相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他 T2V 模型上。

      此外,由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢,團(tuán)隊從 VBench 中隨機抽取了十分之一( 96)的提示進(jìn)行測試。

      如表 4 所示,團(tuán)隊比較了五個模型:(1)官方 Wan-T2V-1.3B 模型,分辨率為 480 × 832(2)將分辨率提高到 1K(1088 × 1920)(3)1K 全參數(shù)微調(diào)(4)1K LoRA PEFT。(5)4K LoRA PEFT

      結(jié)果顯示,

      1、將官方模型擴展到 1K 會導(dǎo)致性能顯著下降。

      2、基于 UltraWan-1K 的全參數(shù)訓(xùn)練顯著提升了 1K 分辨率下的生成效果。但與原生模型相比,訓(xùn)練超參數(shù)(如批大小和提示)的差異可能導(dǎo)致其整體結(jié)果略差于基于 UltraWan-1K 的 LoRA 模型。考慮到訓(xùn)練成本,研究團(tuán)隊推薦使用基于 LoRA 的 UltraWan-1K 方案。

      3、更高的 UltraWan-4K 模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率(推理使用 33 幀以確保時間超過 1 秒)導(dǎo)致某些指標(biāo)與 UltraWan-1K 相比有所下降。

      團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型,實現(xiàn)三大突破——原生 4K 生成:直接輸出 4K(3840 × 2160)分辨率視頻;語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;資源高效:僅用 LoRA 輕量化訓(xùn)練,單卡可部署。

      下圖展示了定性的效果對比。官方的 Wan-T2V-1.3B 無法直接生成高分辨率 1K 視頻,而 UltraWan 能夠處理語義一致的 1K/4K 生成任務(wù)。

      這是首次證明,少量極致質(zhì)量數(shù)據(jù),能突破視頻生成的分辨率天花板。

      在 UltraVideo 中,通過調(diào)整分辨率、幀率和音頻,它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù),例如探索低級 UHD 視頻超分辨率、幀插值、編解碼器,以及高級視頻編輯、逐幀處理、音樂生成。

      這項工作不僅填補了高分辨率視頻生成研究中的重要空白,還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿,為未來 UHD 視頻生成的突破奠定了基礎(chǔ)。

      團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示,UltraVideo 已全面開源,同時也開源了 UltraWan-1K/4K LoRA 權(quán)重。

      論文:https://arxiv.org/abs/2506.13691

      項目主頁:https://xzc-zju.github.io/projects/UltraVideo/

      數(shù)據(jù)集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo

      模型:https://huggingface.co/APRIL-AIGC/UltraWan

      Demo 展示:https://www.youtube.com/watch?v=KPh62pfSHLQ

      一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評論區(qū)留下你的想法!

      點亮星標(biāo)

      科技前沿進(jìn)展每日見

      相關(guān)標(biāo)簽

      最新評論

      沒有更多評論了