中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<form id="ip3u4"><tr id="ip3u4"></tr></form>

量子位 11分鐘前

1080p 飛升 4k，浙大開源原生超高清視頻生成方案，突破 AI 視頻生成清晰度上限

為什么 AI 生成的視頻總是模糊卡頓？為什么細(xì)節(jié)紋理經(jīng)不起放大？為什么動作描述總與畫面錯位？

其中一個重要原因在于，現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于 1080P（1920 × 1080），且大部分視頻的說明（caption）簡單粗糙，不利于大模型學(xué)習(xí)。

當(dāng)主流視頻生成模型還在 720P 畫質(zhì)掙扎時，浙江大學(xué) APRIL 實驗室聯(lián)合多家高校推出的高質(zhì)量開源 UHD-4K（其中 22.4% 為 8K）文本到視頻數(shù)據(jù)集—— UltraVideo，破解了這一困局。

該數(shù)據(jù)集涵蓋廣泛主題（超過 100 種），每個視頻配備 9 個結(jié)構(gòu)化字幕及一個總結(jié)性字幕（平均 824 詞）。

作為全球首個開源 4K/8K 超高清視頻數(shù)據(jù)集，UltraVideo配合結(jié)構(gòu)化語義描述框架，讓視頻生成實現(xiàn)從 " 勉強能看 " 到 " 影院級質(zhì)感 " 的跨越式進(jìn)化。

團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型，實現(xiàn)三大突破：

原生 4K 生成：直接輸出 4K（3840 × 2160）分辨率視頻；

語義精準(zhǔn)控制：利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制；

資源高效：僅用 LoRA 輕量化訓(xùn)練，單卡可部署。

方法：四階過濾打造高質(zhì)量 4K 視頻數(shù)據(jù)集

當(dāng)前視頻生成面臨兩大瓶頸：

分辨率陷阱：模型在低清數(shù)據(jù)訓(xùn)練后，直接生成 4K 視頻會出現(xiàn)嚴(yán)重失真。如圖 2 所示，na ve Wan-T2V-1.3B 在 1080P 生成時畫質(zhì)顯著下降，而提升到 4K（2160 × 3840）分辨率時完全失效。

語義鴻溝：簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。

然而，以電影級應(yīng)用為目標(biāo)的 4K/8K 內(nèi)容生成急需超高清數(shù)據(jù)與結(jié)構(gòu)化語義視頻描述指導(dǎo)。

UltraVideo 通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷：

源頭把控：人工從 YouTube 精選 5000 部 4K/8K 原片，時長從 1 分鐘到 2 小時不等，并對視頻進(jìn)行二次人工審核，以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題，在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。

統(tǒng)計信息過濾：去 OCR 字幕、去黑邊、曝光 / 灰度檢測淘汰劣質(zhì)視頻片段

模型二次過濾：視頻美學(xué)評估、時序運動打分、視頻 - 文本一致性排序、基于 MLLM 的 16 種常見視頻缺陷過濾。

結(jié)構(gòu)化描述：基于 Qwen2.5-VL-72B 自動化 caption 管線，生成 9 類語義標(biāo)簽（鏡頭運動 / 光影 / 氛圍等），并通過 Qwen3-4B 匯總總結(jié)描述（每個視頻平均 824 個單詞）。

最終，團(tuán)隊獲得了 3s-10s 的 42k 短視頻和 10 秒以上的 17k 長視頻，其中 8K 視頻占比 22.4%，以支持未來更高分辨率的研究。

視頻的主題多樣性對視頻模型的訓(xùn)練效果至關(guān)重要。團(tuán)隊對 Koala-36M 的標(biāo)題進(jìn)行了名詞統(tǒng)計，經(jīng)由 LLMs 和人工處理確認(rèn)后，獲得了七個主要主題（108 個主題），即視頻場景、主體、動作、時間事件、攝像機運動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進(jìn)行的統(tǒng)計分析。

實測：小樣本撬動 4K 生成

基于 UltraVideo 數(shù)據(jù)集，團(tuán)隊在中小規(guī)模的 Wan-T2V-1.3B 上進(jìn)行實驗。

團(tuán)隊驚訝發(fā)現(xiàn)，僅用 42K 包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。

由于團(tuán)隊僅使用 LoRA 進(jìn)行微調(diào)，并未涉及模型結(jié)構(gòu)的修改，相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他 T2V 模型上。

此外，由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢，團(tuán)隊從 VBench 中隨機抽取了十分之一（ 96）的提示進(jìn)行測試。

如表 4 所示，團(tuán)隊比較了五個模型：（1）官方 Wan-T2V-1.3B 模型，分辨率為 480 × 832（2）將分辨率提高到 1K（1088 × 1920）（3）1K 全參數(shù)微調(diào)（4）1K LoRA PEFT。（5）4K LoRA PEFT

結(jié)果顯示，

1、將官方模型擴展到 1K 會導(dǎo)致性能顯著下降。

2、基于 UltraWan-1K 的全參數(shù)訓(xùn)練顯著提升了 1K 分辨率下的生成效果。但與原生模型相比，訓(xùn)練超參數(shù)（如批大小和提示）的差異可能導(dǎo)致其整體結(jié)果略差于基于 UltraWan-1K 的 LoRA 模型。考慮到訓(xùn)練成本，研究團(tuán)隊推薦使用基于 LoRA 的 UltraWan-1K 方案。

3、更高的 UltraWan-4K 模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率（推理使用 33 幀以確保時間超過 1 秒）導(dǎo)致某些指標(biāo)與 UltraWan-1K 相比有所下降。

團(tuán)隊基于 42K 精選視頻微調(diào)的 UltraWan-4K 模型，實現(xiàn)三大突破——原生 4K 生成：直接輸出 4K（3840 × 2160）分辨率視頻；語義精準(zhǔn)控制：利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制；資源高效：僅用 LoRA 輕量化訓(xùn)練，單卡可部署。

下圖展示了定性的效果對比。官方的 Wan-T2V-1.3B 無法直接生成高分辨率 1K 視頻，而 UltraWan 能夠處理語義一致的 1K/4K 生成任務(wù)。

這是首次證明，少量極致質(zhì)量數(shù)據(jù)，能突破視頻生成的分辨率天花板。

在 UltraVideo 中，通過調(diào)整分辨率、幀率和音頻，它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù)，例如探索低級 UHD 視頻超分辨率、幀插值、編解碼器，以及高級視頻編輯、逐幀處理、音樂生成。

這項工作不僅填補了高分辨率視頻生成研究中的重要空白，還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿，為未來 UHD 視頻生成的突破奠定了基礎(chǔ)。

團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示，UltraVideo 已全面開源，同時也開源了 UltraWan-1K/4K LoRA 權(quán)重。

論文：https://arxiv.org/abs/2506.13691

項目主頁：https://xzc-zju.github.io/projects/UltraVideo/

數(shù)據(jù)集：https://huggingface.co/datasets/APRIL-AIGC/UltraVideo

模型：https://huggingface.co/APRIL-AIGC/UltraWan

Demo 展示：https://www.youtube.com/watch?v=KPh62pfSHLQ

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

點亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標(biāo)簽

分辨率

相關(guān)閱讀

蘋果面臨人工智能內(nèi)部危機：頂級專家離職團(tuán)隊動搖

數(shù)碼測評 35分鐘前

超級APP戰(zhàn)爭：阿里京東美團(tuán)們的終章

鈦媒體 50分鐘前

IDC：中國AIIaaS市場阿里云占比第一

36氪 1小時前

管理的陳詞濫調(diào)和未來的管理適應(yīng)

鈦媒體 1小時前

黃金狂飆后，鉑金也在逆襲

鈦媒體 1小時前

AX電競叛客首秀黑色50系顯卡！RTX 5050 X2B發(fā)布登場

快科技 1小時前

最強拍照手機易主！OPPO Find X8 Ultra DXO拍照評分169：世界第一

數(shù)碼測評 5小時前

黃子韜吳彥祖做“帶貨天團(tuán)”，遙望科技為何血虧幾十億？

鈦媒體 2小時前

曝REDMI高性能手機突破8000mAh：小米史上最大

快科技 4小時前

告別激進(jìn)？H&M中國戰(zhàn)略變了

讀覽精華 4小時前

瘋狂！硅谷千萬美元薪酬戰(zhàn)開打！OpenAI被Meta一周挖走八員大將，直呼“被偷家”

財經(jīng)新聞 13小時前

Apple Music問世十周年全新工作室空間項目正式啟動

數(shù)碼測評 14小時前

螞蟻集團(tuán)披露AI普惠進(jìn)展：三大AI管家已服務(wù)超1.3億用戶，43%來自三線及以下城市

36氪昨天

特斯拉完成全球首次全自動駕駛交付

ZAKER汽車昨天

3299元！華為Pura 80 Ultra鐵頭攝影套裝開售：全球首創(chuàng)自帶路電手機殼

快科技昨天

最新評論

沒有更多評論了

量子位

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

藍(lán)鯊財經(jīng)社

追求最新的AI技術(shù)與財經(jīng)商業(yè)領(lǐng)域結(jié)合

Blockchain News

<source id="w4fkj"><tr id="w4fkj"></tr></source>