123,123,123

4月21日，昆侖萬(wàn)維SkyReels團(tuán)隊(duì)正式發(fā)布并開(kāi)源SkyReels-V2——首個(gè)使用擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架的無(wú)限時(shí)長(zhǎng)電影生成模型，其通過(guò)結(jié)合多模態(tài)大語(yǔ)言模型(MLLM)、多階段預(yù)訓(xùn)練(Multi-stage Pretraining)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)和擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架來(lái)實(shí)現(xiàn)協(xié)同優(yōu)化。

回顧過(guò)去一年，視頻生成技術(shù)在擴(kuò)散模型和自回歸框架的推動(dòng)下取得了顯著進(jìn)展，但在提示詞遵循、視覺(jué)質(zhì)量、運(yùn)動(dòng)動(dòng)態(tài)和視頻時(shí)長(zhǎng)的協(xié)調(diào)上仍面臨重大挑戰(zhàn)。

現(xiàn)有技術(shù)在提升穩(wěn)定的視覺(jué)質(zhì)量時(shí)往往犧牲運(yùn)動(dòng)動(dòng)態(tài)效果，為了優(yōu)先考慮高分辨率而限制視頻時(shí)長(zhǎng)(通常為5-10秒)，并且由于通用多模態(tài)大語(yǔ)言模型(MLLM)無(wú)法解讀電影語(yǔ)法(如鏡頭構(gòu)圖、演員表情和攝像機(jī)運(yùn)動(dòng))，導(dǎo)致鏡頭感知生成能力不足。這些相互關(guān)聯(lián)的限制阻礙了長(zhǎng)視頻的逼真合成和專業(yè)電影風(fēng)格的生成。

為了解決這些痛點(diǎn)，SkyReels-V2應(yīng)運(yùn)而生，它不僅在技術(shù)上實(shí)現(xiàn)了突破，還提供多了多種有用的應(yīng)用場(chǎng)景，包括故事生成、圖生視頻、運(yùn)鏡專家和多主體一致性視頻生成(SkyReels-A2)。

SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻，且具備生成高運(yùn)動(dòng)質(zhì)量、高一致性、高保真視頻的能力。

核心技術(shù)創(chuàng)新，邁入“無(wú)限時(shí)長(zhǎng)、影視級(jí)質(zhì)量、精準(zhǔn)控制”的全新視頻生成階段

SkyReels-V2方法概述

SkyReels-V2能夠達(dá)到這樣的視頻生成效果，源于其多項(xiàng)創(chuàng)新技術(shù)：

1.全面的影視級(jí)視頻理解模型：SkyCaptioner-V1

為了提高提示詞遵循能力，團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)構(gòu)化的視頻表示方法，將多模態(tài)LLM的一般描述與子專家模型的詳細(xì)鏡頭語(yǔ)言相結(jié)合。這種方法能夠識(shí)別視頻中的主體類型、外觀、表情、動(dòng)作和位置等信息，同時(shí)通過(guò)人工標(biāo)注和模型訓(xùn)練，進(jìn)一步提升了對(duì)鏡頭語(yǔ)言的理解能力。

同時(shí)，團(tuán)隊(duì)訓(xùn)練了一個(gè)統(tǒng)一的視頻理解模型 SkyCaptioner-V1，它能夠高效地理解視頻數(shù)據(jù)，生成符合原始結(jié)構(gòu)信息的多樣化描述。通過(guò)這種方式，SkyCaptioner-V1不僅能夠理解視頻的一般內(nèi)容，還能捕捉到電影場(chǎng)景中的專業(yè)鏡頭語(yǔ)言，從而顯著提高了生成視頻的提示詞遵循能力。此外，這個(gè)模型現(xiàn)在已經(jīng)開(kāi)源，可以直接使用。

在視頻理解測(cè)試集上的模型綜合性能比較中，SkyCaptioner-V1表現(xiàn)優(yōu)異，超越了SOTA的模型。

2.針對(duì)運(yùn)動(dòng)的偏好優(yōu)化

現(xiàn)有的視頻生成模型在運(yùn)動(dòng)質(zhì)量上表現(xiàn)不佳，主要原因是優(yōu)化目標(biāo)未能充分考慮時(shí)序一致性和運(yùn)動(dòng)合理性。團(tuán)隊(duì)通過(guò)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練，使用人工標(biāo)注和合成失真數(shù)據(jù)，解決了動(dòng)態(tài)扭曲、不合理等問(wèn)題。為了降低數(shù)據(jù)標(biāo)注成本，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)半自動(dòng)數(shù)據(jù)收集管道，能夠高效地生成偏好對(duì)比數(shù)據(jù)對(duì)。

通過(guò)這種方式，SkyReels-V2在運(yùn)動(dòng)動(dòng)態(tài)方面表現(xiàn)優(yōu)異，能夠生成流暢且逼真的視頻內(nèi)容，滿足電影制作中對(duì)高質(zhì)量運(yùn)動(dòng)動(dòng)態(tài)的需求。

3.高效的擴(kuò)散強(qiáng)迫框架

為了實(shí)現(xiàn)長(zhǎng)視頻生成能力，團(tuán)隊(duì)提出了一種擴(kuò)散強(qiáng)迫(diffusion forcing)后訓(xùn)練方法。與從零開(kāi)始訓(xùn)練擴(kuò)散強(qiáng)迫模型不同，團(tuán)隊(duì)通過(guò)微調(diào)預(yù)訓(xùn)練的擴(kuò)散模型，將其轉(zhuǎn)化為擴(kuò)散強(qiáng)迫模型。這種方法不僅減少了訓(xùn)練成本，還顯著提高了生成效率。

團(tuán)隊(duì)采用非遞減噪聲時(shí)間表，將連續(xù)幀的去噪時(shí)間表搜索空間從 O(1e48)降低到 O(1e32)，從而實(shí)現(xiàn)了長(zhǎng)視頻的高效生成。這一創(chuàng)新使得SkyReels-V2能夠生成幾乎無(wú)限時(shí)長(zhǎng)的高質(zhì)量視頻內(nèi)容。

4.漸進(jìn)式分辨率預(yù)訓(xùn)練與多階段后訓(xùn)練優(yōu)化

為了開(kāi)發(fā)一個(gè)專業(yè)的影視生成模型，團(tuán)隊(duì)的多階段質(zhì)量保證框架整合了來(lái)自三個(gè)主要來(lái)源的數(shù)據(jù)：

通用數(shù)據(jù)集：整合了開(kāi)源資源，包括Koala-36M、HumanVid，以及從互聯(lián)網(wǎng)爬取的額外視頻資源。這些數(shù)據(jù)提供了廣泛的基礎(chǔ)視頻素材，涵蓋了多種場(chǎng)景和動(dòng)作。

自收集媒體：包括280,000多部電影和800,000多集電視劇，覆蓋120多個(gè)國(guó)家(估計(jì)總時(shí)長(zhǎng)超過(guò)620萬(wàn)小時(shí))。這些數(shù)據(jù)為模型提供了豐富的電影風(fēng)格和敘事結(jié)構(gòu)。

藝術(shù)資源庫(kù)：從互聯(lián)網(wǎng)獲取的高質(zhì)量視頻資產(chǎn)，確保生成內(nèi)容的視覺(jué)質(zhì)量達(dá)到專業(yè)標(biāo)準(zhǔn)。

原始數(shù)據(jù)集規(guī)模達(dá)到億級(jí)(O(100M))，不同子集根據(jù)質(zhì)量要求在各個(gè)訓(xùn)練階段使用。此外，團(tuán)隊(duì)還收集了億級(jí)的概念平衡圖像數(shù)據(jù)，以加速早期訓(xùn)練中生成能力的建立。在此數(shù)據(jù)基礎(chǔ)上，團(tuán)隊(duì)首先通過(guò)漸進(jìn)式分辨率預(yù)訓(xùn)練建立基礎(chǔ)視頻生成模型，然后進(jìn)行四階段的后續(xù)訓(xùn)練增強(qiáng)：

初始概念平衡的監(jiān)督微調(diào)(SFT)：通過(guò)概念平衡的數(shù)據(jù)集進(jìn)行微調(diào)，為后續(xù)優(yōu)化提供良好的初始化。

運(yùn)動(dòng)特定的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練：通過(guò)偏好優(yōu)化提升運(yùn)動(dòng)動(dòng)態(tài)質(zhì)量。

擴(kuò)散強(qiáng)迫框架(DF)：實(shí)現(xiàn)長(zhǎng)視頻生成能力。

高質(zhì)量SFT：進(jìn)一步提升視覺(jué)保真度。

結(jié)合富含影視級(jí)別數(shù)據(jù)和多階段優(yōu)化方法，團(tuán)隊(duì)確保了SkyReels-V2在資源有限的情況下，高效的穩(wěn)步提升多方面的表現(xiàn)，達(dá)到影視級(jí)視頻生成的水準(zhǔn)。

在SkyReels-Bench和V-Bench評(píng)估中，性能表現(xiàn)卓越

為了全面評(píng)估SkyReels-V2的性能，團(tuán)隊(duì)構(gòu)建了SkyReels-Bench用于人類評(píng)估，并利用開(kāi)源的V-Bench進(jìn)行自動(dòng)化評(píng)估。這種雙重評(píng)估框架使我們能夠系統(tǒng)地比較SkyReels-V2和其他最先進(jìn)的基線模型(包括開(kāi)源和閉源模型)。

1. SkyReels-Bench評(píng)估

SkyReels-Bench包含1020個(gè)文本提示詞，系統(tǒng)性地評(píng)估了四個(gè)關(guān)鍵維度：指令遵循、運(yùn)動(dòng)質(zhì)量、一致性和視覺(jué)質(zhì)量。該基準(zhǔn)旨在評(píng)估文本到視頻(T2V)和圖像到視頻(I2V)生成模型，提供跨不同生成范式的全面評(píng)估。

在SkyReels-Bench評(píng)估中，SkyReels-V2在指令遵循方面取得了顯著進(jìn)展，同時(shí)在保證運(yùn)動(dòng)質(zhì)量的同時(shí)不犧牲視頻的一致性效果。具體表現(xiàn)如下：

指令遵循：SkyReels-V2在運(yùn)動(dòng)指令、主體指令、空間關(guān)系、鏡頭類型、表情和攝像機(jī)運(yùn)動(dòng)的遵循上均優(yōu)于基線方法。

運(yùn)動(dòng)質(zhì)量：在運(yùn)動(dòng)動(dòng)態(tài)性、流暢性和物理合理性方面，SkyReels-V2表現(xiàn)出色，生成的運(yùn)動(dòng)內(nèi)容自然且多樣。

一致性：主體和場(chǎng)景在整個(gè)視頻中保持高度一致，運(yùn)動(dòng)過(guò)程有較高的保真度。

視覺(jué)質(zhì)量：生成視頻在視覺(jué)清晰度、色彩準(zhǔn)確性和結(jié)構(gòu)完整性上均達(dá)到高水平，無(wú)明顯扭曲或損壞。

在SkyReels-Bench的T2V多維度人工評(píng)測(cè)集下，SkyReels-V2在指令遵循和一致性得到最高水準(zhǔn)，同時(shí)在視頻質(zhì)量和運(yùn)動(dòng)質(zhì)量上保持第一梯隊(duì)。

2. VBench1.0結(jié)果

在VBench1.0自動(dòng)化評(píng)估中，SkyReels-V2在總分(83.9%)和質(zhì)量分(84.7%)上均優(yōu)于所有對(duì)比模型，包括HunyuanVideo-13B和Wan2.1-14B。這一結(jié)果進(jìn)一步驗(yàn)證了SkyReels-V2在生成高保真、指令對(duì)齊的視頻內(nèi)容方面的強(qiáng)大能力。

在V-bench1.0的長(zhǎng)prompt版本下，SkyReels-V2超越了所有的開(kāi)源模型，包括HunyuanVideo-13B和Wan2.1-14B。

豐富的應(yīng)用場(chǎng)景，賦能創(chuàng)意實(shí)現(xiàn)

SkyReels-V2不僅在技術(shù)上實(shí)現(xiàn)了突破，還為多個(gè)實(shí)際應(yīng)用場(chǎng)景提供了強(qiáng)大的支持：

1.故事生成

SkyReels-V2能夠生成理論上無(wú)限時(shí)長(zhǎng)的視頻，通過(guò)滑動(dòng)窗口方法，模型在生成新幀時(shí)會(huì)參考之前生成的幀和文本提示。為了防止錯(cuò)誤積累，團(tuán)隊(duì)采用了穩(wěn)定化技術(shù)，通過(guò)在之前生成的幀上添加輕微噪聲來(lái)穩(wěn)定生成過(guò)程。這種方法不僅支持時(shí)間上的擴(kuò)展，還能生成具有連貫敘事的長(zhǎng)鏡頭視頻。

通過(guò)一系列敘事文本提示，SkyReels-V2能夠編排一個(gè)連貫的視覺(jué)敘事，跨越多個(gè)動(dòng)作場(chǎng)景，同時(shí)保持視覺(jué)一致性。這種能力確保了場(chǎng)景之間的平滑過(guò)渡，使得動(dòng)態(tài)敘事更加流暢，而不會(huì)影響視覺(jué)元素的完整性。這一功能特別適合需要復(fù)雜多動(dòng)作序列的應(yīng)用，如電影制作和廣告創(chuàng)作。

2.圖像到視頻合成

SkyReels-V2提供了兩種圖像到視頻(I2V)的生成方法：

微調(diào)全序列文本到視頻(T2V)擴(kuò)散模型(SkyReels-V2-I2V)：通過(guò)將輸入圖像作為條件注入T2V架構(gòu)中，模型能夠利用參考幀進(jìn)行后續(xù)生成。這種方法在384個(gè)GPU上僅需10,000次訓(xùn)練迭代即可取得和閉源模型同等級(jí)的效果。

擴(kuò)散強(qiáng)迫模型與幀條件結(jié)合(SkyReels-V2-DF)：通過(guò)將第一幀作為干凈的參考條件輸入擴(kuò)散框架，無(wú)需顯式重新訓(xùn)練即可保持時(shí)間一致性。

在SkyReels-Bench的I2V多維度人工評(píng)測(cè)集下，SkyReels-V2在所有質(zhì)量維度上均優(yōu)于其他開(kāi)源模型，并與閉源模型表現(xiàn)相當(dāng)。

3.攝像導(dǎo)演功能

SkyReels-V2在標(biāo)注攝像機(jī)運(yùn)動(dòng)方面表現(xiàn)出色，但團(tuán)隊(duì)發(fā)現(xiàn)攝像機(jī)運(yùn)動(dòng)數(shù)據(jù)的固有不平衡對(duì)進(jìn)一步優(yōu)化攝影參數(shù)提出了挑戰(zhàn)。為此，團(tuán)隊(duì)專門(mén)篩選了約100萬(wàn)個(gè)樣本，確保基本攝像機(jī)運(yùn)動(dòng)及其常見(jiàn)組合的平衡表示。通過(guò)在384個(gè)GPU上進(jìn)行3,000次迭代的微調(diào)實(shí)驗(yàn)，團(tuán)隊(duì)顯著提升了攝影效果，特別是在攝像機(jī)運(yùn)動(dòng)的流暢性和多樣性方面。

4.元素到視頻生成

基于SkyReels-V2基座模型，團(tuán)隊(duì)研發(fā)了SkyReels-A2方案，并提出了一種新的多元素到視頻(E2V)任務(wù)，能夠?qū)⑷我庖曈X(jué)元素(如人物、物體和背景)組合成由文本提示引導(dǎo)的連貫視頻，同時(shí)確保對(duì)每個(gè)元素的參考圖像的高保真度。這一功能特別適合短劇、音樂(lè)視頻和虛擬電商內(nèi)容創(chuàng)作等應(yīng)用。

作為首個(gè)商業(yè)級(jí)E2V開(kāi)源模型，SkyReels-A2在E2V評(píng)估Benchmark A2-Bench中的結(jié)果表明，其一致性和質(zhì)量維度上評(píng)估與閉源模型相當(dāng)。未來(lái)，團(tuán)隊(duì)計(jì)劃擴(kuò)展框架以支持更多輸入模態(tài)，如音頻和動(dòng)作，旨在構(gòu)建一個(gè)統(tǒng)一的視頻生成系統(tǒng)，以支持更廣泛的應(yīng)用。

SkyReels-V2的推出標(biāo)志著視頻生成技術(shù)邁入了一個(gè)新的階段，為實(shí)現(xiàn)高質(zhì)量、長(zhǎng)時(shí)間的電影風(fēng)格視頻生成提供了全新的解決方案。它不僅為內(nèi)容創(chuàng)作者提供了強(qiáng)大的工具，更開(kāi)啟了利用AI進(jìn)行視頻敘事和創(chuàng)意表達(dá)的無(wú)限可能。

昆侖萬(wàn)維SkyReels團(tuán)隊(duì)仍致力于推動(dòng)視頻生成技術(shù)的發(fā)展，并將SkyCaptioner-V1和SkyReels-V2系列模型(包括擴(kuò)散強(qiáng)迫、文本到視頻、圖像到視頻、攝像導(dǎo)演和元素到視頻模型)的各種尺寸(1.3B、5B、14B)進(jìn)行完全開(kāi)源，以促進(jìn)學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究和應(yīng)用。