免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯(cuò)
加入自媒體

炸裂!單卡實(shí)時(shí)生成分鐘級(jí)長(zhǎng)視頻,北大&字節(jié)聯(lián)合推出14B大模型Helios,速度碾壓1.3B

作者:Shenghai Yuan等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

長(zhǎng)視頻防漂移的魯棒性:Helios 能夠在不依賴(lài)常見(jiàn)的防漂移啟發(fā)式方法(如自強(qiáng)制、錯(cuò)誤庫(kù)或關(guān)鍵幀采樣)的情況下,生成具有強(qiáng)時(shí)間連貫性的分鐘級(jí)視頻。這得益于明確模擬漂移和消除重復(fù)運(yùn)動(dòng)的新穎訓(xùn)練策略。

實(shí)時(shí)生成:該模型在不使用 KV 緩存、稀疏/線(xiàn)性注意力或量化等標(biāo)準(zhǔn)加速技術(shù)的情況下,實(shí)現(xiàn)了實(shí)時(shí)速度。這主要?dú)w因于對(duì)歷史和噪聲上下文的深度壓縮、采樣步驟的減少以及基礎(chǔ)設(shè)施層面的優(yōu)化。

高效訓(xùn)練:Helios 可以在沒(méi)有并行或分片框架的情況下進(jìn)行訓(xùn)練,允許圖像擴(kuò)散規(guī)模的批處理大小,同時(shí)將多達(dá)四個(gè) 14B 模型適配到 80 GB 的 GPU 內(nèi)存中。Helios 引入了一種統(tǒng)一的輸入表示,原生支持文本到視頻 (T2V)、圖像到視頻 (I2V) 和視頻到視頻 (V2V) 任務(wù)。為了解決實(shí)時(shí)長(zhǎng)視頻生成領(lǐng)域缺乏標(biāo)準(zhǔn)化評(píng)估的問(wèn)題,發(fā)布了 HeliosBench,一個(gè)全面的開(kāi)源基準(zhǔn)測(cè)試。

總結(jié)速覽

解決的問(wèn)題

在視頻生成領(lǐng)域,主流模型通常只能生成 5-10 秒的短視頻,并且生成時(shí)間長(zhǎng),難以達(dá)到實(shí)時(shí)性,更難以擴(kuò)展到更長(zhǎng)的視頻時(shí)長(zhǎng)而不會(huì)出現(xiàn)內(nèi)容漂移。盡管有一些方法聲稱(chēng)能進(jìn)行實(shí)時(shí)無(wú)限視頻生成,但它們通常依賴(lài)于容量有限的 1.3B 模型,這限制了其表示復(fù)雜運(yùn)動(dòng)和保留高頻細(xì)節(jié)的能力。此外,現(xiàn)有方法常常依賴(lài)于“訓(xùn)練即推理”的自強(qiáng)制(Self-Forcing)等抗漂移啟發(fā)式方法,這顯著增加了訓(xùn)練成本,并且漂移的魯棒性與訓(xùn)練期間使用的片段長(zhǎng)度緊密相關(guān),導(dǎo)致在訓(xùn)練范圍之外容易出現(xiàn)嚴(yán)重漂移。

提出的方案

Helios 提出了一個(gè) 14B 模型的解決方案,旨在實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)視頻生成,同時(shí)解決漂移和效率問(wèn)題。具體方案包括:

統(tǒng)一歷史注入(Unified History Injection):將長(zhǎng)視頻生成視為無(wú)限視頻延續(xù)問(wèn)題,通過(guò)表示控制(Representation Control)和引導(dǎo)注意力(Guidance Attention)高效地將歷史上下文注入噪聲上下文,從而將雙向預(yù)訓(xùn)練模型轉(zhuǎn)換為自回歸生成器。

簡(jiǎn)易抗漂移(Easy Anti-Drifting):通過(guò)分析典型的漂移模式(位置漂移、顏色漂移和恢復(fù)漂移),提出簡(jiǎn)單但有效的訓(xùn)練策略,在訓(xùn)練期間明確模擬漂移,并消除重復(fù)運(yùn)動(dòng)的根源(例如,通過(guò)相對(duì)旋轉(zhuǎn)位置編碼 Relative RoPE)。

深度壓縮流(Deep Compression Flow):通過(guò)多項(xiàng)記憶分塊(Multi-Term Memory Patchification)和金字塔統(tǒng)一預(yù)測(cè)器-校正器(Pyramid Unified Predictor Corrector)大幅壓縮歷史和噪聲上下文,并減少采樣步驟,從而顯著降低計(jì)算成本和內(nèi)存消耗。

基礎(chǔ)設(shè)施級(jí)優(yōu)化:引入了進(jìn)一步加速推理和訓(xùn)練并減少內(nèi)存消耗的優(yōu)化措施,使得 14B 模型能夠在不使用并行或分片框架的情況下進(jìn)行訓(xùn)練。

應(yīng)用的技術(shù)

Helios 融合了多種先進(jìn)技術(shù),包括:

自回歸擴(kuò)散模型:作為核心架構(gòu),Helios 是一個(gè) 14B 的自回歸擴(kuò)散模型。

統(tǒng)一輸入表示:通過(guò)統(tǒng)一輸入表示,模型原生支持文本到視頻(T2V)、圖像到視頻(I2V)和視頻到視頻(V2V)任務(wù)。

相對(duì)旋轉(zhuǎn)位置編碼(Relative RoPE):用于解決位置漂移和重復(fù)運(yùn)動(dòng)。

第一幀錨定(First-Frame Anchor):在訓(xùn)練和推理過(guò)程中保留第一幀作為全局視覺(jué)錨點(diǎn),以緩解顏色漂移。

幀感知損壞(Frame-Aware Corrupt):通過(guò)模擬歷史漂移來(lái)提高模型對(duì)不完美歷史的魯棒性。

多項(xiàng)記憶分塊(Multi-Term Memory Patchification):通過(guò)分層上下文窗口壓縮歷史上下文。

金字塔統(tǒng)一預(yù)測(cè)器-校正器(Pyramid Unified Predictor Corrector):多尺度采樣器,用于減少噪聲上下文的冗余和計(jì)算量。

對(duì)抗分層蒸餾(Adversarial Hierarchical Distillation):純教師強(qiáng)制方法,將采樣步驟從 50 減少到 3。

基礎(chǔ)設(shè)施級(jí)優(yōu)化:包括 Flash Normalization 和 Flash RoPE 等 Triton 優(yōu)化內(nèi)核。

達(dá)到的效果

Helios 在性能上取得了顯著突破:

實(shí)時(shí)性能:在單個(gè) NVIDIA H100 GPU 上,Helios 實(shí)現(xiàn)了 19.5 FPS 的實(shí)時(shí)視頻生成速度,甚至比一些 1.3B 模型更快。

分鐘級(jí)視頻生成:能夠生成分鐘級(jí)別的長(zhǎng)視頻,并保持高質(zhì)量和強(qiáng)大的時(shí)間連貫性,有效克服了傳統(tǒng)模型的漂移問(wèn)題。

高質(zhì)量輸出:在短視頻和長(zhǎng)視頻生成方面,Helios 始終優(yōu)于現(xiàn)有方法,并在視覺(jué)質(zhì)量、文本對(duì)齊和運(yùn)動(dòng)動(dòng)態(tài)方面表現(xiàn)出色。

訓(xùn)練效率:實(shí)現(xiàn)了在不使用并行或分片框架的情況下訓(xùn)練 14B 模型,批處理大小可與圖像模型相媲美。

開(kāi)放基準(zhǔn):發(fā)布了 HeliosBench,一個(gè)包含 240 個(gè)提示的測(cè)試集,涵蓋了從超短到長(zhǎng)視頻的四種時(shí)長(zhǎng)范圍,以推動(dòng)社區(qū)的進(jìn)一步發(fā)展和標(biāo)準(zhǔn)化評(píng)估。

Helios

在過(guò)去的一年里,Diffusion Transformers 極大地推動(dòng)了視頻生成的進(jìn)步,甚至展現(xiàn)出了作為“世界模型”的潛力 。但隨著大家對(duì)視頻質(zhì)量要求的提高,一個(gè)致命的痛點(diǎn)始終懸在所有開(kāi)發(fā)者和創(chuàng)作者頭頂:太慢了! 主流的視頻大模型不僅難以實(shí)現(xiàn)實(shí)時(shí)生成,而且生成的長(zhǎng)度往往被限制在 5 到 10 秒 。即便只是這短短幾秒的視頻,動(dòng)輒也需要長(zhǎng)達(dá)幾十分鐘的渲染合成時(shí)間 !這對(duì)于游戲引擎或交互式生成應(yīng)用來(lái)說(shuō),簡(jiǎn)直是噩夢(mèng) 。

但是今天,這個(gè)僵局被徹底打破!

北京大學(xué)、字節(jié)跳動(dòng)、Canva 以及成都阿努智能的研究團(tuán)隊(duì)聯(lián)合重磅推出了全新的大模型 —— Helios 。這是業(yè)界首個(gè)能夠在單張 NVIDIA H100 GPU 上,以驚人的 19.5 FPS 實(shí)時(shí)運(yùn)行的 14B 視頻生成大模型 !

它不僅支持分鐘級(jí)的超長(zhǎng)視頻生成,還在畫(huà)質(zhì)上完美媲美了強(qiáng)大的基礎(chǔ)大模型 。

破局:三大維度的“反常規(guī)”降維打擊

為什么說(shuō) Helios 是一次顛覆?因?yàn)槟壳吧鐓^(qū)里號(hào)稱(chēng)能做到“實(shí)時(shí)無(wú)限生成”的方法,大多只能依賴(lài) 1.3B 級(jí)別的小模型(比如基于 Wan2.1 1.3B) 。小模型的容量限制了它們表達(dá)復(fù)雜運(yùn)動(dòng)的能力,往往會(huì)導(dǎo)致高頻細(xì)節(jié)模糊 。

而 Helios 帶著 14B 的龐大參數(shù)量,硬生生地在三個(gè)關(guān)鍵維度實(shí)現(xiàn)了突破:

1.極致提速:不用常規(guī)加速包,照樣快到起飛 為了實(shí)現(xiàn)實(shí)時(shí)生成,現(xiàn)有模型通常會(huì)使用 KV-cache、稀疏/線(xiàn)性注意力機(jī)制或量化等標(biāo)準(zhǔn)加速技術(shù) 。但 Helios 完全拋棄了這些常規(guī)套路。

團(tuán)隊(duì)提出了“深層壓縮流(Deep Compression Flow)”,通過(guò)“多期記憶補(bǔ)丁化(Multi-Term Memory Patchification)”大幅減少了歷史上下文的冗余,又通過(guò)“金字塔統(tǒng)一預(yù)測(cè)校正器(Pyramid Unified Predictor Corrector)”減少了噪聲上下文的冗余 。這使得輸入到 DiT 的 token 數(shù)量急劇減少,將計(jì)算成本降到了與 1.3B 模型相當(dāng)甚至更低的水平。

更狠的是,他們引入了“對(duì)抗性層次蒸餾(Adversarial Hierarchical Distillation)”技術(shù),僅使用自回歸模型作為教師,將采樣步數(shù)從傳統(tǒng)的 50 步直接砍到了 3 步。

2.長(zhǎng)時(shí)保真:徹底告別長(zhǎng)視頻“崩潰” 生成長(zhǎng)視頻最怕什么?“漂移(Drifting)”!視頻一長(zhǎng),畫(huà)面位置就開(kāi)始亂跑、顏色變異、畫(huà)質(zhì)糊成一團(tuán) 。以前大家為了防漂移,不得不使用極其耗時(shí)的自強(qiáng)制(self-forcing)或誤差庫(kù)(error-banks)策略 。

Helios 給出了更優(yōu)雅的“簡(jiǎn)易防漂移(Easy Anti-Drifting)”方案 :

消除重復(fù)動(dòng)作: 使用“相對(duì)旋轉(zhuǎn)位置編碼(Relative RoPE)”解決了 RoPE 周期性與多頭注意力之間的沖突,從源頭掐斷了畫(huà)面重復(fù) 。

穩(wěn)住全局色彩: 采用“首幀錨點(diǎn)(First-Frame Anchor)”機(jī)制,在訓(xùn)練和推理中始終保留第一幀作為全局視覺(jué)錨點(diǎn),有效緩解顏色突變 。

模擬真實(shí)誤差: 提出“幀感知破壞(Frame-Aware Corrupt)”,在訓(xùn)練時(shí)主動(dòng)對(duì)歷史幀進(jìn)行曝光調(diào)整、加噪或模糊等破壞,讓模型提前適應(yīng)不完美的歷史畫(huà)面,從而極大地提升了容錯(cuò)率 。

3.極致顯存優(yōu)化:?jiǎn)慰?80G 塞下 4 個(gè) 14B 模型! 訓(xùn)練一個(gè) 14B 的視頻模型通常離不開(kāi)龐大的并行計(jì)算集群和復(fù)雜的切片框架 。但 Helios 團(tuán)隊(duì)在基礎(chǔ)設(shè)施層面進(jìn)行了極限優(yōu)化 。

令人瞠目結(jié)舌的是,他們實(shí)現(xiàn)了在不使用任何并行或分片框架的情況下,在單張 80GB 顯存的 GPU 內(nèi)最高適配了 4 個(gè) 14B 模型 !這使得模型能夠使用與圖像擴(kuò)散模型同等規(guī)模的 Batch Size 進(jìn)行訓(xùn)練,極大地降低了算力門(mén)檻 。

六邊形戰(zhàn)士:長(zhǎng)短視頻雙殺,T2V/I2V/V2V 全能 Helios 是一個(gè)原生支持多種任務(wù)的全能選手。通過(guò)統(tǒng)一的輸入表示控制,如果歷史上下文全為零,模型就執(zhí)行文本生成視頻(T2V);如果只有最后一幀非零,就執(zhí)行圖生視頻(I2V);否則執(zhí)行視頻生成視頻(V2V) 。

為了驗(yàn)證 Helios 的實(shí)力,研究團(tuán)隊(duì)還專(zhuān)門(mén)構(gòu)建了針對(duì)實(shí)時(shí)長(zhǎng)視頻生成的評(píng)測(cè)基準(zhǔn) HeliosBench,包含 240 個(gè)覆蓋不同長(zhǎng)度維度的提示詞 。

實(shí)驗(yàn)結(jié)果毫無(wú)懸念:無(wú)論是在短視頻還是長(zhǎng)視頻的生成上,Helios 始終擊敗了此前的各種先進(jìn)方法 。它不僅速度奇快,在視覺(jué)質(zhì)量、文本對(duì)齊和運(yùn)動(dòng)動(dòng)態(tài)方面都表現(xiàn)卓越 。

全面開(kāi)源!屬于社區(qū)的狂歡

在這個(gè)閉源大模型大行其道的時(shí)代,最讓人振奮的莫過(guò)于 Helios 團(tuán)隊(duì)的開(kāi)源精神。團(tuán)隊(duì)Day-0支持NPU、Diffusers、vLLM、SGLang多個(gè)推理后端,并且全面開(kāi)放了訓(xùn)練/推理代碼以及模型權(quán)重。

結(jié)語(yǔ):重塑視頻生成格局,開(kāi)啟“實(shí)時(shí)世界模型”新紀(jì)元

Helios 的出現(xiàn),打破了長(zhǎng)久以來(lái)的算力與質(zhì)量魔咒。它用硬核的成績(jī)向世界證明:百億參數(shù)規(guī)模(14B)的視頻大模型,完全可以通過(guò)極致的算法與系統(tǒng)協(xié)同優(yōu)化,在單卡 H100 上實(shí)現(xiàn)比 1.3B 小模型更快的實(shí)時(shí)推理(19.5 FPS),并輕松拿下分鐘級(jí)的超長(zhǎng)生成 ! 它在一個(gè)統(tǒng)一的框架內(nèi)完美拿下了文本生視頻(T2V)、圖生視頻(I2V)和視頻生視頻(V2V)三大核心任務(wù) ,將高質(zhì)量長(zhǎng)視頻的生成門(mén)檻,從“需要極其昂貴的算力集群”硬生生拉低到了“單卡可跑”。這不僅是一場(chǎng)底層技術(shù)的大秀,更是一張通往未來(lái)的門(mén)票。想象一下,實(shí)時(shí)交互式視頻生成、下一代動(dòng)態(tài)游戲引擎、甚至是真正的“實(shí)時(shí)世界模型(World Models)”,都因?yàn)?Helios 的突破而變得觸手可及。

參考文獻(xiàn)

[1] Helios: Real Real-Time Long Video Generation Model

       原文標(biāo)題 : 炸裂!單卡實(shí)時(shí)生成分鐘級(jí)長(zhǎng)視頻,北大&字節(jié)聯(lián)合推出14B大模型Helios,速度碾壓1.3B

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)