字節(jié)跳動(dòng)試圖打破Seedance 2.0的“不可能三角”
Seedance 2.0奪取Sora寶座后,AI視頻生成賽道進(jìn)入了狂熱與焦慮并存的階段。
哪怕功能強(qiáng)大如Seedance 2.0,仍然無(wú)法打破這個(gè)領(lǐng)域的“不可能三角”:
模型規(guī)模、生成時(shí)長(zhǎng)和推理速度總是難以同時(shí)實(shí)現(xiàn)。
想要Seedance 2.0一樣的電影級(jí)畫質(zhì),那就必須得有字節(jié)一樣的大廠設(shè)計(jì)出的百億參數(shù)多模態(tài)模型,代價(jià)則是最多15秒的視頻時(shí)長(zhǎng)、昂貴的單次生成費(fèi)用和十幾分鐘的等待時(shí)間。
想要快速出片,那就必須向參數(shù)量妥協(xié),用1B左右參數(shù)的小模型,代價(jià)則是畫面模糊、細(xì)節(jié)丟失,超過(guò)10秒就開(kāi)始崩潰。
如果無(wú)法實(shí)現(xiàn)高質(zhì)量、實(shí)時(shí)的長(zhǎng)視頻,那AI視頻生成就永遠(yuǎn)走不到電影那一步。
不過(guò),推出了Seedance 2.0這個(gè)曠世神作的字節(jié)跳動(dòng),野心遠(yuǎn)不止于此。
由北京大學(xué)和字節(jié)跳動(dòng)等機(jī)構(gòu)聯(lián)合推出的Helios大模型,正在試圖用利刃劈開(kāi)這個(gè)“不可能三角”。

Helios是首個(gè)能在單張英偉達(dá)H100顯卡上,以19.53幀/秒(FPS)的速度運(yùn)行的14B參數(shù)大模型。
這個(gè)參數(shù)量,雖然談不上輕量級(jí),但和各家AI大廠的旗艦版大語(yǔ)言模型比起來(lái),它也只能算是個(gè)“迷你版”模型。
“身材”雖然略顯瘦弱,但它的畫質(zhì)卻能匹敵當(dāng)前最強(qiáng)一檔的模型,還能用接近“實(shí)時(shí)”的速度,連貫生成長(zhǎng)達(dá)數(shù)分鐘的視頻。
01
噩夢(mèng)般的“長(zhǎng)程漂移”
使用過(guò)即夢(mèng)、可靈、Sora的用戶應(yīng)該普遍產(chǎn)生過(guò)一個(gè)疑問(wèn):為什么視頻生成最多也就10秒或者15秒?哪怕用戶再有錢,也無(wú)法打破這個(gè)限制。
實(shí)際上,這不僅是算力上的問(wèn)題,就算強(qiáng)制增加生成時(shí)間上限,生成視頻的效果恐怕也不會(huì)盡如人意:
AI生成的視頻往往在前幾秒的畫面無(wú)比驚艷,但隨著時(shí)間推移,畫面質(zhì)量就會(huì)快速下降,比如主角無(wú)法保持面部特征、肢體結(jié)構(gòu)開(kāi)始突變、背景逐漸扭曲、動(dòng)作不符合物理邏輯等等。

這就是“漂移”現(xiàn)象。
AI生成視頻的過(guò)程,其實(shí)和大語(yǔ)言模型問(wèn)答的過(guò)程類似。大語(yǔ)言模型需要根據(jù)記憶和上下文作出下一步的回答,多模態(tài)模型也需要“根據(jù)歷史,畫出未來(lái)”。
在FPS固定的情況下,視頻越來(lái)越長(zhǎng),幀數(shù)也越來(lái)越多,這就意味著AI需要從每一幀中記住的信息呈幾何倍數(shù)暴增。
而在這個(gè)過(guò)程中,哪怕前面生成的畫面只出現(xiàn)了一絲極其微小的瑕疵,也會(huì)在后續(xù)的生成中不斷被累積和放大,最終導(dǎo)致全面崩潰。
為了解決這個(gè)問(wèn)題,早期學(xué)術(shù)界想出的最直觀的方法是在訓(xùn)練AI時(shí),讓它一次性生成長(zhǎng)片段以避免瑕疵擴(kuò)大,但這種強(qiáng)化學(xué)習(xí)的方法不僅容易產(chǎn)生欠擬合和過(guò)擬合的問(wèn)題,算力消耗成本更是令人無(wú)法承擔(dān),百億參數(shù)的大模型根本用不起,10億參數(shù)已經(jīng)是極限。
因此,Helios的研究團(tuán)隊(duì)意識(shí)到,還得從視頻生成的過(guò)程中找問(wèn)題。

他們首先注意到,長(zhǎng)視頻發(fā)生崩潰往往伴隨著畫面亮度和色彩的整體失控,但視頻的開(kāi)頭幾秒往往不會(huì)發(fā)生這個(gè)問(wèn)題。
于是,“首幀錨點(diǎn)(First Frame Anchor)”機(jī)制就此誕生。
研究團(tuán)隊(duì)將視頻的第一幀錨定為整個(gè)生成過(guò)程的“定海神針”,AI在后續(xù)漫長(zhǎng)的生成過(guò)程都必須緊緊“盯住”第一幀,鎖定全局的外觀分布。
無(wú)論提示詞中要求后續(xù)畫面如何發(fā)展,第一幀確立的整體色調(diào)和人物身份都可以隨時(shí)將AI拉回正確的軌道,杜絕“畫風(fēng)突變”。
但即便如此,瑕疵的出現(xiàn)仍然是不可避免的,因此必須讓AI學(xué)會(huì)如何處理這種“不完美”。
Helios在訓(xùn)練階段采用了一個(gè)特殊的手段:幀感知破壞(Frame Aware Corrupt)。
簡(jiǎn)單來(lái)說(shuō),就是隨機(jī)向AI依賴的歷史畫面加入各種瑕疵,讓AI通過(guò)強(qiáng)化學(xué)習(xí)降低對(duì)歷史畫面的絕對(duì)依賴,并學(xué)會(huì)根據(jù)常識(shí)修復(fù)各種問(wèn)題。
經(jīng)過(guò)這種方式的訓(xùn)練,Helios對(duì)誤差的容忍度極高,視頻再長(zhǎng)也不容易崩潰。
最后一個(gè)要解決的問(wèn)題是位置偏移和重復(fù)運(yùn)動(dòng)。
AI在生成視頻過(guò)程中的位置編碼是絕對(duì)的,當(dāng)生成的視頻長(zhǎng)度超過(guò)了AI在訓(xùn)練時(shí)見(jiàn)過(guò)的最大長(zhǎng)度,注意力機(jī)制紊亂導(dǎo)致畫面會(huì)閃回到最初的位置。
Helios將位置編碼改為相對(duì)參考,不再關(guān)注“這是第X幀”,而是關(guān)注“這是過(guò)去幾幀的延續(xù)”,從根源上斬?cái)嗔藙?dòng)作的周期性重復(fù)。
02
算力的“魔術(shù)”
畫質(zhì)崩壞的問(wèn)題在軟件層面上得到了解決,但更難的挑戰(zhàn)出現(xiàn)在硬件層面上:
140億參數(shù)說(shuō)少不少,如何讓它在僅有一張顯卡的情況下實(shí)現(xiàn)19.5 FPS的實(shí)時(shí)運(yùn)行?
AI視頻生成的本質(zhì)和大語(yǔ)言模型并無(wú)區(qū)別,普遍采用的Diffusion Transformer(DiT)架構(gòu)同樣使用自注意力機(jī)制來(lái)捕捉視頻的空間細(xì)節(jié)(單幀內(nèi)容)和時(shí)間連貫性(幀間運(yùn)動(dòng))。
但由于向量空間中圖像的維度比文本更高,視頻中每一幀的內(nèi)容所需要的計(jì)算量遠(yuǎn)比大語(yǔ)言模型的一次問(wèn)答要多。視頻延長(zhǎng)短短幾秒,計(jì)算量和占用的顯存就要指數(shù)級(jí)增加,必須使用GPU集群來(lái)分?jǐn)倝毫Α?/p>
用算力換畫面質(zhì)量和視頻時(shí)長(zhǎng),Sora的關(guān)閉和Seedance 2.0發(fā)布后的“降智”已經(jīng)給出明確回答:在商業(yè)視角行不通。
Helios果斷選擇了其他路線,這套名為“深度壓縮流(Deep Compression Flow)”的底層重構(gòu)方案,從token縮減、步數(shù)蒸餾到顯存管理,幾乎榨干了GPU的所有潛能,像變魔術(shù)一樣上演了“見(jiàn)證奇跡的時(shí)刻”。
1.token視角:時(shí)空維度極限壓縮
首先要解決的是視頻上下文過(guò)長(zhǎng)導(dǎo)致爆顯存的問(wèn)題,Helios給出的解法是對(duì)時(shí)空維度進(jìn)行非對(duì)稱壓縮。
前面剛剛說(shuō)過(guò),AI生成視頻是“根據(jù)歷史,畫出未來(lái)”。因此,要準(zhǔn)備多久的“歷史資料”是一個(gè)關(guān)鍵的問(wèn)題。
對(duì)于人類來(lái)說(shuō),記憶類似于數(shù)據(jù)結(jié)構(gòu)中的“棧”,后進(jìn)先出:我們對(duì)前一秒發(fā)生的事情記憶猶新,對(duì)十分鐘前發(fā)生的事則略顯模糊。
Helios根據(jù)仿生學(xué)完全借鑒了這種多期記憶分塊的機(jī)制,將AI需要回顧的歷史畫面分成三種:短期、中期和長(zhǎng)期。

對(duì)于幾幀前剛剛過(guò)去的畫面,Helios保留最高清的細(xì)節(jié);對(duì)于多幀之前比較久遠(yuǎn)的畫面,Helios對(duì)其進(jìn)行高強(qiáng)度的壓縮,只保留最粗略的全局布局。
這個(gè)簡(jiǎn)單的思路,讓Helios在回顧非常久遠(yuǎn)的歷史畫面時(shí),消耗的token仍然能保持在一個(gè)極低的恒定水平,歷史信息的顯存占用直接壓縮到了原先的八分之一,徹底打消了單卡運(yùn)行“爆顯存”的無(wú)解難題。
在生成畫面時(shí),Helios也沒(méi)有直接在最高分辨率下開(kāi)始生成,而是采用了自底向上的開(kāi)發(fā)策略。
這類似于畫家繪畫的過(guò)程,先在低分辨率下快速勾勒出整體的顏色和布局輪廓,再逐層放大,精雕細(xì)琢邊緣和紋理等細(xì)節(jié)。
早期的去噪決定宏觀結(jié)構(gòu),后期的去噪用于優(yōu)化細(xì)節(jié),利用這種任務(wù)拆解的機(jī)制,能夠再將計(jì)算量降至一半以下。
2.步數(shù)視角:對(duì)抗性分層蒸餾
AI視頻生成之所以慢,是因?yàn)閭鹘y(tǒng)的擴(kuò)散模型需要經(jīng)過(guò)50步左右的反復(fù)去噪過(guò)程。
過(guò)去的視頻生成模型在學(xué)習(xí)如何一步到位時(shí),為了防止忘記歷史畫面而“斷片”,必須通過(guò)“模擬展開(kāi)推理”來(lái)訓(xùn)練。
模型生成一段視頻后,不僅要靠獎(jiǎng)勵(lì)模型評(píng)判好與壞,還要續(xù)寫幾段模擬未來(lái)的長(zhǎng)視頻。
毫無(wú)疑問(wèn),這樣做的結(jié)果就是耗時(shí)極長(zhǎng)和顯存爆炸。
但Helios采用的是“純教師強(qiáng)制(Pure Teacher Forcing)”模式,讓模型無(wú)需模擬未來(lái)的視頻,而是直接把海量的真實(shí)連續(xù)視頻切片作為唯一的參考標(biāo)準(zhǔn)喂給模型。
模型每次訓(xùn)練,只專注于在給定的真實(shí)歷史畫面下,“完美地畫出下一小段”,去掉了復(fù)雜的模擬過(guò)程使得訓(xùn)練效率指數(shù)級(jí)躍升。
在去噪過(guò)程中,還存在類似大語(yǔ)言模型一樣的蒸餾機(jī)制。
但知識(shí)蒸餾總是存在一個(gè)致命缺陷:學(xué)生的上限不會(huì)比老師高,但下限可能比老師低。一旦缺點(diǎn)被放大,生成視頻的質(zhì)量自然也會(huì)有所下降。
為此,Helios引入了基于真實(shí)視頻的對(duì)抗性后訓(xùn)練,如果學(xué)生經(jīng)過(guò)去噪過(guò)程產(chǎn)出的結(jié)果只是對(duì)老師的模仿,缺乏真實(shí)的物理細(xì)節(jié),就打回重做。
這種嚴(yán)格的訓(xùn)練方式,奇跡般地將原來(lái)需要50步才能實(shí)現(xiàn)的畫面保真度直接壓縮到了短短3步之內(nèi)。
3.顯存視角:重構(gòu)調(diào)度機(jī)制
GPU顯存是固定的,但模型中卻有多個(gè)子模型要串行計(jì)算。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套高級(jí)的調(diào)度機(jī)制,利用專屬的數(shù)據(jù)通道,只在GPU中保存正在計(jì)算的子模型,一旦結(jié)束計(jì)算處于閑置狀態(tài),瞬間將參數(shù)轉(zhuǎn)移到CPU中待命。

對(duì)于PyTorch等現(xiàn)代AI訓(xùn)練框架,前向計(jì)算時(shí)中間變量會(huì)被保存到顯存中以便反向傳播時(shí)使用。
研究團(tuán)隊(duì)注意到這個(gè)環(huán)節(jié)后,直接打破了框架底層的計(jì)算邏輯,只要梯度計(jì)算完成,立即手動(dòng)觸發(fā)程序并在毫秒級(jí)別內(nèi)釋放激活狀態(tài),硬是節(jié)省出了一倍以上的空閑顯存。
除此之外,官方的深度學(xué)習(xí)框架還有很多隱藏著的數(shù)據(jù)傳輸損耗。
研究團(tuán)隊(duì)為了進(jìn)一步加速視頻生成,直接繞開(kāi)了PyTorch,使用底層編譯器語(yǔ)言Triton來(lái)編寫核心代碼,甚至在傳統(tǒng)的注意力機(jī)制計(jì)算過(guò)程中,直接在內(nèi)存占用復(fù)雜度中剔除了一個(gè)乘數(shù)維度。
正是這一系列從算法底層到顯存調(diào)度的極限壓榨,讓14B參數(shù)的大模型在H100上跑出了奇跡。
03
Helios:重構(gòu)AI視頻的商業(yè)版圖
一項(xiàng)底層技術(shù)的突破,往往可能引發(fā)產(chǎn)業(yè)鏈的地震,而Helios恰好誕生于發(fā)明了Seedance 2.0的字節(jié)跳動(dòng)。
這個(gè)說(shuō)大不大、說(shuō)小不小的模型,卻具備“高質(zhì)量+實(shí)時(shí)+單卡+長(zhǎng)時(shí)間”這個(gè)前所未有的特性組合,并精準(zhǔn)擊穿了AI視頻商業(yè)化的壁壘。
Sora的關(guān)閉、Seedance 2.0發(fā)布不久后就被發(fā)現(xiàn)“降智”的事實(shí),說(shuō)明阻礙AI視頻大規(guī)模在ToC端落地的最大障礙就是高昂的價(jià)格。
近一年來(lái),市面上效果尚可的視頻生成模型,生成一次10秒左右的視頻都需要消耗極高的算力成本。
采用訂閱制的情況下,現(xiàn)有的調(diào)用量只會(huì)讓AI公司虧本;即使開(kāi)放API給B端企業(yè),不僅技術(shù)層面上存在差距,想要靠模型產(chǎn)出商業(yè)化成品所需的費(fèi)用也會(huì)讓開(kāi)發(fā)者望而卻步。
但Helios將14B模型的運(yùn)行門檻直接拉低到了單張H100,且吞吐量極高。
盡管消費(fèi)級(jí)顯卡還是無(wú)能為力,但這仍然意味著云廠商和SaaS平臺(tái)的單路并發(fā)成本將被大幅削減,而且API的商業(yè)模式可能迎來(lái)質(zhì)變。
現(xiàn)有的按生成次數(shù)付費(fèi)的積分制,未來(lái)可能轉(zhuǎn)變?yōu)楹痛笳Z(yǔ)言模型一樣的按token計(jì)費(fèi)。
只有當(dāng)生成成本足夠低時(shí),多模態(tài)模型才能從“奢侈品”變?yōu)橄翊笳Z(yǔ)言模型一樣的基礎(chǔ)設(shè)施。
Helios帶來(lái)的另一個(gè)顛覆性的商業(yè)想象,是AI視頻生成即將摘下“離線渲染”的標(biāo)簽,走向?qū)崟r(shí)互動(dòng)的引擎。
無(wú)論是Seedance 2.0還是Sora,本質(zhì)上仍然是高級(jí)的離線渲染器:用戶輸入提示詞、模型開(kāi)始生成內(nèi)容、等待一段時(shí)間、收獲一段“開(kāi)盲盒”的視頻。
這種非實(shí)時(shí)的交互,注定只能作為內(nèi)容制作的素材生產(chǎn)工具。哪怕效果再差,錢也得照樣付。
但Helios已經(jīng)展現(xiàn)出實(shí)時(shí)互動(dòng)引擎的雛形。19.5 FPS的速度和上下文的連貫記憶,簡(jiǎn)直是為交互式生成量身打造。
如果未來(lái)用戶可以在視頻生成的播放過(guò)程中動(dòng)態(tài)修改指令,將會(huì)直接打開(kāi)世界模型、沉浸式體驗(yàn)甚至具身智能等商業(yè)空間。
Helios的出現(xiàn),給整個(gè)AI視頻生成賽道的玩家都指明了新的方向:
與其通過(guò)削減參數(shù)換取生成速度,不如在記憶管理、蒸餾機(jī)制和顯存調(diào)度上多做文章。
技術(shù)的護(hù)城河,就建立在對(duì)底層架構(gòu)的極限重構(gòu)之上。
原文標(biāo)題 : 字節(jié)跳動(dòng)試圖打破Seedance 2.0的“不可能三角”
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





