直播革命來了!StreamDiffusionV2:140億參數實時視頻飆上58FPS!伯克利&韓松團隊等
作者:Tianrui Feng等
解讀:AI生成未來

亮點直擊
StreamDiffusionV2,這是一個免訓練的流式系統,專為視頻擴散模型設計,用于實現動態交互式的視頻生成。
巧妙整合了SLO-aware批處理調度器、塊調度器、sink-token引導的滾動KV緩存以及運動感知噪聲控制器等創新組件,同時引入可擴展的pipeline編排機制。
該系統首次在多GPU環境下實現了實時SLO約束下的高效生成,支持從單個創作者到企業級平臺的廣泛應用場景。顯著提升了視頻生成的時效性和質量穩定性,推動了AI驅動的直播流媒體向下一代發展。
圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同,實時流視頻生成的目標是縮短 "到第一幀的時間",并以較低的延遲生成連續輸出
總覽
效果展示
注:從左上到右下:參考視頻、StreamDiffusion、Causvid、StreamDiffusionV2
解決的問題
現有視頻擴散模型雖在離線生成中表現出色,但難以適應實時直播流媒體的嚴格要求。具體而言,有以下四大挑戰:
一是無法滿足實時SLO(如最小化首幀時間和每幀截止期限);
二是長時序生成中出現漂移,導致視覺一致性下降;
三是在高速動態場景下產生運動撕裂和模糊;
四是多GPU擴展性差,無法在異構環境中實現線性FPS提升。
這些問題源于現有系統對離線批處理優化的偏向,而忽略了在線流媒體的無限輸入和低抖動需求。本工作通過系統級優化,填補了這一空白。
提出的方案
StreamDiffusionV2,這是一個端到端的免訓練pipeline,將高效視頻擴散模型轉化為實時交互式應用。其核心在于兩層優化:一是實時調度與質量控制,包括SLO-aware批處理調度器(動態調整批大小以滿足截止期限)、自適應sink和RoPE刷新(防止長時序漂移)以及運動感知噪聲調度器(根據運動幅度適應去噪路徑);二是可擴展pipeline編排,通過并行去噪步驟和網絡階段,實現跨GPU的近線性加速。此外,系統還融入了DiT塊調度器、Stream-VAE和異步通信重疊等輕量優化,確保長時序流媒體的高利用率和穩定性。
應用的技術
StreamDiffusionV2的實現融合了以下關鍵技術:
SLO感知的批處理調度器 (SLO-aware batching scheduler): 為了在滿足SLO的同時最大化GPU利用率,調度器根據目標幀率 和當前硬件負載,動態調整批大小 。調度器通過調整 ,使系統的工作點逼近硬件屋頂線模型(roofline model)的“膝點”,從而實現吞吐量最大化。
自適應sink與RoPE刷新 (Adaptive sink and RoPE refresh): 為應對漂移,系統根據新塊嵌入 與舊sink集 的余弦相似度 來決定是否更新sink token。同時,當幀索引 超過預設閾值 時,周期性地重置RoPE相位 ,以消除累積的位置誤差。
運動感知的噪聲調度器 (Motion-aware noise scheduler): 通過計算連續潛在幀 之間的L2范數來估計運動強度 ,然后對歸一化后的運動強度 使用指數移動平均(EMA)來平滑地更新當前幀的噪聲率 ,這使得高運動區域的去噪更保守,低運動區域的去噪更精細。
可擴展的pipeline編排 (Scalable pipeline orchestration): 將DiT模塊跨GPU進行劃分,每個GPU作為一個微步(micro-step)處理其輸入,并在一個環形結構中將結果傳遞給下一個GPU。這允許多個階段并發執行,實現近線性的吞吐量加速。
系統級協同設計: 還包括動態DiT塊調度器(根據實時耗時動態重分配模塊以平衡負載)、Stream-VAE(為流式處理優化的低延遲VAE變體)和異步通信重疊(使用獨立的CUDA流隱藏GPU間通信延遲)。
達到的效果
StreamDiffusionV2在無需TensorRT或量化的情況下,實現了0.5秒內首幀渲染,并在4個H100 GPU上以14B參數模型達到58.28 FPS,以1.3B參數模型達到64.52 FPS。即使增加去噪步驟以提升質量,仍保持31.62 FPS(14B)和61.57 FPS(1.3B)。系統在不同分辨率、去噪步數和GPU規模下表現出色,支持從低延遲到高品質的靈活權衡,并在CLIP分數(98.51)和Warp Error(73.31)等指標上超越基線,顯著改善長時序一致性和運動處理能力。

方法
StreamDiffusionV2,這是一個無需訓練的流式系統,它同時實現了實時的效率和長時序的視覺穩定性。從高層次來看,本工作的設計基于兩個關鍵的優化層面:
(1)實時調度與質量控制,它協同整合了服務等級目標(SLO)感知的批處理、自適應的sink與RoPE刷新、以及運動感知的噪聲調度,以滿足每幀的截止期限,同時維持長時序的時序連貫性和視覺保真度;
(2)可擴展的pipeline編排,它通過跨去噪步驟和網絡階段進行并行化,以實現近線性的FPS擴展,且不違反延遲保證。此外,還探討了數個輕量級的系統級優化,包括DiT塊調度器、Stream-VAE和異步通信重疊,它們進一步增強了長時間運行的直播流的吞吐量和穩定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調度器(控制輸入大小)與pipeline協調配對,以平衡延遲和 FPS,確保每個幀在嚴格的服務限制條件下滿足其截止日期和 TTFF。(2) 質量。我們部署了運動感知噪聲控制器,以減輕高速撕裂,并將自適應匯令牌與 RoPE 刷新相結合,以提供高質量的用戶交互和數小時級的流媒體穩定性。
實時調度和質量控制
如圖6所示,StreamDiffusionV2通過三個關鍵組件實現實時視頻生成:
(1)一個SLO感知的批處理調度器,它動態調整流批次的大小,以滿足每幀的截止期限,同時最大化GPU的利用率;
(2)一個自適應的sink和RoPE刷新機制,通過周期性地重置時序錨點和位置偏移來緩解長時序漂移;
(3)一個運動感知的噪聲調度器,它根據運動的幅度來調整去噪軌跡,確保在多樣的運動狀態下都能保持清晰度和時序穩定性。
SLO感知的批處理調度器 (SLO-aware batching scheduler) 。為了在最大化GPU利用率的同時滿足服務等級目標(SLO),本文提出了一個SLO感知的批處理調度器,用于動態調整批大小。給定一個目標幀率 ,系統每個迭代處理 幀,其整體推理延遲取決于塊大小T 和批大小B ,記為L(T,B)。為確保實時處理,乘積B.T不能超過已從輸入流中收集的幀數。正如第3節所分析的,模型運行在內存受限的區域,推理延遲可以近似為:

其中A((T,B)表示激活內存的占用,Pmodel代表模型參數的內存體積,而"BWmm 是有效內存帶寬,其利用因子為 ("(0<η≤1))。在使用FlashAttention時,激活項 A(T,B) 以 O(BT) 線性擴展,導致延遲 L(T,B)成比例增長。因此,實現的處理頻率可以表示為 f= BT/L(T,B) ,它隨著批大小 的增大而增加,因為GPU的利用率得到了提升。當系統接近屋頂線模型(圖4)的膝點——標志著從內存受限到計算受限的過渡——調度器會自適應地收斂到一個最優的批大小 ,從而最大化吞吐效率。
圖 4 序列并行性和pipeline編排的 Roofline 分析
自適應的sink和RoPE刷新 (Adaptive sink and RoPE refresh) 。為了解決第3節中討論的漂移問題,本文引入了一種自適應的sink token更新和RoPE刷新策略,它們共同維持了連續視頻生成過程中的長時序穩定性。與之前的方法如Self-Forcing不同,StreamDiffusionV2根據不斷演變的提示語義動態地更新sink tokens。令 表示在塊 處的sink集。給定一個新的塊嵌入 ,系統會計算相似度得分 并刷新最不相似的sink:如果 ,則 ,否則 ,其中 是一個相似度閾值。在實踐中,本文發現 應設置得較大,以確保持續與演變的文本對齊。為了防止因長時間序列中累積的RoPE偏移導致的位置漂移,本文周期性地在當前幀索引 超過閾值 時重置RoPE相位,即,若 ,則 ,否則 。
運動感知的噪聲調度器 (Motion-aware noise scheduler) 。為了處理直播視頻中多樣的運動動態,本文提出了一個運動感知的噪聲調度器,它根據近期幀的估計運動幅度,自適應地調節去噪的噪聲率。

如圖8所示,本文使用幀間差異度量來估計連續幀之間的運動幅度。給定連續的潛在幀 ,運動強度 為:

為了在一個較短的時間窗口(k幀)內穩定這個測量值,本文通過一個統計尺度因子 將其歸一化,并裁剪到[0, 1]區間內:

歸一化后的 決定了系統應該以多大的強度去噪當前的塊。一個較高的 (快速運動)對應一個更保守的去噪計劃,而一個較低的 (慢速或靜態運動)則允許更強的細化以獲得更銳利的細節。最后,本文使用指數移動平均(EMA)來平滑噪聲率 ,以確保漸進的時序過渡:

其中 0<λ<1 控制更新率,而 Smax和Smin分別表示噪聲率的上下界。
可擴展的pipeline編排
多pipeline編排擴展 (Multi-pipeline orchestration extension) 。為了在多GPU平臺上提升系統吞吐量,本文提出了一種可擴展的pipeline編排方案用于并行推理。具體來說,DiT的模塊被劃分到不同的設備上。如圖7所示,每個設備將其輸入序列作為一個微步(micro-step)進行處理,并在一個環形結構內將結果傳輸到下一個階段。這使得模型的連續階段能夠以pipeline并行的方式并發運行,從而在DiT的吞吐量上實現近線性的加速。

圖 7 我們的pipeline-并行流-批處理架構的詳細設計。DiT 模塊分布在多個設備上以實現pipeline并行,而 Stream-Batch 策略則應用于每個階段。不同顏色表示不同的潛流,說明了通信結構,深度表示相應的噪音水平。本文實現保證了在推理過程中的每個微步驟都能生成干凈的潛變量。
值得注意的是,pipeline并行推理增加了階段間的通信,這與激活流量一起,使得工作負載保持在內存受限狀態。為了應對這一點并仍然滿足實時約束,本文將SLO感知的批處理機制擴展到了多pipeline設置,并將其與批-去噪策略相結合。具體地,本文在每個微步(圖7)都會產生一個精細去噪的輸出,同時將n個去噪步驟視為一個有效的批次乘數,從而得到一個精煉的延遲模型 。調度器會根據觀察到的端到端延遲持續調整B,以使每個流的速率滿足 ,而聚合的吞吐量則逼近帶寬的屋頂線。
高效的系統-算法協同設計
DiT塊調度器 (DiT block scheduler) 。靜態分區常常會產生不均衡的工作負載,因為第一個和最后一個排名除了處理DiT塊外,還要處理VAE的編碼和解碼,如圖13(a)所示。這種不平衡會導致pipeline停頓和利用率降低。本文引入了一個輕量級的、在推理時運行的DiT塊調度器,它根據測量的執行時間動態地在設備之間重新分配模塊。該調度器會搜索一個最優的分區方案,以最小化每個階段的延遲,如圖13(b)所示,從而顯著減少了整體的pipeline氣泡。

Stream-VAE。StreamDiffusionV2集成了一個為流式推理設計的低延遲Video-VAE變體。Stream-VAE不是編碼長序列,而是處理短的視頻塊(例如4幀),并在每個3D卷積內部緩存中間特征,以維持時序的連貫性。
異步通信重疊 (Asynchronous communication overlap) 。為了進一步減少同步停頓,每個GPU都維護兩個CUDA流:一個計算流和一個通信流。GPU間的傳輸是異步執行的,與本地計算重疊以隱藏通信延遲。這種雙流設計使每個設備的計算節奏與其通信帶寬保持一致,有效地緩解了殘余的氣泡,并在多GPUpipeline中保持了高利用率。
實驗
實驗設置包括基于Wan 2.1和CausVid的模型(免訓練),評估指標涵蓋效率(FPS、TTFF、加速率)和質量(CLIP分數、Warp Error)。基線包括Ring-Attention、DeepSpeed-Ulysses、StreamDiffusion、StreamV2V和CausVid變體。實現細節:在H100和RTX 4090 GPU上測試,使用bf16,無TensorRT或量化,支持1-4去噪步驟和不同分辨率。
效率評估,StreamDiffusionV2在TTFF上大幅優于基線(如在30 FPS下為0.37s,CausVid高18倍,Wan2.1-1.3B高280倍)。FPS結果:在4 H100 GPU上,1.3B模型達64.52 FPS(512×512)、42.26 FPS(480p);14B模型達58.28 FPS(512×512)、39.24 FPS(480p)。即使增加步驟,性能仍穩定。


生成質量評估,本系統在CLIP分數(98.51)和Warp Error(73.31)上領先基線,視覺比較顯示更好的一致性和運動處理。消融研究確認sink token和運動感知噪聲控制器提升時序對齊。分析進一步驗證動態DiT塊調度器平衡負載,pipeline編排在通信和性能綁定上優于序列并行,Stream Batch顯著提高吞吐量,尤其在多步驟下。


總結
StreamDiffusionV2,彌合了離線視頻擴散與受實時SLO約束的直播流媒體之間的差距。本免訓練系統將SLO-aware批處理/塊調度器與sink-token引導的滾動KV緩存、運動感知噪聲控制器以及pipeline編排相結合,后者通過并行去噪步驟和模型層實現近線性FPS擴展,而不違反延遲要求。它在異構GPU上運行,支持靈活步驟計數,實現0.5 s TTFF,并在4×H100上達到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步驟增加也能維持高FPS。這些結果使最先進的生成式直播流媒體對單個創作者和企業平臺都變得實用。
參考文獻
[1] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
原文標題 : 直播革命來了!StreamDiffusionV2:140億參數實時視頻飆上58FPS!伯克利&韓松團隊等
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













