更多精彩影视尽在彩云影院网!,色噜噜人妻丝袜AV资源,一极a性爱免费视频,在线18av

加速近200倍！RTX 5090生成高質量視頻只要1.9秒！清華&生數等重磅開源TurboDiffusion

2025-12-22 18:00

作者：Jintao Zhang等

解讀：AI生成未來

亮點直擊

提出了一種端到端的視頻生成加速框架，在保持視頻質量的同時，將擴散模型的生成速度提升了。

單張 RTX 5090 GPU 上，該框架能將原本耗時數分鐘甚至數小時的視頻生成過程縮短至幾秒鐘（例如從 184 秒縮短至 1.9 秒），實現了實時級別的視頻生成體驗。圖1 由Wan2.1-T2V-1.3B-480P在單個RTX 5090上生成的5秒視頻示例。

圖1 由Wan2.1-T2V-1.3B-480P在單個RTX 5090上生成的5秒視頻示例。圖2 使用單個RTX 5090在Wan2.2-I2V-A14B-720P上5秒視頻生成示例

解決的問題

現有的高質量視頻擴散模型（如 Wan2.1/2.2）雖然生成效果出色，但推斷延遲極高（Latency），通常需要巨大的計算資源和較長的時間，限制了其實際應用和部署。

提出的方案

本工作提出了 TurboDiffusion 框架，這是一種算法與系統協同優化的解決方案。它通過結合低比特注意力機制、稀疏注意力、步數蒸餾和模型量化，在大幅減少計算量的同時，最大程度地保留了模型的生成能力。

應用的技術

注意力加速 (Attention Acceleration) ：采用低比特的 SageAttention (SageAttention2++) 和可訓練的稀疏線性注意力 (Sparse-Linear Attention, SLA) 來加速注意力計算。

步數蒸餾 (Step Distillation) ：采用 rCM (Regularized Consistency Model) 方法進行高效的步數蒸餾，將采樣步數減少至 3-4 步。

W8A8 量化 (W8A8 Quantization) ：將模型參數和激活值量化為 8-bit (INT8)，以加速線性層（Linear Layers）計算并壓縮模型體積。

工程優化：使用 Triton 和 CUDA 重寫了 LayerNorm 和 RMSNorm 等操作。

達到的效果

在 Wan2.2-I2V 和 Wan2.1-T2V 系列模型上的實驗表明：

在單張 RTX 5090 上實現了的端到端加速。

Wan2.1-T2V-1.3B-480P 生成 5 秒視頻僅需 1.9 秒（原為 184 秒）。

Wan2.1-T2V-14B-720P 生成 5 秒視頻僅需 24 秒（原為 4767 秒）。

視頻質量在視覺上與原始模型相當，且優于現有的加速方案（如 FastVideo）。

圖 3 TurboDiffusion 在單個 RTX 5090 上的各種視頻生成模型上的加速。對于 Wan2.2-I2V-A14B-720P，延遲包括高噪聲和低噪聲模型之間的切換開銷，導致與 Wan2.1-T2V-14B-720P 相比，測得的加速較低。理論上，可實現的加速比是相同的圖4 通過算法和系統協同優化，TurboDiffusion將單個RTX 5090上Wan2.1-T2V-14B-720P的擴散推斷延遲降低了約200×。

方法

首先介紹TurboDiffusion 中使用的主要技術。隨后分別介紹 TurboDiffusion 的訓練過程和推理時的加速細節。

主要技術

TurboDiffusion 主要利用四種技術來加速擴散模型。首先，TurboDiffusion 使用 SageAttention進行低比特量化注意力加速；具體而言，使用了 SageAttention2++變體。其次，TurboDiffusion 使用稀疏線性注意力 (Sparse-Linear Attention, SLA)進行稀疏注意力加速。由于稀疏計算與低比特 Tensor Core 加速是正交的，SLA 可以構建在 SageAttention 之上以提供累積加速比。第三，TurboDiffusion 使用 rCM來減少采樣步數，這是目前最先進的擴散蒸餾方法之一。通過模型權重合并，rCM 自然繼承了注意力層面的加速效果。最后，TurboDiffusion 使用 W8A8 量化進行線性層 (Linear layer) 加速。具體來說，數據類型為 INT8，量化粒度為塊狀 (block-wise)，塊大小為。

訓練

給定一個預訓練的視頻擴散模型，TurboDiffusion 執行以下訓練過程。首先，本工作將全注意力 (full attention) 替換為稀疏線性注意力 (SLA)，并微調預訓練模型以適應稀疏性。并行地，本工作使用 rCM將預訓練模型蒸餾為一個采樣步數更少的學生模型。其次，本工作將 SLA 微調和 rCM 訓練的參數更新合并到一個模型中。所有訓練均可使用真實數據或合成數據。更多細節請參閱本工作的 GitHub 代碼。

推理

給定如上一節所述經過稀疏線性注意力 (SLA)和 rCM訓練的視頻生成模型，本工作按如下方式部署推理時加速。

注意力加速：本工作將 SLA 替換為 SageSLA，這是建立在 SageAttention 之上的 SLA 的 CUDA 實現。

步數蒸餾：本工作將采樣步數從 100 步減少到一個小得多的數值，例如 4 步或 3 步。

線性層量化：首先，本工作將線性層參數量化為 INT8，塊狀粒度為。其次，在推理過程中，本工作還將線性層中的激活值 (activations) 量化為 INT8（使用相同的塊狀粒度），并使用 INT8 Tensor Cores 執行線性層計算。通過這種方式，本工作將模型大小壓縮了大約一半，并實現了更快的線性層計算。

其他優化：本工作使用 Triton 或 CUDA 重新實現了其他幾個操作，例如 LayerNorm 和 RMSNorm，以獲得更高的效率。

更多細節請參閱本工作的 GitHub 代碼。

評估

本節評估 TurboDiffusion 的效率和視頻質量。

設置

模型與基線：本工作在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 視頻擴散模型上評估 TurboDiffusion。本工作使用 Wan的官方實現（記為 Original）和 FastVideo作為主要基線。

超參數：本工作將 Top-K 比率設置為 0.1，對應 90% 的注意力稀疏度，并使用 3 個采樣步數。在實踐中，本工作建議使用范圍在內的 Top-K 值，并將步數設置為 4，以穩定地獲得最佳視頻質量。對于 FastVideo，本工作使用官方實現中的默認參數（3 個采樣步數和 0.8 的注意力稀疏度）。

GPU：本工作的主要推理實驗是在單張 RTX 5090 GPU 上進行的。此外，盡管加速比沒有在 RTX 5090 上那么大，但本工作在其他 GPU（如 RTX 4090 和 H100）上也觀察到了顯著的加速效果。

效率與質量

本工作比較了 Original、FastVideo 和 TurboDiffusion 的視頻生成質量和效率。對于效率評估，本工作報告端到端的擴散生成延遲，不包括文本編碼和 VAE 解碼階段。下圖分別展示了在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的視覺對比。由于 FastVideo 沒有提供加速版的 Wan2.2-A14B-I2V-720P，本工作僅在 Wan2.2-A14B-I2V-720P 上比較 TurboDiffusion 和 Original。從下圖中可以看出，TurboDiffusion 不僅實現了最高的效率，還保持了視頻質量，證明了其明顯優于 FastVideo。

結論與未來工作

本工作提出了 TurboDiffusion，這是一個視頻生成加速框架，實現了的端到端擴散加速，且質量下降可忽略不計。TurboDiffusion 結合了低比特注意力 (SageAttention)、稀疏線性注意力 (SLA)、通過 rCM 進行的步數蒸餾以及 W8A8 量化，并輔以若干額外的工程優化。在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的實驗表明，TurboDiffusion 將單個視頻的生成時間在單張 RTX 5090 GPU 上減少到了分鐘，使得高質量視頻生成變得更加高效和實用。

對于未來的工作，本工作計劃擴展該框架以支持更多的視頻生成范式，例如自回歸視頻擴散 (autoregressive video diffusion)。

參考文獻

[1] TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times

原文標題 : 加速近200倍！RTX 5090生成高質量視頻只要1.9秒！清華&生數等重磅開源TurboDiffusion