男人边做边挵进去呻吟的解决方法,欧美一级www片免费观看,91久久香蕉国产线看观看软件,久久一夜天堂av一区二区三区

全棧視覺生成器殺到！上交&快手&南洋理工最新VINO：圖像視頻生成+編輯一網打盡

2026-01-07 15:38

AI生成未來

關注

作者：Junyi Chen等

解讀：AI生成未來

亮點直擊

統一視覺生成框架VINO：一個將圖像/視頻生成與編輯任務統一在單一框架下的模型，無需針對特定任務設計獨立模塊。

交錯全模態上下文：通過耦合視覺-語言模型與多模態擴散 Transformer（MMDiT），將多模態輸入編碼為交錯的條件Token，實現了對文本、圖像和視頻信號的統一處理。

Token 邊界機制：一種重用VLM特殊Token（start/end tokens）來包裹MMDiT中VAE隱變量的機制，有效保持了跨語義和隱變量表示的身份一致性，減少了屬性泄露。

漸進式訓練策略：設計了多階段訓練流程，成功將視頻生成基礎模型擴展為具備多任務能力的統一生成器，同時保留了原本高質量生成能力。

效果一覽

解決的問題

視覺生成任務的碎片化：現有的文生圖、文生視頻和視覺編輯模型通常是獨立開發和部署的，缺乏統一性。

多模態信號的沖突與解耦：當同時提供文本、圖像、視頻等多種引導信號時，現有模型難以可靠地解耦并確立信號的優先級，導致語義沖突或條件控制效果不一致。

長短文本指令的適應性差異：生成任務通常依賴長描述，而編輯任務使用短指令，模型難以同時適應這兩種格式。

提出的方案 / 應用的技術

VLM + MMDiT 架構：使用凍結的 Qwen3-VL 作為前端編碼器處理所有語言和視覺條件，配合 HunyuanVideo（基于 MMDiT）作為擴散骨干網絡。

可學習的查詢 Token（Learnable Query Tokens）：在 VLM 輸入端引入可學習 Token，作為高層指令與底層擴散特征之間的靈活接口，與生成器聯合優化，提升了多模態條件的對齊和優化穩定性。

共享邊界標記的隱變量注入：為了彌補 VLM 特征丟失細節的問題，將參考圖像/視頻的 VAE 隱變量注入 MMDiT。關鍵技術在于復用 VLM 的 <|vision_start|> 和 <|vision_end|> Token 來標記 VAE 隱變量的邊界，確保語義特征與隱變量特征的對應關系。

3D RoPE 策略：在時間軸上應用統一的 3D 旋轉位置編碼，以交錯方式處理不同的視覺模態。

達到的效果

多任務全能表現：在 Geneval 和 VBench 等基準測試中，VINO 展現了強大的圖像/視頻生成及編輯能力。

指令遵循與一致性：相比基線模型，VINO 在遵循復雜指令、保持參考圖像/視頻的身份特征（ID preservation）方面表現更優，尤其是在多身份編輯場景下。

高效的能力擴展：通過漸進式訓練，僅需少量編輯數據的微調（Stage 3），模型即展現出優于大多數開源基線的編輯能力。

架構方法

本章節介紹了用于多模態圖像和視頻生成/編輯的統一框架。本工作的目標是設計一個系統，該系統能夠接受異構的控制信號——文本指令、參考圖像或視頻以及可學習 Token，并利用它們來引導基于擴散的視覺生成器。遵循高層模型流程（如圖 3 所示），本節圍繞三個核心組件展開：首先在 2.1 節描述如何通過視覺-語言模型（VLM）處理多模態條件以獲得連貫的特征表示；接著在 2.2 節解釋如何將這些編碼后的條件注入到多模態擴散 Transformer（MMDiT）中，且不引起歧義或錯誤的跨模態定位；最后在 2.3 節詳細介紹使整個架構成為支持廣泛編輯和生成任務的統一多任務視覺生成器的訓練策略。

圖3 |VINO pipeline概述。我們的統一框架將生成條件設在交錯的全模態上下文上，該上下文共同編碼系統提示、提示/指令、參考圖片/視頻和可學習的標記。凍結的VLM會處理文本指令和視覺引用，生成多模態嵌入，這些嵌入通過可學習的符號（紫色）補充，并用特殊符號（視覺開始符號和視覺結束符號）分隔。這些交錯的多模表示被輸入到MMDiT模塊中，模塊還接收來自參考圖像或視頻的VAE潛數。MMDiT模型基于完整的多模態上下文進行降噪，使VINO能夠在單一統一架構內執行圖像和視頻生成以及基于指令的編輯。

多模態條件

為了處理多種形式的輸入，本工作采用凍結的 VLM 模型作為所有語言和視覺條件的前端編碼器。如圖 4 所示，系統提示詞（System Prompt）會根據輸入模態的存在與數量而變化。當沒有提供視覺模態時，用戶僅提供文本輸入，這作為文生圖或文生視頻生成的唯一條件。當存在視覺輸入時，它們首先按類型（先圖像，后視頻）排序并放置在提示詞的開頭，每個輸入被分配一個唯一的標識符，如 Image 1 或 Video 1。用戶隨后可以在文本輸入中引用這些標識符來指定不同的視覺條件，從而實現復雜的多模態控制。此外，本工作在提示詞末尾附加了一組可學習 Token（Learnable Tokens），將跨模態特征提取到一個共享空間中。這些 Token 同樣使用因果掩碼（Causal Masking）處理，而非給予全雙向注意力。最后，使用 VLM 倒數第二層的隱藏狀態作為編碼后的條件，應用兩層多層感知機（MLP）進行特征投影，然后輸入到后續的 MMDiT 中。

交錯全模態上下文

盡管 VLM 提供了魯棒的高層多模態語義，但它顯著壓縮了視覺信息，導致缺乏細粒度的空間細節和紋理保真度。因此，它無法充分處理需要精確結構控制的任務，如局部編輯。為了補償這一信息瓶頸，本工作通過所有視覺模態的 VAE 編碼隱變量（Latents）來補充 VLM 嵌入。如圖 5 所示，這些 VAE 隱變量按照 VLM 中使用的相同順序排列，并將加噪的圖像/視頻隱變量放置在末尾。然而，簡單地拼接圖像和視頻隱變量會引入歧義。為了唯一地區分不同的視覺條件，并將每個 VAE 隱變量與其對應的 VLM 特征對齊，本工作復用了 VLM 的 <|vision_start|> 和 <|vision_end|> 嵌入向量。在通過一個 MLP 將這些嵌入投影以匹配 MMDiT 輸入維度后，它們被用于標記每個視覺隱變量塊的邊界。這種顯式的邊界標記作為一種強位置線索，允許注意力機制正確有效地劃分并解釋序列中不同的視覺條件輸入。

訓練統一多任務視覺生成器

為了構建支持多模態條件的統一視覺生成器，本工作從一個文生視頻擴散模型開始，因為它已經提供了強大的時間動態先驗。為了替換原始的文本編碼器，首先將 VLM 的輸出空間與模型原生的文本編碼器對齊。在這一初始階段，僅訓練一個兩層 MLP 連接器以在兩個嵌入空間之間進行映射。現代文生視頻模型通常依賴長且結構良好的文本提示詞，而編輯任務通常涉及簡短的指令，這產生了分布差距。為了彌補這一差距，本工作采用了漸進式訓練策略，逐步轉變輸入條件的分布。具體而言，將短提示詞視為長提示詞與簡練編輯指令之間的中間形式。在第二階段，使用長短提示詞混合訓練模型，以確保對兩種形式的魯棒性，并在該階段開始更新 MMDiT 參數。一旦模型適應了短提示詞輸入，便進入最后階段，進行全多任務混合訓練。各階段的數據混合比例如圖 6 所示。這使得模型能夠平滑地從結構化文本視頻條件過渡到基于指令的多模態生成和編輯。

實驗

實驗設置

基礎模型：采用 Qwen3VL-4B-Instruction 作為多模態編碼器，HunyuanVideo 作為視覺生成器初始化。數據策略：結合了大規模開源圖像/視頻集合與高質量的蒸餾數據。采用動態分辨率分桶策略（Dynamic resolution bucketing），在保持原始長寬比的同時平衡計算負載。訓練細節：分為三個階段，使用 DeepSpeed ZeRO-2 進行訓練。根據任務動態調整視頻幀數和參考圖像數量。

視覺生成表現

基礎能力保持：盡管在 Stage 3 中標準的文生圖/文生視頻數據占比很小，但在 Geneval 和 VBench 基準測試中，VINO 的性能指標與 HunyuanVideo 骨干網絡高度相當。證明了訓練策略有效避免了災難性遺忘。

參考生成能力：在 OpenS2V 基準測試（針對特定主體的視頻生成）中，VINO 表現出明顯的優勢，能夠有效地根據參考圖像生成定制化視頻。

視覺編輯表現

圖像編輯：在 ImgEdit 和 GEdit 基準測試中，VINO 在僅經過 Stage 3 的少量訓練后（1k 步），其編輯能力就迅速超越了大多數開源基線。這得益于漸進式訓練帶來的強大指令遵循能力。

視頻編輯：與 VACE-Ditto 等方法相比，VINO 在相同輸入下展現了更強的指令遵循性和視覺質量，能夠準確執行如“移除物體”、“風格轉換”等復雜操作。

消融實驗

可學習 Token 的作用：引入可學習 Token 顯著提升了訓練的穩定性（優化曲線更平滑），并增強了多模態條件的保真度。去除這些 Token 會導致梯度噪聲變大，且在物體移除/替換等任務中表現下降。

Image CFG 的影響：增加圖像分類器自由引導（Image CFG）的權重可以增強對參考圖像視覺身份的保持，但過大的權重會抑制動作的多樣性。

特殊 Token（邊界標記）的作用：如果在 VAE 隱變量序列中不使用特殊的邊界 Token，模型會錯誤地糾纏視頻的時間結構與靜態圖像隱變量，導致生成的首幀出現明顯偽影。

結論

VINO，這是一個能夠在單一框架下執行圖像和視頻生成及編輯的統一視覺生成器。通過精心設計的模型組件以及接受交錯全模態上下文的條件管線，VINO 能夠無縫集成異構輸入并處理廣泛的視覺任務。廣泛的對比實驗證明了本方法的有效性和強大性能。此外，本工作的漸進式訓練策略使得模型在獲得魯棒的多任務能力的同時，保留了基礎視頻骨干網絡的生成優勢，最終產出了一個連貫且統一的視覺生成器。VINO 為多對多（many-to-many）視覺生成提供了一個靈活、可擴展的基礎，并為更通用的多模態生成系統鋪平了道路。

局限性與未來工作：

文本渲染能力：基礎模型缺乏文本渲染能力，使得 VINO 在涉及文本編輯的基準測試中處于劣勢。編輯數據質量：現有的指令編輯數據集質量通常低于大規模生成數據集，包含的運動有限且結構簡單，這可能導致模型在引入編輯任務后，視覺保真度或動作豐富度略有下降。計算成本：在 MMDiT 中，全注意力機制的復雜度呈二次方增長。因此，當提供參考視頻和大量參考圖像時，推理延遲會顯著增加。模態限制：目前支持的模態受限于 VLM。探索更強大、更全面的 VLM 是未來的研究方向。參考文獻

[1] VInO: A Unified Visual Generator with Interleaved OmniModal Context

原文標題 : 全棧視覺生成器殺到！上交&快手&南洋理工最新VINO：圖像視頻生成+編輯一網打盡