国产高清成人在线观看,国产免费视频在线,亚洲国产精品综合久久2,麻豆视频日比视频

一統(tǒng)視覺江湖！OpenVision 3發(fā)布：一個編碼器實現(xiàn)理解與生成完美統(tǒng)一，性能雙殺CLIP

2026-01-26 16:27

AI生成未來

關(guān)注

作者：Letian Zhang等

解讀：AI生成未來

亮點直擊

統(tǒng)一架構(gòu)：OpenVision 3是一種先進的視覺編碼器，能夠?qū)W習(xí)單一、統(tǒng)一的視覺表示，同時服務(wù)于圖像理解和圖像生成任務(wù)。

簡潔設(shè)計：核心架構(gòu)非常簡潔，將 VAE 壓縮后的圖像隱空間變量輸入到 ViT 編碼器中，并訓(xùn)練其輸出以支持兩個互補的角色（重建與語義理解）。

協(xié)同優(yōu)化：通過在共享隱空間中聯(lián)合優(yōu)化重建驅(qū)動和語義驅(qū)動的信號，編碼器學(xué)習(xí)到的表示在兩種機制下都能很好地協(xié)同和泛化。

圖1。OpenVision 3架構(gòu)設(shè)計和性能亮點概述。左側(cè)面板：OpenVision 3的架構(gòu)。采用凍結(jié)的VAE和可訓(xùn)練的ViT作為統(tǒng)一分詞器，生成同時輸入生成和理解分支的令牌。中間面板：生成分支和理解分支的學(xué)習(xí)目標。在世代分支中，我們專注于高質(zhì)量的像素級圖像重建;同時，理解分支通過聯(lián)合對比學(xué)習(xí)和字幕目標進行優(yōu)化。右側(cè)面板：性能總結(jié)顯示，OpenVision 3在rFID和gFID方面優(yōu)于其他統(tǒng)一分詞器和基于語義的編碼器，同時在多模態(tài)理解能力上與CLIP保持競爭力。

解決的問題

統(tǒng)一建模的瓶頸：以往的研究通常需要分別為生成任務(wù)（捕捉低級像素特征）和理解任務(wù)（捕捉高級語義特征）適配單獨的編碼器。現(xiàn)有的統(tǒng)一嘗試通常依賴復(fù)雜的離散 token 設(shè)計（如矢量量化 VQ）或預(yù)訓(xùn)練檢查點，且構(gòu)建統(tǒng)一特征空間和高效訓(xùn)練流程仍然不夠透明。

提出的方案

VAE-ViT 混合架構(gòu)：使用凍結(jié)的 FLUX.1 VAE 將圖像壓縮為隱空間變量，然后通過從頭訓(xùn)練的 ViT 提取統(tǒng)一特征。

雙分支解碼：

重建分支：專注于高質(zhì)量的像素級圖像重建，通過添加噪聲來增強生成的泛化能力。

理解分支：通過聯(lián)合對比學(xué)習(xí)和圖像字幕（Image Captioning）目標進行優(yōu)化，增強語義特征。

應(yīng)用的技術(shù)

FLUX.1 VAE：用于初始圖像壓縮，將輸入降采樣。

Vision Transformer (ViT)：處理 VAE 隱空間變量，patch 大小設(shè)為，總壓縮率為。

噪聲注入 (Noise Injection)：在重建分支的統(tǒng)一表示中加入高斯噪聲，以提升生成能力的魯棒性。

多目標損失函數(shù)：結(jié)合了重建損失、LPIPS 感知損失、對比損失（Contrastive Loss）和字幕損失（Captioning Loss）。

達到的效果

生成性能：在 ImageNet 上，OpenVision 3 的 gFID 達到 1.89，大幅優(yōu)于標準的 CLIP 基編碼器（2.54），并在 rFID 和 gFID 上優(yōu)于其他統(tǒng)一分詞器。

理解性能：在多模態(tài)理解方面，將其插入 LLaVA-1.5 框架后，性能與標準 CLIP 視覺編碼器相當(dāng)（例如在 SeedBench 上 62.4 vs. 62.2，在 POPE 上 83.7 vs. 82.9）。

方法

動機

開發(fā)統(tǒng)一的分詞器（Tokenizer）是實現(xiàn)生成與理解統(tǒng)一的關(guān)鍵步驟，但這往往受阻于建立統(tǒng)一特征空間的困難以及低效的訓(xùn)練過程。以往的研究提出了許多令人印象深刻的方法來消除這些障礙。然而，關(guān)于構(gòu)建統(tǒng)一表示的探索仍處于初步階段，且相關(guān)的訓(xùn)練流程對社區(qū)而言依然不夠透明。提出了 OpenVision 3 模型，該模型通過 VAE 和 ViT 以一種有效且直接的方式構(gòu)建了統(tǒng)一的視覺表示空間。展示了如何在 VAE 隱空間內(nèi)從頭開始高效地訓(xùn)練一個統(tǒng)一的分詞器。

OpenVision 3：一種統(tǒng)一分詞器

OpenVision 3 使用 VAE 編碼器和 Vision Transformer (ViT) 來提取統(tǒng)一的視覺特征。輸入圖像首先由來自 FLUX.1-dev 的 VAE 編碼器編碼為 VAE 隱空間變量，隨后的訓(xùn)練過程完全在 VAE 隱空間下進行。接著，VAE 隱空間變量被輸入到 ViT 編碼器中，以提取用于理解任務(wù)和生成任務(wù)的統(tǒng)一表示。

在 VAE 階段，F(xiàn)LUX.1 VAE 將圖像的高度和寬度分別下采樣。因此，本文將 ViT 的 patch 大小調(diào)整為，使得整體壓縮率為，這與常見設(shè)置保持一致。形式化表示如下：

其中是 VAE 隱空間變量通道數(shù)，是 ViT 的維度。編碼后的統(tǒng)一特征隨后進入重建分支和理解分支進行解碼。OpenVision 3 采用兩個完全獨立的分支來培養(yǎng)其提取生成性和解釋性視覺表示的能力，其各自的架構(gòu)詳述如下。

重建分支 (Reconstruction Branch)重建解碼部分鏡像了分詞器的結(jié)構(gòu)，保持了近乎對稱的配置。在解碼之前，本文首先向統(tǒng)一表示中添加噪聲，以提高生成能力的泛化性。擾動后的特征是通過添加按樣本特定強度縮放的高斯噪聲生成的：

其中是從均勻采樣的，是一個常數(shù)。然后，本文使用一個 patch 大小為的 ViT 解碼器和一個線性層將加噪后的統(tǒng)一特征轉(zhuǎn)換回 VAE 隱空間變量。接下來，應(yīng)用 VAE 解碼器將解碼為重建圖像。重建損失包括圖像和 VAE 隱空間變量的重建損失，以及基于 LPIPS 的感知損失。整個重建損失可以公式化為：

理解分支 (Understanding Branch)理解分支的范式總體遵循 OpenVision 的設(shè)計，即執(zhí)行對比學(xué)習(xí)和圖像字幕生成。如圖 1 所示，本文使用文本編碼器提取字幕特征，以便與統(tǒng)一視覺特征計算對比損失。同時，本文利用文本解碼器從統(tǒng)一表示中自回歸地預(yù)測合成字幕，并計算相應(yīng)的字幕損失。形式化地，理解損失可以表示為：

總體訓(xùn)練目標為：

在訓(xùn)練過程中，本文將配置為的兩倍。降低有助于在保持理解能力不受損的同時，保留生成質(zhì)量。

訓(xùn)練設(shè)置

訓(xùn)練階段與分辨率：根據(jù) CLIPA 中得出的結(jié)論，本文對分詞器采用漸進式訓(xùn)練策略，從低分辨率過渡到高分辨率輸入。本文首先在分辨率下預(yù)訓(xùn)練分詞器，然后在或下進行微調(diào)。兩個訓(xùn)練階段的 epoch 分配保持在約 10:1 的比例。通過將大部分計算集中在低分辨率階段，這種方法在獲得卓越性能的同時，顯著降低了通常與高分辨率訓(xùn)練相關(guān)的計算開銷。

訓(xùn)練細節(jié)：如圖 1 所示，本文使用預(yù)訓(xùn)練的 FLUX.1 VAE 并在整個訓(xùn)練過程中將其凍結(jié)。所有其他組件（包括 ViT 編碼器、ViT 解碼器、文本編碼器、文本解碼器和線性層）均隨機初始化并在整個訓(xùn)練過程中保持解凍狀態(tài)。對于這兩個訓(xùn)練階段，全局批大小分別為 8K 和 4K，基礎(chǔ)學(xué)習(xí)率采用余弦衰減，分別為和。詳細參數(shù)配置請參見表 1。該模型在由 LLaVA-Llama-3 重新標注的 DataComp 數(shù)據(jù)集上進行訓(xùn)練，這保證了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

實驗

實驗設(shè)置

為了全面評估統(tǒng)一分詞器的性能，本文分別評估了重建、生成和理解性能。在生成方面，遵循 RAE 配置，使用 DiT 和寬 DDT 頭訓(xùn)練生成模型，并評估 OpenVision 3 的生成保真度。在理解方面，在 LLaVA-1.5 框架下使用該分詞器訓(xùn)練視覺-語言模型，并在多個下游多模態(tài)基準上評估理解性能。

性能表現(xiàn)

重建性能：OpenVision 3 在各項指標上均顯著優(yōu)于現(xiàn)有的統(tǒng)一分詞器。例如，在 ImageNet 上，OpenVision 3 實現(xiàn)了 30.33 dB 的 PSNR，大幅領(lǐng)先 UniTok (25.34 dB) 和 Vila-U (22.24 dB)。在感知質(zhì)量（LPIPS）方面，得分為 0.061，優(yōu)于 UniTok 的 0.132。

生成性能：在使用 RAE 框架進行測試時，OpenVision 3 在 gFID、Inception Score (IS)、Precision 和 Recall 等指標上均超越了其他分詞器（包括 CLIP 和 SD-VAE 等）。

理解與重建的相互作用

為了探究這兩個目標之間的相互影響，本文進行了消融實驗：

移除重建損失：僅使用語義損失訓(xùn)練時，重建損失（像素級和隱空間變量級）依然顯著下降。這表明語義目標對圖像重建有顯著貢獻。

移除理解損失：僅使用重建信號訓(xùn)練時，對比損失幾乎停滯，但字幕損失略有下降。有趣的是，加入語義損失反而提高了重建性能，進一步證明了這兩個分支之間存在互惠互利的協(xié)同關(guān)系。

結(jié)論

OpenVision 3，這是一種用于理解和生成的統(tǒng)一視覺編碼器。本文創(chuàng)新性地將 VAE 與 ViT 結(jié)合形成統(tǒng)一架構(gòu)，并生成可服務(wù)于不同下游任務(wù)的單一、統(tǒng)一表示。為了高效訓(xùn)練該分詞器，提出了一種結(jié)合重建驅(qū)動和語義驅(qū)動信號進行聯(lián)合學(xué)習(xí)的新訓(xùn)練范式。綜合評估表明，本文模型通過低成本訓(xùn)練在生成和理解任務(wù)上均取得了優(yōu)異的結(jié)果。OpenVision 3 在重建和生成方面優(yōu)于當(dāng)前其他的統(tǒng)一分詞器，并在語義任務(wù)上表現(xiàn)出與 CLIP 相當(dāng)?shù)哪芰Α?/p>

參考文獻

[1] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

原文標題 : 一統(tǒng)視覺江湖！OpenVision 3發(fā)布：一個編碼器實現(xiàn)理解與生成完美統(tǒng)一，性能雙殺CLIP