一統(tǒng)視覺江湖!OpenVision 3發(fā)布:一個編碼器實現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP
作者:Letian Zhang等
解讀:AI生成未來
亮點直擊
統(tǒng)一架構(gòu):OpenVision 3是一種先進的視覺編碼器,能夠?qū)W習(xí)單一、統(tǒng)一的視覺表示,同時服務(wù)于圖像理解和圖像生成任務(wù)。
簡潔設(shè)計:核心架構(gòu)非常簡潔,將 VAE 壓縮后的圖像隱空間變量輸入到 ViT 編碼器中,并訓(xùn)練其輸出以支持兩個互補的角色(重建與語義理解)。
協(xié)同優(yōu)化:通過在共享隱空間中聯(lián)合優(yōu)化重建驅(qū)動和語義驅(qū)動的信號,編碼器學(xué)習(xí)到的表示在兩種機制下都能很好地協(xié)同和泛化。
圖1。OpenVision 3架構(gòu)設(shè)計和性能亮點概述。左側(cè)面板:OpenVision 3的架構(gòu)。采用凍結(jié)的VAE和可訓(xùn)練的ViT作為統(tǒng)一分詞器,生成同時輸入生成和理解分支的令牌。中間面板:生成分支和理解分支的學(xué)習(xí)目標。在世代分支中,我們專注于高質(zhì)量的像素級圖像重建;同時,理解分支通過聯(lián)合對比學(xué)習(xí)和字幕目標進行優(yōu)化。右側(cè)面板:性能總結(jié)顯示,OpenVision 3在rFID和gFID方面優(yōu)于其他統(tǒng)一分詞器和基于語義的編碼器,同時在多模態(tài)理解能力上與CLIP保持競爭力。

解決的問題
統(tǒng)一建模的瓶頸:以往的研究通常需要分別為生成任務(wù)(捕捉低級像素特征)和理解任務(wù)(捕捉高級語義特征)適配單獨的編碼器。現(xiàn)有的統(tǒng)一嘗試通常依賴復(fù)雜的離散 token 設(shè)計(如矢量量化 VQ)或預(yù)訓(xùn)練檢查點,且構(gòu)建統(tǒng)一特征空間和高效訓(xùn)練流程仍然不夠透明。
提出的方案
VAE-ViT 混合架構(gòu):使用凍結(jié)的 FLUX.1 VAE 將圖像壓縮為隱空間變量,然后通過從頭訓(xùn)練的 ViT 提取統(tǒng)一特征。
雙分支解碼:
重建分支:專注于高質(zhì)量的像素級圖像重建,通過添加噪聲來增強生成的泛化能力。
理解分支:通過聯(lián)合對比學(xué)習(xí)和圖像字幕(Image Captioning)目標進行優(yōu)化,增強語義特征。
應(yīng)用的技術(shù)
FLUX.1 VAE:用于初始圖像壓縮,將輸入降采樣 。
Vision Transformer (ViT):處理 VAE 隱空間變量,patch 大小設(shè)為 ,總壓縮率為 。
噪聲注入 (Noise Injection):在重建分支的統(tǒng)一表示中加入高斯噪聲,以提升生成能力的魯棒性。
多目標損失函數(shù):結(jié)合了 重建損失、LPIPS 感知損失、對比損失(Contrastive Loss)和字幕損失(Captioning Loss)。
達到的效果
生成性能:在 ImageNet 上,OpenVision 3 的 gFID 達到 1.89,大幅優(yōu)于標準的 CLIP 基編碼器(2.54),并在 rFID 和 gFID 上優(yōu)于其他統(tǒng)一分詞器。
理解性能:在多模態(tài)理解方面,將其插入 LLaVA-1.5 框架后,性能與標準 CLIP 視覺編碼器相當(dāng)(例如在 SeedBench 上 62.4 vs. 62.2,在 POPE 上 83.7 vs. 82.9)。
方法
動機
開發(fā)統(tǒng)一的分詞器(Tokenizer)是實現(xiàn)生成與理解統(tǒng)一的關(guān)鍵步驟,但這往往受阻于建立統(tǒng)一特征空間的困難以及低效的訓(xùn)練過程。以往的研究提出了許多令人印象深刻的方法來消除這些障礙。然而,關(guān)于構(gòu)建統(tǒng)一表示的探索仍處于初步階段,且相關(guān)的訓(xùn)練流程對社區(qū)而言依然不夠透明。提出了 OpenVision 3 模型,該模型通過 VAE 和 ViT 以一種有效且直接的方式構(gòu)建了統(tǒng)一的視覺表示空間。展示了如何在 VAE 隱空間內(nèi)從頭開始高效地訓(xùn)練一個統(tǒng)一的分詞器。
OpenVision 3:一種統(tǒng)一分詞器
OpenVision 3 使用 VAE 編碼器和 Vision Transformer (ViT) 來提取統(tǒng)一的視覺特征。輸入圖像 首先由來自 FLUX.1-dev 的 VAE 編碼器 編碼為 VAE 隱空間變量 ,隨后的訓(xùn)練過程完全在 VAE 隱空間下進行。接著,VAE 隱空間變量被輸入到 ViT 編碼器 中,以提取用于理解任務(wù)和生成任務(wù)的統(tǒng)一表示 。
在 VAE 階段,F(xiàn)LUX.1 VAE 將圖像的高度和寬度分別下采樣 。因此,本文將 ViT 的 patch 大小調(diào)整為 ,使得整體壓縮率為 ,這與常見設(shè)置保持一致。形式化表示如下:
其中 是 VAE 隱空間變量通道數(shù), 是 ViT 的維度。編碼后的統(tǒng)一特征 隨后進入重建分支和理解分支進行解碼。OpenVision 3 采用兩個完全獨立的分支來培養(yǎng)其提取生成性和解釋性視覺表示的能力,其各自的架構(gòu)詳述如下。
重建分支 (Reconstruction Branch)重建解碼部分鏡像了分詞器的結(jié)構(gòu),保持了近乎對稱的配置。在解碼之前,本文首先向統(tǒng)一表示中添加噪聲,以提高生成能力的泛化性。擾動后的特征 是通過添加按樣本特定強度縮放的高斯噪聲生成的:
其中 是從 均勻采樣的, 是一個常數(shù)。然后,本文使用一個 patch 大小為 的 ViT 解碼器和一個線性層將加噪后的統(tǒng)一特征 轉(zhuǎn)換回 VAE 隱空間變量 。接下來,應(yīng)用 VAE 解碼器將 解碼為重建圖像 。重建損失包括圖像 和 VAE 隱空間變量 的重建損失,以及基于 LPIPS 的感知損失。整個重建損失可以公式化為:
理解分支 (Understanding Branch)理解分支的范式總體遵循 OpenVision 的設(shè)計,即執(zhí)行對比學(xué)習(xí)和圖像字幕生成。如圖 1 所示,本文使用文本編碼器提取字幕特征 ,以便與統(tǒng)一視覺特征 計算對比損失。同時,本文利用文本解碼器從統(tǒng)一表示中自回歸地預(yù)測合成字幕,并計算相應(yīng)的字幕損失。形式化地,理解損失可以表示為:
總體訓(xùn)練目標為:
在訓(xùn)練過程中,本文將 配置為 的兩倍。降低 有助于在保持理解能力不受損的同時,保留生成質(zhì)量。
訓(xùn)練設(shè)置
訓(xùn)練階段與分辨率:根據(jù) CLIPA 中得出的結(jié)論,本文對分詞器采用漸進式訓(xùn)練策略,從低分辨率過渡到高分辨率輸入。本文首先在 分辨率下預(yù)訓(xùn)練分詞器,然后在 或 下進行微調(diào)。兩個訓(xùn)練階段的 epoch 分配保持在約 10:1 的比例。通過將大部分計算集中在低分辨率階段,這種方法在獲得卓越性能的同時,顯著降低了通常與高分辨率訓(xùn)練相關(guān)的計算開銷。
訓(xùn)練細節(jié):如圖 1 所示,本文使用預(yù)訓(xùn)練的 FLUX.1 VAE 并在整個訓(xùn)練過程中將其凍結(jié)。所有其他組件(包括 ViT 編碼器、ViT 解碼器、文本編碼器、文本解碼器和線性層)均隨機初始化并在整個訓(xùn)練過程中保持解凍狀態(tài)。對于這兩個訓(xùn)練階段,全局批大小分別為 8K 和 4K,基礎(chǔ)學(xué)習(xí)率采用余弦衰減,分別為 和 。詳細參數(shù)配置請參見表 1。該模型在由 LLaVA-Llama-3 重新標注的 DataComp 數(shù)據(jù)集上進行訓(xùn)練,這保證了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

實驗
實驗設(shè)置
為了全面評估統(tǒng)一分詞器的性能,本文分別評估了重建、生成和理解性能。在生成方面,遵循 RAE 配置,使用 DiT 和寬 DDT 頭訓(xùn)練生成模型,并評估 OpenVision 3 的生成保真度。在理解方面,在 LLaVA-1.5 框架下使用該分詞器訓(xùn)練視覺-語言模型,并在多個下游多模態(tài)基準上評估理解性能。
性能表現(xiàn)
重建性能:OpenVision 3 在各項指標上均顯著優(yōu)于現(xiàn)有的統(tǒng)一分詞器。例如,在 ImageNet 上,OpenVision 3 實現(xiàn)了 30.33 dB 的 PSNR,大幅領(lǐng)先 UniTok (25.34 dB) 和 Vila-U (22.24 dB)。在感知質(zhì)量(LPIPS)方面,得分為 0.061,優(yōu)于 UniTok 的 0.132。
生成性能:在使用 RAE 框架進行測試時,OpenVision 3 在 gFID、Inception Score (IS)、Precision 和 Recall 等指標上均超越了其他分詞器(包括 CLIP 和 SD-VAE 等)。


理解與重建的相互作用
為了探究這兩個目標之間的相互影響,本文進行了消融實驗:
移除重建損失:僅使用語義損失訓(xùn)練時,重建損失(像素級和隱空間變量級)依然顯著下降。這表明語義目標對圖像重建有顯著貢獻。
移除理解損失:僅使用重建信號訓(xùn)練時,對比損失幾乎停滯,但字幕損失略有下降。有趣的是,加入語義損失反而提高了重建性能,進一步證明了這兩個分支之間存在互惠互利的協(xié)同關(guān)系。
結(jié)論
OpenVision 3,這是一種用于理解和生成的統(tǒng)一視覺編碼器。本文創(chuàng)新性地將 VAE 與 ViT 結(jié)合形成統(tǒng)一架構(gòu),并生成可服務(wù)于不同下游任務(wù)的單一、統(tǒng)一表示。為了高效訓(xùn)練該分詞器,提出了一種結(jié)合重建驅(qū)動和語義驅(qū)動信號進行聯(lián)合學(xué)習(xí)的新訓(xùn)練范式。綜合評估表明,本文模型通過低成本訓(xùn)練在生成和理解任務(wù)上均取得了優(yōu)異的結(jié)果。OpenVision 3 在重建和生成方面優(yōu)于當(dāng)前其他的統(tǒng)一分詞器,并在語義任務(wù)上表現(xiàn)出與 CLIP 相當(dāng)?shù)哪芰Α?/p>
參考文獻
[1] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
原文標題 : 一統(tǒng)視覺江湖!OpenVision 3發(fā)布:一個編碼器實現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設(shè)計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進展總結(jié)
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













