謝賽寧則表示,使用 patch token 并不意味著就是在做稠密任務。VLM和REPA的性能與它們在IN1K上的得分高度相關,而與patch級別的對應關系只有很弱的關聯。這并不是 [CLS] token 的問題,而是高層語義與低層像素相似性之間的差別。
但僅三個月后,他隨機表示自己的判斷不夠深入,新論文 iREPA 的研究帶來了更深度的理解。
謝賽寧在 X 平臺上表示,擴散模型是其底層表征的渲染器。這套新的方案可以幫助大家更清晰地了解這些表征的真正含義
他稱這場討論為“新型網絡茶水間效應的小實驗”,大家一起辯論、討論,然后努力把它變成真正的科學研究。
空間結構至關重要
表征對齊(REPA)通過將來自強大的預訓練視覺編碼器的表征提煉為中間擴散特征,來指導生成式訓練。
在這之前,我們需要關注一個問題:目標表征的哪個方面對生成至關重要?是其全局語義信息,還是其空間結構?
普遍觀點認為,更強的全局語義性能能夠帶來更好的生成效果。為了驗證這一觀點,團隊首先對 27 種不同的視覺編碼器和不同模型規模進行了大規模的實證分析。
團隊發現,雖然 PE-Core-G 在 ImageNet-1K 上的準確率高達 82.8%,但當用作 REPA 的目標表示時,其性能卻更差。
除此之外,同一編碼器系列中較大的型號可能具有相似或更差的生成性能。對于表征對齊而言,較大的模型變體往往會導致相似(DINOv2)甚至更差的生成性能。
也就是說,更高的全局信息量并不意味著更好的 REPA 性能。多項趨勢表明,在使用 REPA 時,全局性能與生成 FID 的相關性并不高。
比如,僅驗證準確率達到 24.7% 的 SAM2-S,在使用 REPA 時,其生成性能優于其他驗證準確率高出約 60% 的模型。
同一編碼器家族中,較大的編碼器可能具有更高的驗證準確率,但生成性能卻更差。
通過 CLS 標記向 patch 標記添加全局信息可以提高全局性能,但會降低生成性能。
研究證明,空間結構而非全局性能是生成性能的更好指標。
研究還表明,空間結構與發電性能的相關性遠高于線性探測。
在不同的模型尺度上,空間結構與 gFID 的相關性始終高于線性探測。
iREPA 改進表述一致性
研究人員對原始的 REPA 訓練方案進行了兩項直接的修改,從而增強了空間特征從教師(視覺編碼器)到學生(擴散變換器)模型的遷移。
一個是使用卷積投影層代替多層感知器(MLP)。團隊用一個輕量級的卷積層代替 MLP,該卷積層直接作用于空間網格。
REPA 中的標準 MLP 投影層在將目標表示的特征遷移到擴散特征時會丟失空間信息,而使用更簡單的卷積層則可以更好地遷移空間信息。
第二是運用空間歸一化層,向目標表示的圖像塊標記添加了一個簡單的空間歸一化層。通過犧牲全局信息來提高圖像塊標記之間的空間對比度,從而獲得更好的生成性能。
結果顯示,在目標表示和模型規模的變化下,iREPA 始終比基線 REPA 具有更快的收斂速度,且在所有視覺編碼器上均能持續提升生成質量。
空間改進不僅持續提升性能,而且模型規模越大,性能提升的百分比也越大;這表明空間改進能夠隨著模型規模的增大而擴展。
在消融實驗中,空間歸一化層和卷積投影層均能顯著提高收斂速度,兩者結合使用效果最佳。
總而言之,團隊在 REPA-E 和 MeanFlow w/ REPA 的基礎上應用了空間改進,并取得了一致的性能提升。
參考資料:
https://x.com/sainingxie/status/2000709656491286870
https://arxiv.org/abs/2512.10794
https://x.com/YouJiacheng/status/1957073253769380258