聯合嵌入預測架構(JEPA)由于缺乏實踐指導和理論,研發工作大多是臨時性的。
Facebook 首席人工智能科學家、圖靈獎得主 LeCun 提出了一套全面的 JEPA 理論——一個精簡、可擴展且理論基礎扎實的訓練目標。
他引入了一種新的目標函數——草圖化各向同性高斯正則化(SIGReg)——來約束嵌入,使其達到該理想分布。
將 JEPA 預測損失與 SIGReg 相結合,產生了 LeJEPA,它具有諸多理論和實踐優勢,例如:
目前的實證驗證涵蓋了 10 多個數據集和 60 多個架構,涵蓋了不同的規模和領域。
有消息稱,這可能是 LeCun 在 Meta 發表的最后幾篇論文之一。
穩定且可擴展
團隊在確立各向同性高斯分布作為理想的特征先驗后,將基于統計檢驗的正則化方式加入到模型中,形成了 LeJEPA 的整體框架。
該方法利用一種切片式的檢驗來衡量模型嵌入與目標分布之間的偏差,并用數值求積近似替代積分計算。
實際實驗表明,即便只使用十幾個位點,簡單的求積方法也足以獲得穩定估計;同時由于被積函數具有對稱性,可在不增加額外成本的情況下提高估計精度。
雖然小批量訓練會帶來一定偏差,但其衰減速度非常快,經驗上即便是很小的 batch 也不會造成明顯影響,因此不采用樣本分割或 U-統計量等無偏替代方案。
預測損失部分沿用了自監督多視圖學習的約定,通過生成若干全局視角和局部視角,讓模型在各視圖之間進行一致性預測;所有視圖共同對全局視圖特征進行估計,并以全局嵌入的均值作為對齊目標。
實驗結果
最終的 LeJEPA 損失就是將預測項與正則項按照單一權重進行組合,因此整體實現非常精簡,不依賴教師-學生結構、預測器分支或梯度停止等傳統啟發式,應對坍塌主要依靠正則項本身的數學約束。
該方法與生成建模和最優傳輸中的部分技術思路相通,例如切片分布匹配或核式統計距離。當切片檢驗的積分被完全解析化時,其形式與某些 MMD 方法接近。
理論上在特定的檢驗選擇下會出現與其他 SSL 框架相似的極端情形,但研究者指出這些設定容易產生捷徑式解,因此不推薦使用。
實驗結果顯示,LeJEPA 在不同架構、不同數據規模和常見超參數下都具有良好穩定性;視覺模型在 ImageNet-100、ImageNet-1K 上均能在多種視圖設置與損失權重下保持穩定表現,且無需顯式監督即可學習豐富的語義分割特征。
在專業領域(如星系圖像)的數據集上,直接使用 LeJEPA 預訓練能優于當前主流的自監督模型,即使在千級樣本的小數據集上也能有效學習。
結果顯示,使用 LeJEPA 進行域內預訓練,在線性探測和全量微調這兩項評估中均顯著優于頂尖的前沿模型。
正則項的積分上下限、求積點數等參數對性能影響極小,而切片數量只在一定程度上帶來增益。
更重要的是,在不依賴預測器、寄存器 token 的情況下訓練也不會坍塌,說明不穩定性主要來自以往方法的目標本身,而非結構組件。
其訓練損失與下游準確率之間具有明顯的單調關系,通過簡單縮放可使相關性進一步接近線性,從而能夠在無標簽條件下進行模型選擇大規模實驗表明,該方法能在數億至十幾億參數的模型上保持穩定的訓練曲線,無需繁瑣參數調整。
可視化顯示,模型內部自然形成了具有語義意義的注意力模式,既能突出物體邊界,也能在視頻序列中形成時間一致的前景分割,表明其學到的表征同時具備空間語義和時間結構。
整體來看,LeJEPA 通過明確的分布正則和簡潔的多視圖預測目標,在穩定性、跨架構適用性、小樣本有效性以及下游可控性方面展現出顯著優勢。
參考資料:
https://arxiv.org/pdf/2511.08544