大型語言模型 (LLM) 盡管僅基于文本進行訓練,卻意外地能夠發展出豐富的視覺先驗。這些先驗使得模型能夠利用相對少量的多模態數據來解鎖潛在的視覺能力,從而完成視覺任務。在某些情況下,甚至無需任何圖像即可執行視覺任務。
Meta 與牛津大學研究團隊近日發布的一篇論文表示,LLM 的潛在視覺推理能力主要通過基于推理中心數據(例如代碼、數學、學術)的預訓練而發展,并且會逐步擴展。這種從語言預訓練中獲得的推理先驗具有可遷移性,并且普遍適用于視覺推理。
基于這個發現,Meta 提出了一種以數據為中心的視覺感知 LLM 預訓練方案,并在 1T token 規模的預訓練中進行了驗證。
以下是論文的主要亮點。
研究與發現
在預訓練的過程中,團隊僅使用了一套解碼器的 Transformer 模型,這些模型嚴格遵循 Llama-3 架構,涵蓋五種模型規模參數。這些模型針對不同數量的 token 進行訓練,token 數量最多達到 1T。
這些研究探討了模型和數據規模、數據源、視覺世界和推理數據混合等基本變量的影響。
模型和數據大小的影響
研究表明,VQA 性能與模型和數據規模呈正相關。然而,這種正相關關系在所有視覺能力中并不統一。
模型大小和預訓練數據大小通常都會帶來更強的下游多模態性能。這對于整體平均 VQA 來說是正確的。然而,仔細觀察不同的 VQA 類別會發現明顯的細微差別。通用 VQA 和知識 VQA 的性能表現出類似的擴展趨勢,隨著模型和數據大小的增加而持續提高。與此形成鮮明對比的是,OCR 和圖表 VQA 對模型大小的敏感度遠高于數據量;模型之間的性能差距明顯更大。
預訓練數據源的影響
除此之外,特定類別的語言預訓練數據可以增強最終 MLLM 中的某些視覺能力。特別是與推理和視覺世界相關的數據,可以顯著提高以視覺為中心的任務性能。
結果顯示,下游多模態性能因預訓練數據源的不同而存在顯著差異。這種差異表明,不同類別的文本數據導致了截然不同且不均勻的視覺先驗。值得注意的是,在以視覺為中心的 VQA 任務中,出色的性能與兩類數據高度相關:一類是以推理為中心(例如代碼、數學、學術)的數據,另一類是富含視覺世界描述的語料庫(例如藝術、美食)。
推理和視覺數據比例的影響
團隊發現,少量有關視覺世界的數據至關重要,但其貢獻很快就會飽和。相反,增加預訓練組合中以推理為中心的數據的比例會逐步增強視覺能力,性能提升率最高可達 75%。
增加以推理為中心的數據的比例會帶來顯著的性能提升,其優勢在達到 75% 后趨于穩定。這表明強大的推理基礎對于提升視覺能力至關重要。相比之下,明確描述視覺世界的數據呈現出收益迅速遞減的趨勢,只有少量此類數據對于建立基線至關重要。
討論和假設
Meta 還提出三個關鍵假設,分別關于感知先驗的結構、推理的普遍性以及數據結構在跨模態匹配中的作用。
感知先驗是多層次的嗎?
之前的分析表明,感知先驗的起源是彌散的,在多樣化的數據中表現得最為明顯。這種先驗是一種統一的能力,還是具有更細粒度的特征?
結果表明,感知先驗確實與尺度相關。一個可能的解釋是,多樣化、非結構化文本包含海量詞匯,這種文本豐富性迫使模型學習對細粒度視覺概念敏感的表征,而這種能力在識別大型、明顯的物體時并不那么重要。
推理能力是否是一種通用的、跨模態的技能,并且在預訓練階段就已習得?
團隊認為,LLM 從文本中獲得的推理能力并不局限于語言領域。通過對以推理為中心的數據進行預訓練,模型可以學習抽象的、可推廣的邏輯、結構和組合性原則。
結果顯示,LLM 從文本中學習到的推理能力可以遷移到視覺領域。團隊觀察到一個明顯的趨勢:隨著以推理為中心的數據比例的增加,模型生成的視覺推理不僅邏輯上更加合理,篇幅也顯著增加。例如,將代碼推理數據的比例從 0% 提高到 100%,邏輯合理性從 4.52% 提升到 9.52%,推理深度也增加了六倍多。
語言數據結構是否能驅動視覺數據的表征一致性?
團隊提出語言數據的結構特性可以部分驅動與視覺數據的表征一致性的假設。
結果表明,LLMvision 對齊分數總體呈現正向但非單調的趨勢。隨著結構化推理數據比例的增加,對齊得分通常會提高,這表明從抽象結構中學習可以形成更一致的潛在空間。然而,這種趨勢在 75% 的比例下達到峰值,然后在 100% 時下降。這可能是因為純粹基于推理數據訓練的模型學習了抽象結構,但缺乏來自其他文本類型所需的詞匯來有效地將其映射到不同的視覺概念上,從而阻礙了最終的對齊。
參考資料:https://arxiv.org/pdf/2509.26625