11月7日,紐約大學助理教授謝賽寧發布了新成果 Cambrian-S。合著者還有 AI“教母”李飛飛和圖靈獎得主 Yann LeCun。
謝賽寧和研究團隊于去年構建了 Cambrian-1 模型,這是一個用于圖像的多模態模型開放式探索項目。謝賽寧在社交媒體中寫道,在擴展 Cambrian 系列之前,他們面臨三個問題:
真正的多模態智能意味著什么?
LLM 范式對感覺建模真的有意義嗎?
為什么人類的感知如此輕松、如此直覺,卻又如此強大?
謝賽寧認為,多模態模型缺少了某種根本性的東西。如果不先建立超級感知能力,就無法建立超級智能。
在他看來,超感知能力并不是指高級傳感器或更好的攝像頭。它講述的是數字生命體如何真正體驗世界,吸收源源不斷的輸入并從中學習。
謝賽寧團隊劃分了多模態智能從現代到未來的發展路徑:
- 0. 僅語言理解:缺乏感官能力;推理僅限于文本和符號。目前的多語言學習模型已經超越了這一階段,但仍然保留著其偏見的痕跡。
- 1. 語義感知:將像素解析為對象、屬性和關系。這與多層線性模型中存在的強大的多模態“展示與講述”能力相對應。
- 2. 流式事件認知:處理實時、無界的流,同時主動解釋和響應正在發生的事件。這與目前將多語言學習者(MLLM)打造為實時助手的努力方向一致。
- 3. 內隱三維空間認知:將視頻理解為三維世界的投影。智能體必須知道物體存在什么、它們在哪里、它們之間如何關聯以及它們如何隨時間變化。目前的多模態模型在這方面仍然非常有限。
- 4. 預測性世界建模:大腦通過基于先前預期預測潛在的世界狀態來進行“無意識推斷”。目前的多模態系統沒有能夠預測未來狀態、維持持久記憶或進行推理和計劃的內部模型。
團隊嘗試了一種全新的原型——預測感知(predictive sensing)。他們在 Cambrian-S 上訓練了一個潛變量幀預測(LFP)頭,并在推理過程中用兩種方式對 “surprise” 的程度進行估計及利用:
surprise-driven 的記憶管理 —— 壓縮或跳過不令人驚訝的幀,將算力集中在 “surprise” 的幀上
surprise-driven 的事件分割 —— 利用 “surprise” 的峰值來檢測事件邊界或場景變化
基準測試空間超感知
常用的視頻多語言語言學習(MLLM)基準測試大多側重于語言理解和語義感知,而忽略了超感知所需的更高級的空間和時間推理能力。
為了彌補這一關鍵缺陷,團隊引入了 VSI-S,這是一個專門用于探測空間感知中這些更復雜、更持續的方面的新基準測試,由兩個部分組成:
VSI-SRecall:長時域空間觀測和召回。
VSI-SCount:在不斷變化的視角和場景下進行連續計數
研究人員為向 Cambrian-1 模型輸入視頻設立了幾種實驗條件:
Multiple Frames (多幀): 模型處理從視頻片段中均勻采樣的 32 幀。這是文獻中表示視頻輸入的標準方法。
Single Frame (單幀): 模型僅處理給定視頻片段的中間幀。此條件測試對最少的、上下文核心的視覺信息的依賴程度。
Frame Captions (幀字幕): 模型不接收視頻幀,而是接收對應于相同 32 幀均勻采樣圖像的字幕。
為了更好地理解這些條件下的性能,團隊引入了另外兩個基準:
結果表明,Cambrian-1 是一款基于圖像的多級邏輯學習模型 (MLLM),無需任何視頻后訓練,即可在多個基準測試中取得合理的性能,在某些情況下,其準確率甚至比隨機水平高出 10-30%。這表明,這些基準測試所針對的大部分知識都可以通過標準的單圖像指令調優流程獲得。
然而,在兩個現有數據集 VSI-Bench 和 Tomato 上,該模型的性能低于隨機水平。對于 VSI-Bench,這主要是因為其空間理解問題需要真正的視頻感知以及有針對性的數據整理和訓練。對于 Tomato,該基準測試要求理解來自高幀率視頻的精細細節,所以這種結果也在預期之內。
使用文本字幕代替視覺輸入也能顯著提升性能,在 EgoSchema 等基準測試中,該模型的準確率比隨機猜測高出 20% 以上。
當前范式下的空間感知
研究人員從 10 個不同視頻類型和標注的來源收集數據,以提高多樣性。這種方法得到的數據集比從單一來源獲得的同等規模數據集要穩健得多。數據處理流程分為三步:
標注的真實視頻:多模態視覺空間推理依賴于對三維幾何和空間關系的扎實理解。
模擬數據:利用具身模擬器程序化地生成空間相關的視頻軌跡和問答對,在 ProcTHOR場景中渲染了 625 個視頻。
未標注的真實視頻:從 YouTube 收集了約 1.9 萬個房間巡覽視頻,并整合了來自機器人學習數據集的視頻。
數據有效性排名為:帶注釋的真實視頻 > 模擬數據 > 偽注釋圖像。
結果證明,更強的基礎模型在空間感知任務上能產生更好的 SFT 性能。
更強大的基礎模型能夠接觸到更多通用視頻數據,可以提高 SFT 后的空間感知能力。此外,采用更強大的基礎模型的 SFT 能夠增強空間理解能力。
結論
研究團隊認為,要實現超級智能,人工智能系統需要超越目前大多數多層邏輯模型(MLLM)所關注的基于文本的知識和語義感知,同時發展空間認知和預測性世界模型。
盡管 Cambrian-S 在標準基準測試中表現良好,但其在 VSI-S 數據集上的結果揭示了當前 MLLM 范式的局限性。研究人員利用潛在幀預測和意外估計技術,構建了預測感知原型來處理無界視覺流。該原型提升了 Cambrian-S 在 VSI-S 數據集上的性能。
相關人員表示,目前的基準測試、數據集和模型設計在質量、規模和泛化能力方面仍存在局限性,原型僅作為概念驗證。未來的工作應探索更多樣化、更具具身性的場景,并與視覺、語言和世界建模領域的最新進展建立更緊密的聯系。
參考資料:
https://arxiv.org/pdf/2511.04670