免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

<strike id="kmwgk"><blockquote id="kmwgk"></blockquote></strike>

當前位置： OFweek 人工智能網 > 計算機視覺 > 正文

謝賽寧、李飛飛、LeCun 聯手提出多模態大模型新范式，建立模型的“超級感知能力”

2025-11-13 18:27

來源： OFweek人工智能網

11月7日，紐約大學助理教授謝賽寧發布了新成果 Cambrian-S。合著者還有 AI“教母”李飛飛和圖靈獎得主 Yann LeCun。

謝賽寧和研究團隊于去年構建了 Cambrian-1 模型，這是一個用于圖像的多模態模型開放式探索項目。謝賽寧在社交媒體中寫道，在擴展 Cambrian 系列之前，他們面臨三個問題：

真正的多模態智能意味著什么？
LLM 范式對感覺建模真的有意義嗎？
為什么人類的感知如此輕松、如此直覺，卻又如此強大？

謝賽寧認為，多模態模型缺少了某種根本性的東西。如果不先建立超級感知能力，就無法建立超級智能。

在他看來，超感知能力并不是指高級傳感器或更好的攝像頭。它講述的是數字生命體如何真正體驗世界，吸收源源不斷的輸入并從中學習。

謝賽寧團隊劃分了多模態智能從現代到未來的發展路徑：

0. 僅語言理解：缺乏感官能力；推理僅限于文本和符號。目前的多語言學習模型已經超越了這一階段，但仍然保留著其偏見的痕跡。
1. 語義感知：將像素解析為對象、屬性和關系。這與多層線性模型中存在的強大的多模態“展示與講述”能力相對應。
2. 流式事件認知：處理實時、無界的流，同時主動解釋和響應正在發生的事件。這與目前將多語言學習者（MLLM）打造為實時助手的努力方向一致。
3. 內隱三維空間認知：將視頻理解為三維世界的投影。智能體必須知道物體存在什么、它們在哪里、它們之間如何關聯以及它們如何隨時間變化。目前的多模態模型在這方面仍然非常有限。
4. 預測性世界建模：大腦通過基于先前預期預測潛在的世界狀態來進行“無意識推斷”。目前的多模態系統沒有能夠預測未來狀態、維持持久記憶或進行推理和計劃的內部模型。

團隊嘗試了一種全新的原型——預測感知（predictive sensing）。他們在 Cambrian-S 上訓練了一個潛變量幀預測（LFP）頭，并在推理過程中用兩種方式對 “surprise” 的程度進行估計及利用：

surprise-driven 的記憶管理 —— 壓縮或跳過不令人驚訝的幀，將算力集中在 “surprise” 的幀上
surprise-driven 的事件分割 —— 利用 “surprise” 的峰值來檢測事件邊界或場景變化

基準測試空間超感知

常用的視頻多語言語言學習（MLLM）基準測試大多側重于語言理解和語義感知，而忽略了超感知所需的更高級的空間和時間推理能力。

為了彌補這一關鍵缺陷，團隊引入了 VSI-S，這是一個專門用于探測空間感知中這些更復雜、更持續的方面的新基準測試，由兩個部分組成：

VSI-SRecall：長時域空間觀測和召回。
VSI-SCount：在不斷變化的視角和場景下進行連續計數

研究人員為向 Cambrian-1 模型輸入視頻設立了幾種實驗條件：

Multiple Frames (多幀): 模型處理從視頻片段中均勻采樣的 32 幀。這是文獻中表示視頻輸入的標準方法。
Single Frame (單幀): 模型僅處理給定視頻片段的中間幀。此條件測試對最少的、上下文核心的視覺信息的依賴程度。
Frame Captions (幀字幕): 模型不接收視頻幀，而是接收對應于相同 32 幀均勻采樣圖像的字幕。

為了更好地理解這些條件下的性能，團隊引入了另外兩個基準：

盲測：模型僅使用任務問題本身來嘗試完成任務。所有視覺輸入均被忽略，不使用任何視覺提示。此基準測試基于模型已有的知識、語言先驗以及基準問題中可能存在的任何偏差來衡量模型的性能。
隨機準確率：這代表了在特定任務形式下隨機猜測所能達到的準確率，作為表現的最低標準。

結果表明，Cambrian-1 是一款基于圖像的多級邏輯學習模型 (MLLM)，無需任何視頻后訓練，即可在多個基準測試中取得合理的性能，在某些情況下，其準確率甚至比隨機水平高出 10-30%。這表明，這些基準測試所針對的大部分知識都可以通過標準的單圖像指令調優流程獲得。

然而，在兩個現有數據集 VSI-Bench 和 Tomato 上，該模型的性能低于隨機水平。對于 VSI-Bench，這主要是因為其空間理解問題需要真正的視頻感知以及有針對性的數據整理和訓練。對于 Tomato，該基準測試要求理解來自高幀率視頻的精細細節，所以這種結果也在預期之內。

使用文本字幕代替視覺輸入也能顯著提升性能，在 EgoSchema 等基準測試中，該模型的準確率比隨機猜測高出 20% 以上。

當前范式下的空間感知

研究人員從 10 個不同視頻類型和標注的來源收集數據，以提高多樣性。這種方法得到的數據集比從單一來源獲得的同等規模數據集要穩健得多。數據處理流程分為三步：

標注的真實視頻：多模態視覺空間推理依賴于對三維幾何和空間關系的扎實理解。
模擬數據：利用具身模擬器程序化地生成空間相關的視頻軌跡和問答對，在 ProcTHOR場景中渲染了 625 個視頻。
未標注的真實視頻：從 YouTube 收集了約 1.9 萬個房間巡覽視頻，并整合了來自機器人學習數據集的視頻。

數據有效性排名為：帶注釋的真實視頻 > 模擬數據 > 偽注釋圖像。

結果證明，更強的基礎模型在空間感知任務上能產生更好的 SFT 性能。

更強大的基礎模型能夠接觸到更多通用視頻數據，可以提高 SFT 后的空間感知能力。此外，采用更強大的基礎模型的 SFT 能夠增強空間理解能力。

結論

研究團隊認為，要實現超級智能，人工智能系統需要超越目前大多數多層邏輯模型（MLLM）所關注的基于文本的知識和語義感知，同時發展空間認知和預測性世界模型。

盡管 Cambrian-S 在標準基準測試中表現良好，但其在 VSI-S 數據集上的結果揭示了當前 MLLM 范式的局限性。研究人員利用潛在幀預測和意外估計技術，構建了預測感知原型來處理無界視覺流。該原型提升了 Cambrian-S 在 VSI-S 數據集上的性能。

相關人員表示，目前的基準測試、數據集和模型設計在質量、規模和泛化能力方面仍存在局限性，原型僅作為概念驗證。未來的工作應探索更多樣化、更具具身性的場景，并與視覺、語言和世界建模領域的最新進展建立更緊密的聯系。

參考資料：

https://arxiv.org/pdf/2511.04670

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<noscript id="sy64c"></noscript>

<dfn id="sy64c"><kbd id="sy64c"></kbd></dfn>

<pre id="sy64c"><noscript id="sy64c"></noscript></pre>

<noframes id="sy64c"><noscript id="sy64c"></noscript></noframes>

<kbd id="sy64c"></kbd>