免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

當前位置： OFweek 人工智能網 > 正文

視頻模型在真推理還是“演”推理？港中文等提出新基準拷問:Chain-of-Frame到底是真是假？

2025-11-13 16:00

作者：Ziyu Guo等

解讀：AI生成未來

引言

近年來，以 Veo、Sora 等為代表的視頻生成模型展現出驚人的生成能力，能夠合成高度逼真、時間連續的動態畫面。這些進展暗示，模型在視覺內容生成之外，或許已開始具備對物理世界結構與規律的潛在理解。

值得注意的是，Google 最新研究指出，諸如 Veo-3 等模型正在顯現出超越純粹生成的“涌現能力”，例如感知建模、動態預測以及推理能力。

由此催生出一個與語言模型“思維鏈”（Chain-of-Thought, CoT）相對應的新概念——幀鏈推理（Chain-of-Frame, CoF）。

其核心思想在于：視頻模型通過逐幀生成過程，構建連貫的視覺演化，從而體現思維與推理的過程。然而，一個關鍵問題仍懸而未決——這些模型是否真的具備零樣本推理（Zero-Shot Reasoning）能力？還是僅僅在模仿訓練數據中的表層模式？

為驗證這一點，來自香港中文大學、北京大學、東北大學等機構的研究團隊開展了系統研究，對 Veo-3 等模型的零樣本推理潛能進行全面評估，并提出了涵蓋空間、幾何、物理、時間等 12 個維度的綜合基準——MME-CoF。

什么是 Chain-of-Frame（CoF）？

“幀鏈推理（CoF）”可以視作語言中“思維鏈”（CoT）的視覺化形式：

CoT：通過逐步生成文本展示思考與推理路徑。CoF：通過逐幀生成畫面，以動態演化的方式呈現推理與決策過程。

這種方式使模型不僅輸出結果，更在生成的時間維度上“展示”其思考軌跡。

12 項推理挑戰概覽

研究團隊圍繞 12 個推理維度構建了系統測試，對 Veo-3 模型進行了實證評估。以下為部分典型任務摘要。

視覺細節推理（Visual Detail Reasoning）

目標：檢測模型保持細粒度視覺屬性（顏色、紋理）與空間關系的能力。

表現：對顯著、易識別物體表現較好。

局限：當目標較小、被遮擋或背景復雜時，模型易偏離任務目標或生成風格化偏差。

視覺追蹤推理（Visual Trace Reasoning）

目標：評估模型在動作序列中維持因果連續性的能力。

表現：在簡單任務中能生成連貫的短時序路徑。

局限：長時序或高邏輯依賴任務中，模型難以保持連貫因果關系。

物理推理（Physics-based Reasoning）

目標：測試模型是否理解重力、碰撞、摩擦等物理規律。

表現：能生成短期合理的動態畫面。

局限：經常違反物理約束（如能量守恒），僅在“模仿”物理而非真正推理。

真實世界空間推理（Real-World Spatial Reasoning）

目標：測試模型在視角變化下保持空間一致性的能力。

表現：簡單場景中能維持基本的方向與空間結構。

局限：在復雜多視角任務中常出現空間錯位或漂移。

3D 幾何推理（3D Geometry Reasoning）

目標：評估模型在立體折疊、旋轉與重構任務中的結構理解。

表現：在單步操作中具備一定三維感知。

局限：復雜組合變換時易崩壞，缺乏穩定幾何一致性。

2D 幾何推理（2D Geometry Reasoning）

目標：檢驗模型在平面構圖與形狀關系中的精確度。

表現：能識別并繪制基礎幾何關系。

局限：更傾向生成“好看”的圖形而非“正確”的幾何，易出現邏輯順序錯誤。

其他六個推理維度概覽

除上述6項外，其余6個維度同樣揭示了 Veo-3 的限制：

旋轉推理（Rotation Reasoning）：小角度旋轉可近似實現，大角度下結構崩壞。

圖表推理（Table & Chart Reasoning）：可模仿局部視覺模式，但缺乏對數值關系的真實理解。

物體計數（Object Counting Reasoning）：在靜態場景下表現良好，但動態環境中常出現漏數或重復。

GUI 推理（GUI Reasoning）：能生成點擊或拖動動作，但對操作目的與邏輯缺乏認知。

具身推理（Embodied Reasoning）：能識別物體位置與動作，但不遵守環境規則，偶有“作弊式”生成。

醫學推理（Medical Reasoning）：在放大或觀察局部細節時具備表面能力，但無法保持影像邏輯一致，易出現結構性錯誤。MME-CoF：首個視頻推理基準

研究團隊據此提出 MME-CoF，這是首個專門用于量化視頻模型推理能力的標準化評測體系。其主要特征包括：

首個系統化視頻推理評估框架；覆蓋 12 個維度；將抽象的推理過程轉化為視頻生成挑戰，以迫使模型在視覺上展示“幀鏈思考”。

基于 MME-CoF 基準，研究團隊對多個主流模型進行了量化評測（由 Gemini-2.5-Pro 評分，滿分 4 分）。結果顯示：

整體表現較低：多數模型平均得分不足 2 分，推理能力仍有限。優勢差異顯著：Sora-2 在物理、具身與醫學推理中表現相對突出；Veo-3 在真實空間推理上具優勢；Seedance-1.0-Pro 在旋轉與三維幾何任務中略勝一籌。總體趨勢：各模型均在特定方向具備偏好性，但仍停留在“模式重現”層面，尚未形成真正的邏輯推理能力。

結論：推理，還是表演？

通過對 Veo-3 等模型的實證分析，研究團隊得出如下結論：

缺乏真正的零樣本推理：當前視頻模型更多依賴數據模式，而非自主邏輯推演。生成強 ≠ 推理強：高質量的畫面并不代表深層理解。注重表象，忽視因果：生成結果“看似合理”，但常違背邏輯或物理規律。視頻模型可作為視覺推理系統的重要模塊，與語言或邏輯模型結合，推動多模態智能邁向真正的“通用理解”。

總體來看，本研究為學術界構建了一個系統且可驗證的實證評估框架，清晰揭示了視頻生成模型在從“內容生成”邁向“邏輯推理”，并邁向真正“通用視覺智能”過程中仍需跨越的核心瓶頸。

參考文獻

[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

原文標題 : 視頻模型在真推理還是“演”推理？港中文等提出新基準拷問:Chain-of-Frame到底是真是假？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號