視頻模型在真推理還是“演”推理?港中文等提出新基準拷問:Chain-of-Frame到底是真是假?
作者:Ziyu Guo等
解讀:AI生成未來
引言
近年來,以 Veo、Sora 等為代表的視頻生成模型展現出驚人的生成能力,能夠合成高度逼真、時間連續的動態畫面。這些進展暗示,模型在視覺內容生成之外,或許已開始具備對物理世界結構與規律的潛在理解。
值得注意的是,Google 最新研究指出,諸如 Veo-3 等模型正在顯現出超越純粹生成的“涌現能力”,例如感知建模、動態預測以及推理能力。
由此催生出一個與語言模型“思維鏈”(Chain-of-Thought, CoT)相對應的新概念——幀鏈推理(Chain-of-Frame, CoF)。
其核心思想在于:視頻模型通過逐幀生成過程,構建連貫的視覺演化,從而體現思維與推理的過程。然而,一個關鍵問題仍懸而未決——這些模型是否真的具備零樣本推理(Zero-Shot Reasoning)能力?還是僅僅在模仿訓練數據中的表層模式?
為驗證這一點,來自香港中文大學、北京大學、東北大學等機構的研究團隊開展了系統研究,對 Veo-3 等模型的零樣本推理潛能進行全面評估,并提出了涵蓋空間、幾何、物理、時間等 12 個維度的綜合基準——MME-CoF。

什么是 Chain-of-Frame(CoF)?
“幀鏈推理(CoF)”可以視作語言中“思維鏈”(CoT)的視覺化形式:
CoT:通過逐步生成文本展示思考與推理路徑。CoF:通過逐幀生成畫面,以動態演化的方式呈現推理與決策過程。
這種方式使模型不僅輸出結果,更在生成的時間維度上“展示”其思考軌跡。
12 項推理挑戰概覽
研究團隊圍繞 12 個推理維度構建了系統測試,對 Veo-3 模型進行了實證評估。以下為部分典型任務摘要。
視覺細節推理(Visual Detail Reasoning)
目標:檢測模型保持細粒度視覺屬性(顏色、紋理)與空間關系的能力。
表現:對顯著、易識別物體表現較好。
局限:當目標較小、被遮擋或背景復雜時,模型易偏離任務目標或生成風格化偏差。
視覺追蹤推理(Visual Trace Reasoning)
目標:評估模型在動作序列中維持因果連續性的能力。
表現:在簡單任務中能生成連貫的短時序路徑。
局限:長時序或高邏輯依賴任務中,模型難以保持連貫因果關系。
物理推理(Physics-based Reasoning)
目標:測試模型是否理解重力、碰撞、摩擦等物理規律。
表現:能生成短期合理的動態畫面。
局限:經常違反物理約束(如能量守恒),僅在“模仿”物理而非真正推理。
真實世界空間推理(Real-World Spatial Reasoning)
目標: 測試模型在視角變化下保持空間一致性的能力。
表現: 簡單場景中能維持基本的方向與空間結構。
局限: 在復雜多視角任務中常出現空間錯位或漂移。
3D 幾何推理(3D Geometry Reasoning)
目標: 評估模型在立體折疊、旋轉與重構任務中的結構理解。
表現: 在單步操作中具備一定三維感知。
局限: 復雜組合變換時易崩壞,缺乏穩定幾何一致性。
2D 幾何推理(2D Geometry Reasoning)
目標: 檢驗模型在平面構圖與形狀關系中的精確度。
表現: 能識別并繪制基礎幾何關系。
局限: 更傾向生成“好看”的圖形而非“正確”的幾何,易出現邏輯順序錯誤。
其他六個推理維度概覽
除上述6項外,其余6個維度同樣揭示了 Veo-3 的限制:
旋轉推理(Rotation Reasoning):小角度旋轉可近似實現,大角度下結構崩壞。
圖表推理(Table & Chart Reasoning):可模仿局部視覺模式,但缺乏對數值關系的真實理解。
物體計數(Object Counting Reasoning):在靜態場景下表現良好,但動態環境中常出現漏數或重復。
GUI 推理(GUI Reasoning):能生成點擊或拖動動作,但對操作目的與邏輯缺乏認知。
具身推理(Embodied Reasoning):能識別物體位置與動作,但不遵守環境規則,偶有“作弊式”生成。
醫學推理(Medical Reasoning):在放大或觀察局部細節時具備表面能力,但無法保持影像邏輯一致,易出現結構性錯誤。MME-CoF:首個視頻推理基準
研究團隊據此提出 MME-CoF,這是首個專門用于量化視頻模型推理能力的標準化評測體系。其主要特征包括:
首個系統化視頻推理評估框架;覆蓋 12 個維度;將抽象的推理過程轉化為視頻生成挑戰,以迫使模型在視覺上展示“幀鏈思考”。
基于 MME-CoF 基準,研究團隊對多個主流模型進行了量化評測(由 Gemini-2.5-Pro 評分,滿分 4 分)。結果顯示:
整體表現較低:多數模型平均得分不足 2 分,推理能力仍有限。優勢差異顯著:Sora-2 在物理、具身與醫學推理中表現相對突出;Veo-3 在真實空間推理上具優勢;Seedance-1.0-Pro 在旋轉與三維幾何任務中略勝一籌。總體趨勢:各模型均在特定方向具備偏好性,但仍停留在“模式重現”層面,尚未形成真正的邏輯推理能力。

結論:推理,還是表演?
通過對 Veo-3 等模型的實證分析,研究團隊得出如下結論:
缺乏真正的零樣本推理:當前視頻模型更多依賴數據模式,而非自主邏輯推演。生成強 ≠ 推理強:高質量的畫面并不代表深層理解。注重表象,忽視因果:生成結果“看似合理”,但常違背邏輯或物理規律。視頻模型可作為視覺推理系統的重要模塊,與語言或邏輯模型結合,推動多模態智能邁向真正的“通用理解”。
總體來看,本研究為學術界構建了一個系統且可驗證的實證評估框架,清晰揭示了視頻生成模型在從“內容生成”邁向“邏輯推理”,并邁向真正“通用視覺智能”過程中仍需跨越的核心瓶頸。
參考文獻
[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
原文標題 : 視頻模型在真推理還是“演”推理?港中文等提出新基準拷問:Chain-of-Frame到底是真是假?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













