鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!
作者:Tianyang Han等
解讀:AI生成未來
本文第一作者Tianyang Han是美團MeiGen團隊的算法研究科學家,主要研究方向是圖像生成和多模態大語言模型。

亮點直擊
PicWorld,一個旨在評估文本到圖像模型隱含推理能力的綜合性基準。據我們所知,PicWorld是首個大規模、系統性的基準,專門用于評估模型對隱含世界知識(如遵循基本物理定律)和邏輯因果推理的理解。
提出了PW-Agent,一種新穎的自動化評估框架,它采用基于智能體分解的層次化評估。這種多智能體流程系統地將復雜提示分解為可驗證的物理和邏輯組件,從而實現對模型在基準上表現的可復現和可擴展分析。
全面實驗表明,現有的文本到圖像模型,特別是開源模型,在物理和邏輯推理能力上表現出局限性,這凸顯了未來需要改進的關鍵領域。
總結速覽
解決的問題
核心能力缺失:當前文生圖模型缺乏對隱含世界知識和物理因果推理的理解。它們能生成逼真且符合指令的圖像,但在需要常識和邏輯推理的提示詞上經常失敗。
評估體系不完善:現有的評估方法要么側重于組合對齊(即圖像是否包含提示詞中提到的元素),要么依賴單輪視覺問答進行打分。這導致對知識基礎、多物理交互和可審計的證據等關鍵維度的測試嚴重不足。
評估方法不可靠:依賴多模態大語言模型進行整體評判的現有方法存在幻覺(看到不存在的東西)、中心傾向偏差(打分趨于中庸)等問題,無法進行精細、可靠的評估。
提出的方案
PicWorld基準:提出了第一個用于系統評估文生圖模型隱含世界知識掌握程度和物理因果推理能力的綜合基準。它包含1,100個提示詞,涵蓋三個核心類別:
物理世界
抽象知識
邏輯與常識推理
PW-Agent評估框架:設計了一個基于證據的多智能體評估管道,以進行分層、精細化的評估。該框架包含四個專門化的智能體:
世界知識提取器:將提示詞分解為原子化的、可圖像驗證的期望。
假設構建器:根據分解出的期望,構建可驗證的視覺問題。
視覺感知器:從圖像中尋找視覺證據來回答問題。
推理評判器:通過基于演繹的連續評分方案,結合檢查清單式的原子性和重要性權重,匯總答案并給出最終分數。
應用的技術
多模態大語言模型:
基準構建:利用先進的MLLM(文中提及Gemini-2.5-Pro)來生成初始提示詞,并輔以人工嚴格篩選以確保質量。
評估框架:PW-Agent的核心組件(如WKE, HF, VP, RJ)本質上是基于MLLM構建的智能體,協同完成解析、提問、感知和推理評判的任務。
多智能體系統:采用分工協作的多智能體框架,將復雜的評估任務分解為更專業、可管理的子任務,以提高評估的準確性、可靠性和可解釋性。
分層評估維度:PW-Agent從三個層次對圖像進行評估:指令遵循物理/邏輯真實性細節與細微差別
達到的效果
系統性評估:PicWorld基準首次系統性地測試了文生圖模型對場景隱含后果的理解,而不僅僅是其顯式描述的組件。
精細化和可解釋的分析:PW-Agent通過分解提示詞和基于證據的驗證,提供了細粒度、多層面的分數,能夠深入且可解釋地分析模型的推理能力缺陷。
揭示模型根本性局限:對17個主流文生圖模型的全面分析表明,它們在不同程度上普遍存在對隱含世界知識和物理因果推理能力的根本性局限。
指明未來方向:該研究強調了未來文生圖系統需要集成推理能力和知識的架構,而不僅僅是提升圖像質量和顯式指令跟隨能力。
PicWorld 基準測試
當前的評估方法主要關注語義的一致性和組合的準確性,在很大程度上未對模型理解基本世界動態的能力進行評估。為了填補文本生成圖像(T2I)模型隱性世界認知評估的空白,本工作構建了 PicWorld,旨在對 T2I 模型學習到的隱性自然規律進行整體且細粒度的評估。
PicWorld 基準構建
如下圖 3 所示,PicWorld 包含總共 1,100 個精心策劃的提示詞(prompts),系統地組織在三個主要領域中。本工作手動設計了復雜的提示詞模板,每個模板都針對世界理解的特定方面。隨后,利用 Gemini-2.5-Pro 生成了大量的候選提示詞語料庫,并經過人類專家的嚴格篩選和完善,以確保清晰度和復雜性。具體而言,這三個部分的細節如下:

物理世界
PicWorld 的物理世界領域旨在評估模型理解和視覺模擬支配現實的基本規律的能力。一個真正理解世界的模型不僅應該識別物體,還應該呈現它們在各種物理約束下的行為。缺乏這種內在物理引擎的模型只能是一個非智能的生成器,只能描繪靜態物體,無法捕捉世界的動態因果本質。本工作將該領域進一步細分為三個核心類別:
力學與動力學:評估模型對變形、運動、流體動力學和拋體運動等概念的理解。
光與電磁學:考察模型對反射、折射、陰影和電現象等現象的掌握情況。
熱力學:評估相變和熱傳遞的知識。 最終,本工作為此方面生成了 550 個提示詞。
抽象知識
該領域包含 200 個提示詞,旨在評估模型理解并準確再現純粹存在于人類認知和文化空間中的概念的能力。缺乏這種能力的模型只能生成字面描繪,而無法掌握概念、圖表和文化敘事在世界中扮演的抽象符號角色。它分為三個類別:
STEM 概念 :測試模型作為精確事實概念的視覺知識庫的能力。例如,“水分子的球棍模型 的干凈、極簡主義科學教科書插圖”這一提示詞直接測量模型的化學結構知識,其中原子類型、數量和鍵角的準確性至關重要。
文化與歷史 :評估模型對文化和歷史意義系統的熟悉程度。
人文符號系統 :要求模型進一步分解為理解非敘事符號,如旗幟、圖標和樂譜。
邏輯與常識推理
該領域評估需要模型推斷邏輯關系并構建連貫場景的高階認知能力。沒有這種推理能力的模型生成的圖像雖然包含正確的元素,但在邏輯上是有缺陷的、空間不一致的或因果關系破裂的。本工作將該領域構建為三個類別:
因果性與時間性:旨在測試模型對因果關系和時間流逝的理解。例如,“一把濕的、黑色的長柄傘被帶進室內,打開并立在光滑、拋光的木地板上”這樣的提示詞,挑戰模型推斷出傘下有干燥的地板以及周圍有一灘水這一邏輯結果。
空間關系:探究模型對復雜和精確空間排列的理解。
綜合推理:設計為對最先進模型(SOTA)的上限測試,要求它們同時模擬和協調多個不同的物理定律。 本工作最終為此方面生成了 350 個提示詞。
如下圖 2 所示,本工作展示了 PicWorld 的一些數據樣本。

通過代理分解進行層次化評估
與以前直接評估圖像真實性或美學質量的方法不同,本工作設計了 PW-Agent,這是一個層次化、分步的分析框架,采用結構化、非線性且感知置信度的評分機制。PW-Agent 能夠對 AI 生成圖像的物理世界理解進行最終判斷,該判斷既具有高度區分性又非常可靠。PW-Agent 的整體流程如下圖4 所示。

本工作通過一個包含四個模塊的證據驅動管道來評估針對提示詞 生成的圖像 :世界知識提取器 (World Knowledge Extractor, WKE)、假設制定器 (Hypothesis Formulator, HF)、視覺感知器 (Visual Perceptor, VP) 和 推理評判器 (Reasoning Judger, RJ) 。這種設計是受到單次評判和粗略代理指標失敗的啟發,以及近期在問題驅動評估和以能力為中心的 T2I 基準測試(強調組合性、常識、物理和世界知識)方面取得的進展所驅動。
本工作在補充材料中提供了 PW-Agent 的偽代碼。
世界知識提取器 (WKE)
給定一個自然語言提示詞 ,WKE 推斷出一個結構化的原子級、圖像可驗證的期望清單(checklist)。這些期望必須在 隱含的任何正確單幀描繪中成立,重點關注文字暗示的內容,而不僅僅是重述它們。每個期望被定義為靜態圖像中的可見痕跡(例如,“圓潤的冰邊緣和周圍的水坑”,而不是“冰正在融化”),復合主張被系統地分解為最小的、獨立的項目,以確保全面覆蓋 可能僅隱式包含的潛在物理定律、因果后置條件、空間關系和事實知識。除了期望之外,WKE 還會輸出一個數值重要性值,定義了該期望應被強制執行的程度。 通常,WKE 生成一個集合 :
其中 是文本描述, 是重要性權重(低/中/高)。
假設制定器 (HF)
HF 將每個高級期望 轉化為具體的視覺問答(VQA)對,作為可審計的證據。這是通過生成一組二元或描述性問題 來實現的,如果這些問題的回答是肯定的,即確認了期望的滿足。這一步彌合了抽象推理與具體像素級檢測之間的差距。
視覺感知器 (VP)
VP 充當系統的眼睛。它接收圖像 和問題集 ,并輸出答案 以及置信度分數 和作為基本原理的邊界框或區域描述。為了盡量減少幻覺,我們利用具有強大視覺能力的 MLLM(如 GPT-4o 或 Gemini)來執行此任務,并明確指示僅基于可見像素進行回答。 對于每個問題 ,VP 輸出:
其中 是文本答案, 反映了檢測的確定性。
推理評判器 (RJ)
RJ 模塊并不進行簡單的平均,而是應用邏輯層次結構來計算最終得分。它通過三個層次聚合證據:
第 1 層:指令依從性 (Instruction Adherence)該層定量衡量模型遵循提示詞中顯式、字面指令的能力。它作為基礎檢查,用于驗證類型為 Existence(存在性)的問答對,例如核心主體的存在和指定屬性的準確性。它在一個扣分系統上運行,其中高重要性指令的嚴重失敗會導致最低分。 得分 計算如下:
其中 是所有失敗的 Existence 類型事實的集合, 是基于事實 的重要性的懲罰分數(高:5.0,中:3.0,低:1.0)。
第 2 層:物理/邏輯真實性 (Physics/Logical Realism)第 2 層評估生成的圖像在多大程度上符合物理和邏輯的基本定律,這是模型世界知識和推理能力的主要指標。該分數是通過根據重要性和相應的置信度分數對每個正確描述的現象(類型為 State)進行加權來計算的。 得分 計算如下:
其中 是事實 的重要性權重, 是相應的置信度分數, 是實現情況的指示函數。
第 3 層:細節與綜合細微差別 (Detail & Synthesis Nuance)第 3 層評估正確渲染的物理現象的質量和復雜性,旨在區分合格的輸出和卓越的輸出。它使用加分和扣分規則:獎勵極其詳細的渲染以加分,同時懲罰不同效果之間的邏輯不一致。這一層反映了模型以細微差別模擬世界復雜性的高級能力。 得分 計算如下:
其中 代表基礎分數, 代表卓越加分, 代表不一致懲罰。
最終聚合與報告本工作通過以下公式計算名為 PW-Score 的總分:
為了進一步利用 MLLM 強大的推理能力,還需要模型記錄一個人類可讀的思維過程,枚舉滿足/失敗的期望、應用的懲罰/獎勵以及上述公式中的中間值。
實驗
實驗設置
本工作選擇了 17 個最先進的模型進行評估,涵蓋三類架構:
基于擴散的模型:包括 FLUX.1-dev/schnell, Stable Diffusion (SD) 3.5 Large/Medium, SD 3 Medium, HiDream-l1-Full, Lumina-Image-2.0。統一多模態模型:包括 Emu3, JanusPro-1B/7B, JanusFlow-1.3B, Show-o-512, Bagel (帶/不帶 Thinking)。閉源模型:包括 DALL-E-3, Nano-Banana, SeedDream-4.0。 PW-Agent 使用 Qwen2.5-VL-72B 作為基礎模型。
主要結果
如下表 1 所示:

T2I 模型在隱性世界邏輯推理方面能力有限:幾乎所有模型在 STEM 和“因果性與時間性”類別上的得分都持續較低。即使是表現最好的 SeedDream-4.0,在 Symbol 和 STEM 上的得分也相對較低。這表明模型擅長復制視覺外觀(如陰影),但難以推斷隱性后果(如熱源附近的冰融化)。
閉源模型顯著優于開源模型:閉源模型(如 SeedDream-4.0)與大多數公開模型之間存在明顯的性能差距。這部分歸因于閉源系統在推理管道中集成了復雜的預處理和提示詞工程(利用 MLLM 重寫提示詞,將隱性挑戰轉化為顯性指令)。
模型在基于知識的任務上表現優于基于推理的任務:模型在 Culture(文化)和 Symbol(符號)類別上的表現普遍優于 STEM 和“因果性與時間性”。這是因為訓練數據通常包含豐富的顯性名義知識,但缺乏學習隱性因果或時間關系所需的結構化信息。
開源統一多模態模型的表現明顯低于領先的擴散模型:如 Emu3 和 JanusPro 系列等自回歸模型在 PicWorld 基準測試中通常處于較低的性能層級。這可能表明在模型的通用性與高保真物理模擬的專業能力之間存在權衡。
PW-Agent 的評估 (驗證 PW-Agent 的有效性):
與人類評估者的一致性:如下圖 5 所示,通過人類研究(3位資深工程師,成對比較),PW-Agent 與人類偏好的一致率達到 **90.5%**,表明其能有效辨別圖像質量和物理合理性的細微差別。
消融研究 (PW-Agent vs. 直接評判) :
將 PW-Agent 與使用 GPT-4o 進行零樣本直接評分的基線進行比較。
人類評估者在 81.5% 的情況下傾向于 PW-Agent 的評分和推理(如下表 2 所示)。
如下圖 6 所示,直接評判表現出強烈的集中趨勢偏差(分數分布壓縮),而 PW-Agent 利用了完整的評分范圍,具有更高的方差和區分度。

結論
PicWorld,這是一個以能力為中心的基準測試,直接測試 T2I 模型是否可以利用隱性世界知識并生成符合物理定律和因果邏輯的圖像。PicWorld 將評估從粗略的“提示詞-圖像”相關性轉變為經過驗證的、針對每個事實的證據,揭示了模型在知識落地、多物理交互以及超出提示詞顯式說明的邏輯后果方面的行為。
本工作進一步提出了 PW-Agent,這是一個基于證據的評估器,它將提示詞轉化為可審計的檢查項,并將像素級的發現聚合成透明的、分層的分數。這種方法既保留了基于查詢的評估的可擴展性,又減少了單次(one-shot)評判的偏差和不可靠性。
在 PicWorld 上的實驗表明,盡管具有強大的提示詞依從能力,最先進的系統——尤其是開源模型——在物理真實感和因果推理方面仍然舉步維艱。本工作希望 PicWorld 和 PW-Agent 的結合使用能為模型比較提供可操作的診斷,從而指導數據整理和推動方法的進一步發展。
參考文獻
[1] Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models
原文標題 : 鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













