媲美Nano Banana Pro!南科大階躍星辰等開源真實世界圖像恢復(fù)之王RealRestorer
作者:Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等
解讀:AI生成未來
該工作由南方科技大學(xué)、階躍星辰和中科院深圳先進(jìn)院等機(jī)構(gòu)聯(lián)合完成,并已同步發(fā)布論文、項目頁、模型和基準(zhǔn)測試。

亮點(diǎn)直擊
真實世界圖像修復(fù),不再只停留在“合成退化”,而是做一個更通用、更能落地的真實世界圖像修復(fù)模型。
基于大規(guī)模圖像編輯模型改造,兼顧“修得干凈”和“內(nèi)容不跑偏”,重點(diǎn)保留原圖的場景結(jié)構(gòu)、語義內(nèi)容和細(xì)粒度細(xì)節(jié),避免“修復(fù)過頭”“內(nèi)容變形”“語義漂移”等常見問題。
數(shù)據(jù)、模型、評測三位一體。論文不僅提出了模型本身,還構(gòu)建了更貼近真實分布的數(shù)據(jù)生成流程,并推出了新的真實世界評測基準(zhǔn) RealIR-Bench,模型在開源方法中登頂。
總結(jié)速覽
解決的問題
真實退化泛化差:傳統(tǒng)圖像修復(fù)方法往往在合成退化數(shù)據(jù)上訓(xùn)練和評估,一旦遇到真實拍攝中的復(fù)雜退化,泛化能力就會明顯下降。
評測方式不夠“真實”:很多修復(fù)任務(wù)依賴成對干凈圖像來算 PSNR、SSIM,但真實世界場景往往拿不到嚴(yán)格對齊的“真值圖”,導(dǎo)致傳統(tǒng)參考式指標(biāo)并不能準(zhǔn)確反映實際修復(fù)效果。
開源與閉源之間仍有明顯差距:閉源圖像編輯系統(tǒng)已經(jīng)展現(xiàn)出較強(qiáng)的真實修復(fù)能力,但開源側(cè)長期缺少一套可以媲美的方案。
提出的方案
核心框架:RealRestorer以開源圖像編輯模型 Step1X-Edit 為基礎(chǔ),沿用其大規(guī)模 DiT 架構(gòu)、QwenVL 文本編碼器和 Flux-VAE 表征能力,只微調(diào)其中的 DiT 主干,將原本偏高層編輯的能力遷移到低層真實修復(fù)任務(wù)上。
核心思路:通過大規(guī)模的編輯模型的強(qiáng)大先驗,配合合成退化數(shù)據(jù)和真實退化數(shù)據(jù)流水線,去訓(xùn)練一個強(qiáng)大的可以在真實世界場景泛化的圖像修復(fù)模型。
關(guān)鍵技術(shù)點(diǎn):
構(gòu)建覆蓋9類真實退化的大規(guī)模退化合成管線,引入更細(xì)粒度的噪聲建模、分區(qū)域擾動和 web 風(fēng)格退化過程,縮小合成分布與真實分布之間的差距。
額外采集真實退化圖像,并借助高性能模型生成對應(yīng)配對高質(zhì)量無退化數(shù)據(jù),以進(jìn)一步貼近真實世界分布。
采用兩階段訓(xùn)練:第一階段用約 100 萬組合成退化數(shù)據(jù)做遷移訓(xùn)練,第二階段再引入約 10 萬組真實退化數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。并在第二階段中使用 Progressively-Mixed 訓(xùn)練策略,保留少量合成數(shù)據(jù),避免模型過擬合真實樣本分布、損失跨任務(wù)泛化能力。
應(yīng)用的技術(shù)
大規(guī)模圖像編輯模型遷移。大規(guī)模圖像編輯模型擁有更強(qiáng)的語義先驗和內(nèi)容建模能力,因此更有潛力應(yīng)對復(fù)雜真實退化。
合成+真實混合數(shù)據(jù)構(gòu)建。作者不是簡單堆數(shù)據(jù),而是同時使用合成退化對和真實退化對,以此兼顧可擴(kuò)展性與真實性。
非參考評測基準(zhǔn)。RealIR-Bench 不依賴配對真值圖,而是引入 VLM 來評估 Restoration Score(RS),并結(jié)合 LPIPS 衡量內(nèi)容一致性,最終得到綜合的 Final Score(FS)。
達(dá)到的效果
開源SOTA:RealRestorer在 RealIR-Bench 上位居開源方法第一,并在總體排名中位列第三,并且非常接近頂級閉源模型。
多任務(wù)表現(xiàn)均衡:論文顯示,RealRestorer在9類任務(wù)上都有較強(qiáng)表現(xiàn),其中在去模糊和弱光增強(qiáng)上拿到最佳結(jié)果,在去摩爾紋上位列第二。整體上,它在開源模型中 5 項第一、2 項第二。
內(nèi)容一致性更強(qiáng):相比一些“修得很猛但內(nèi)容跑偏”的生編輯模型方法,RealRestorer更加注重結(jié)構(gòu)、語義和細(xì)節(jié)的保存,提升了真實應(yīng)用中的可用性。
具備零樣本泛化能力:除了論文重點(diǎn)覆蓋的9類退化,作者還報告了對未見任務(wù)的 zero-shot 泛化能力,例如雪天去退化、老照片修復(fù)等場景。
方法
模型設(shè)計
RealRestorer基于 Step1X-Edit 進(jìn)行微調(diào),核心骨干為大規(guī)模 DiT,文本側(cè)使用 QwenVL 編碼器,圖像則通過 Flux-VAE 映射到潛空間。訓(xùn)練時凍結(jié) VAE 與文本編碼器,僅微調(diào) DiT 主體,把原本偏“生成/編輯”的能力,逐步遷移到“真實修復(fù)”任務(wù)上。
數(shù)據(jù)集構(gòu)建

論文將訓(xùn)練數(shù)據(jù)分為兩部分:
1. 合成退化數(shù)據(jù)(Synthetic Degradation Data)
從互聯(lián)網(wǎng)收集干凈圖像,再對其進(jìn)行高質(zhì)量退化模擬。和傳統(tǒng)簡單退化不同,這套流程更加貼近真實拍攝中的復(fù)雜退化模式,并借助 SAM-2、MiDaS、VLM 和質(zhì)量評估模型進(jìn)行篩選與校驗。
2. 真實退化數(shù)據(jù)(Real-World Degradation Data)
直接從網(wǎng)絡(luò)采集真實退化圖像,再生成對應(yīng)的高質(zhì)量參考圖像,并通過 CLIP、水印檢測、Qwen3-VL 以及低層指標(biāo)做過濾和一致性檢查,最后配合人工復(fù)核保證質(zhì)量。
訓(xùn)練方案
RealRestorer采用兩階段訓(xùn)練:
第一階段:遷移訓(xùn)練(Transfer Training) 用大規(guī)模合成退化對,把圖像編輯模型的高層先驗遷移到圖像修復(fù)任務(wù)中,建立基礎(chǔ)修復(fù)能力。
第二階段:監(jiān)督微調(diào)(Supervised Fine-tuning) 進(jìn)一步引入真實退化數(shù)據(jù),加強(qiáng)模型對真實復(fù)雜場景的適應(yīng)能力。作者特別采用了漸進(jìn)式混合訓(xùn)練,在二階段訓(xùn)練的過程中加入部分合成退化數(shù)據(jù)對,讓模型在靠近真實分布的同時,不丟掉合成數(shù)據(jù)帶來的廣泛泛化能力。
二階段訓(xùn)練全程使用 1024×1024 高分辨率設(shè)置。
實驗
RealIR-Bench 是完全由互聯(lián)網(wǎng)采集的真實退化圖像組成,共 464 張,覆蓋9類退化,并通過人工過濾保證場景多樣性、退化強(qiáng)度和圖像質(zhì)量。與傳統(tǒng)“有真值”的合成測試集不同,它更強(qiáng)調(diào)真實環(huán)境下的修復(fù)能力。
評測方式:既看“修沒修好”,也看“內(nèi)容變沒變”
論文沒有只看 PSNR/SSIM,而是設(shè)計了兩類互補(bǔ)指標(biāo):
R S(Restoration Score):衡量退化去除效果;
LPIPS/LPS:衡量修復(fù)前后內(nèi)容一致性;
FS(Final Score):綜合兩者后的最終分?jǐn)?shù)。
結(jié)果表現(xiàn)
實驗表明,RealRestorer在 RealIR-Bench 上持續(xù)優(yōu)于現(xiàn)有開源圖像編輯模型,并取得與頭部閉源系統(tǒng)接近的效果。




消融實驗:兩階段訓(xùn)練不是“可選項”,而是性能關(guān)鍵

為了驗證方案設(shè)計是否真的有效,作者對訓(xùn)練數(shù)據(jù)和訓(xùn)練階段做了系統(tǒng)消融。結(jié)果顯示,僅使用約 100 萬組合成退化數(shù)據(jù)進(jìn)行第一階段訓(xùn)練時,模型雖然能夠逐步學(xué)到基礎(chǔ)修復(fù)能力,并在這一階段達(dá)到 0.122 的 FS 峰值,但對復(fù)雜真實退化的泛化仍然不足,而且隨著訓(xùn)練繼續(xù)推進(jìn),還會因為合成數(shù)據(jù)分布有限而出現(xiàn)性能回落。
進(jìn)一步引入約 10 萬組真實退化數(shù)據(jù)后,模型在第二階段能夠快速超過第一階段的最佳分?jǐn)?shù),并顯著提升真實場景下的泛化能力。但如果繼續(xù)在真實數(shù)據(jù)上訓(xùn)練過久,模型又會開始出現(xiàn)過擬合,因此作者采用了 early stopping 來控制最終 checkpoint。
作者還進(jìn)一步比較了不同訓(xùn)練策略的差異。只用合成退化數(shù)據(jù)訓(xùn)練的模型,對復(fù)雜真實退化仍顯得“修不干凈”;只用真實退化數(shù)據(jù)訓(xùn)練的模型,則容易過擬合退化模式,出現(xiàn)物體形變、人物位置漂移、自然光源被誤刪、過度增強(qiáng)等問題。相比之下,RealRestorer 采用的兩階段方案在“退化去除能力”和“內(nèi)容結(jié)構(gòu)穩(wěn)定性”之間取得了更好的平衡。
Progressively-Mixed 策略:防過擬合的關(guān)鍵一招
除了兩階段訓(xùn)練本身,論文還單獨(dú)分析了 Progressively-Mixed 策略的作用。作者在第二階段中保留少量合成退化數(shù)據(jù),與真實退化數(shù)據(jù)混合訓(xùn)練,以避免模型過度貼合有限的真實樣本分布。從可視化結(jié)果看,模型在結(jié)構(gòu)一致性和內(nèi)容保真方面也會更不穩(wěn)定。換句話說,這個混合策略雖然簡單,但對最終性能和觀感都是真實有效的增益。
User Study:自動化指標(biāo)和人眼判斷基本一致
為了驗證 RealIR-Bench 這套評測指標(biāo)是否真的“符合人類直覺”,作者還做了用戶研究。論文共招募 32 名參與者,對 5 個高表現(xiàn)模型生成的 3200 組結(jié)果進(jìn)行排序評價,評價標(biāo)準(zhǔn)包括兩項:一是修復(fù)質(zhì)量,二是內(nèi)容一致性。結(jié)果顯示,從人工主觀偏好來看,Nano Banana Pro 的第一名占比最高,為 32.02%;GPT-Image-1.5 排第二,為 23.83%;RealRestorer 以 21.54% 位列其后。這個排序趨勢與論文中自動評測得到的總體結(jié)果基本一致,說明該 benchmark 和指標(biāo)體系具備較好的可信度。
更進(jìn)一步,作者還計算了自動指標(biāo)與人工判斷之間的相關(guān)性,包括 Kendall’s τ、Spearman 相關(guān)系數(shù)(SRCC)和 Pearson 相關(guān)系數(shù)(PLCC)。結(jié)果表明評價指標(biāo)與人類感知之間達(dá)到了中等程度的一致性。對真實世界圖像修復(fù)這類缺乏嚴(yán)格真值圖的任務(wù)來說,這一點(diǎn)非常重要,因為它意味著 RealIR-Bench 不只是“能算分”,而是一定程度上能夠反映真實用戶的主觀觀感。

結(jié)論
RealRestorer的意義,不只是“又一個圖像修復(fù)模型”,而是給開源社區(qū)補(bǔ)上了一塊長期缺失的拼圖: 一個面向真實世界、多退化統(tǒng)一、兼顧修復(fù)質(zhì)量與內(nèi)容一致性,并且配套完整 benchmark 的開源修復(fù)方案。 當(dāng)然,RealRestorer也存在一些局限:由于基礎(chǔ)模型本身需要 28 步去噪推理,計算成本仍然較高;面對鏡子自拍、極端強(qiáng)退化、復(fù)雜物理一致性場景時,模型仍可能失效。
參考文獻(xiàn)
[1] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
原文標(biāo)題 : 媲美Nano Banana Pro!南科大&階躍星辰等開源真實世界圖像恢復(fù)之王RealRestorer
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費(fèi)】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













