AI生圖細(xì)節(jié)崩壞終結(jié)者!RefineAnything:多模態(tài)區(qū)域級精修,文字/Logo/人臉一鍵修復(fù),背景像素級不變
作者:Dewei Zhou等
解讀:AI生成未來
效果展示
輸入:

參考圖:

prompt: "Refine the LOGO"
輸出:

輸入:
prompt: "refine the text '鼎好商城'"
輸出:
【導(dǎo)語】 AI生圖技術(shù)日新月異,但"局部細(xì)節(jié)崩壞"始終是落地應(yīng)用的痛點(diǎn)——文字扭曲、Logo變形、手指畸變、細(xì)小結(jié)構(gòu)斷裂,這些問題在電商海報、廣告設(shè)計、UI素材等高精度場景中尤為致命。現(xiàn)有的編輯模型大多聚焦于粗粒度的語義編輯,難以在不破壞背景的前提下精修局部細(xì)節(jié)。為此,研究團(tuán)隊提出了 RefineAnything——首個專注于區(qū)域級圖像精修的多模態(tài)擴(kuò)散框架。只需用戶指定一個區(qū)域(涂鴉或框選),即可恢復(fù)區(qū)域內(nèi)的精細(xì)細(xì)節(jié),同時嚴(yán)格保證區(qū)域外的每一個像素不變,支持有參考圖和無參考圖兩種模式。該工作已被 ECCV 2026 接收。代碼已開源,準(zhǔn)備 release ckpt。
一、挑戰(zhàn):AI生圖的"最后一公里"難題
現(xiàn)代圖像生成模型在整體構(gòu)圖和語義上已經(jīng)表現(xiàn)優(yōu)秀,但在局部精細(xì)細(xì)節(jié)上仍頻繁"翻車":
局部細(xì)節(jié)崩壞 (Local Detail Collapse) :生成圖像中的文字、Logo、細(xì)線條等高頻結(jié)構(gòu)經(jīng)常出現(xiàn)扭曲、斷裂或模糊,而這些細(xì)節(jié)恰恰是商業(yè)場景中最關(guān)鍵的信息載體。
區(qū)域控制能力薄弱 (Weak Region Controllability) :現(xiàn)有的指令驅(qū)動編輯模型難以精確控制"在哪里修",用戶無法有效指定修復(fù)區(qū)域。
背景漂移問題 (Background Drift) :編輯模型在修復(fù)局部時,往往會無意間改變背景內(nèi)容,尤其當(dāng)目標(biāo)區(qū)域在全圖中占比較小時更為嚴(yán)重。
RefineAnything 正是為了同時解決這三大難題而設(shè)計——區(qū)域精準(zhǔn)、細(xì)節(jié)有效、背景不變。
二、RefineAnything 的核心方法
1. 整體架構(gòu):多模態(tài)條件驅(qū)動的區(qū)域精修
RefineAnything 構(gòu)建于 Qwen-Image 架構(gòu)之上,由三個核心組件組成:
**凍結(jié)的多模態(tài)編碼器 (Qwen2.5-VL)**:將輸入圖像、可選的參考圖像、區(qū)域標(biāo)注(涂鴉/框選)和文字指令統(tǒng)一編碼為多模態(tài)條件token,為去噪過程提供高層語義引導(dǎo)。
VAE 視覺編碼器:將輸入圖和參考圖編碼為 VAE 潛變量,提供底層精細(xì)視覺信息,與多模態(tài)token協(xié)同作用。
MMDiT 去噪骨干網(wǎng)絡(luò):在多模態(tài)token和VAE潛變量的雙重條件下,逐步去噪生成精修結(jié)果。僅需對注意力投影層(to_q, to_k, to_v, to_out)做 LoRA 微調(diào)即可訓(xùn)練。
這一架構(gòu)統(tǒng)一支持有參考圖(如根據(jù)原始Logo參考修復(fù)變形Logo)和無參考圖(如僅憑文字指令"修復(fù)人臉")兩種使用場景。
2. Focus-and-Refine:聚焦裁剪,精修回貼
這是 RefineAnything 的核心創(chuàng)新之一,源于一個反直覺的關(guān)鍵發(fā)現(xiàn):
在固定輸入分辨率下,將目標(biāo)區(qū)域裁剪出來并上采樣到全圖分辨率后再送入 VAE,雖然沒有引入任何新信息,但區(qū)域內(nèi)的重建質(zhì)量卻顯著優(yōu)于直接對全圖編碼。
這說明制約局部精修質(zhì)量的瓶頸并非信息量不足,而是模型的固定分辨率資源是否被分配到了正確的位置。基于此,團(tuán)隊提出了三步式的 Focus-and-Refine 策略:
Step 1 — 區(qū)域定位與聚焦裁剪:根據(jù)用戶涂鴉/框選計算包圍盒,擴(kuò)展邊距后裁剪出目標(biāo)區(qū)域并上采樣至模型輸入分辨率,將分辨率資源集中在待修復(fù)區(qū)域。
Step 2 — 聚焦精修:在裁剪視圖上,以裁剪后的涂鴉Mask作為空間條件,執(zhí)行條件生成,配合可選參考圖產(chǎn)出精修結(jié)果。
Step 3 — 無縫回貼:對裁剪Mask進(jìn)行膨脹+高斯模糊生成柔和的融合Mask,將精修結(jié)果與原圖在裁剪區(qū)域內(nèi)加權(quán)混合后回貼到全圖,從架構(gòu)層面保證背景嚴(yán)格不變。
3. 邊界一致性損失 (Boundary Consistency Loss)
為進(jìn)一步消除回貼邊界處的接縫偽影,團(tuán)隊設(shè)計了一種邊界感知的訓(xùn)練損失:在編輯區(qū)域邊界附近的窄帶區(qū)域內(nèi)增強(qiáng)監(jiān)督權(quán)重,促使模型在訓(xùn)練階段就學(xué)會生成與周圍上下文自然融合的結(jié)果,顯著改善了回貼的自然度。
三、數(shù)據(jù)貢獻(xiàn):Refine-30K 數(shù)據(jù)集與 RefineEval 評測基準(zhǔn)
Refine-30K 訓(xùn)練數(shù)據(jù)集
團(tuán)隊構(gòu)建了包含 30K 樣本的專用訓(xùn)練集:
20K 有參考圖樣本:通過 VLM 跨圖定位 → SAM3 分割 → 涂鴉式局部降質(zhì) → 受控修復(fù)的完整流水線,生成高質(zhì)量的配對數(shù)據(jù)。
10K 無參考圖樣本:在單圖上定位顯著目標(biāo)、生成局部降質(zhì),并引入 VLM 缺陷驗(yàn)證機(jī)制過濾不合理的退化樣本,確保數(shù)據(jù)質(zhì)量。
RefineEval 評測基準(zhǔn)
團(tuán)隊同時構(gòu)建了專用的評測基準(zhǔn) RefineEval,涵蓋 67 個案例、402 張退化輸入,分別評估有參考和無參考兩種設(shè)定下的編輯區(qū)域保真度和背景一致性。
四、實(shí)驗(yàn)結(jié)果:全面超越強(qiáng)基線
1. 有參考圖精修

RefineAnything 在所有指標(biāo)上全面領(lǐng)先:相比最強(qiáng)開源基線 Kontext,MSE 降低 **50%**,LPIPS 降低 **41%**,DINO/CLIP 相似度分別提升 +0.108/+0.100。更值得注意的是,背景保持指標(biāo)接近完美(MSE_bg=0.000, SSIM_bg=0.9997),從根本上消除了背景漂移問題。
2. 無參考圖精修

在無參考圖設(shè)定下,RefineAnything 在全部五個維度上均排名第一,相比最強(qiáng)基線 Qwen-Edit 全面提升 +0.4~0.8 分。
3. 消融實(shí)驗(yàn):各組件均不可或缺
去掉 Focus-and-Refine:精修質(zhì)量明顯下降,細(xì)微錯誤難以修復(fù),且可能引入新偽影。
去掉 Boundary Consistency Loss:回貼邊界處出現(xiàn)可見接縫、顏色不一致和結(jié)構(gòu)不合理的拼接。
兩個核心組件協(xié)同工作,才能實(shí)現(xiàn)高質(zhì)量的局部精修與無縫融合。
五、總結(jié)與展望
RefineAnything 首次將區(qū)域級圖像精修作為專門的問題設(shè)定進(jìn)行研究,提出了完整的解決方案:
Focus-and-Refine 策略將模型的分辨率資源集中在目標(biāo)區(qū)域,大幅提升精修效果;
Boundary Consistency Loss 消除回貼邊界偽影,確保修復(fù)結(jié)果與周圍內(nèi)容自然融合;
Refine-30K + RefineEval 為該方向的訓(xùn)練和評測提供了標(biāo)準(zhǔn)化的數(shù)據(jù)支撐。
該框架在保證背景像素級不變的前提下,實(shí)現(xiàn)了文字、Logo、人臉、手部等精細(xì)細(xì)節(jié)的高質(zhì)量恢復(fù),為 AI 生圖在商業(yè)級高精度場景中的落地掃清了"最后一公里"障礙。
【結(jié)語】
RefineAnything 以其"聚焦裁剪—精修—無縫回貼"的優(yōu)雅設(shè)計,為 AI 圖像生成領(lǐng)域的局部細(xì)節(jié)修復(fù)問題提供了首個系統(tǒng)性的解決方案。從電商產(chǎn)品圖到廣告設(shè)計,從 UI 素材到社交媒體內(nèi)容,這一工作為需要"像素級精準(zhǔn)"的實(shí)際應(yīng)用場景帶來了切實(shí)可行的技術(shù)支撐。
參考文獻(xiàn)
[1] RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details
原文標(biāo)題 : AI生圖細(xì)節(jié)崩壞終結(jié)者!RefineAnything:多模態(tài)區(qū)域級精修,文字/Logo/人臉一鍵修復(fù),背景像素級不變
發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費(fèi)】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













