ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區域監督的拖拽式圖像編輯新SOTA
作者:Zihan Zhou,Shilin Lu等
解讀:AI生成未來
亮點直擊
首個基于 Diffusion Transformer(DiT)架構量身打造的圖像精確區域編輯框架。
研究團隊摒棄了傳統的“逐點追蹤”思路,創新性地使用“區域仿射監督”范式,充分釋放了 FLUX.1 這類先進 DiT 模型的強大先驗能力。
針對以往方法在復雜場景下的失真問題,該方法建立了圖像拖拽編輯的新標桿。
為什么 DiT 時代的拖拽編輯需要新范式?
拖拽式圖像編輯(Drag-based Image Editing)允許用戶通過簡單的“拖點”交互,實現對圖像內容的精準操控,通過提供直接的空間位置干預,該方法在編輯控制性上遠超文本引導。然而,現有方法大多基于 UNet 架構基礎模型,如 Stable Diffusion (SD),普遍存在兩大瓶頸:
先驗能力不足:SD 生成先驗較弱,優化后的潛在向量(Latent)常常偏離真實圖像流形,使編輯后圖像出現扭曲、模糊等失真偽影;
架構不匹配:隨著 DiT 架構模型(如 FLUX)成為當前視覺生成主流,其強大的生成先驗為解決失真問題帶來了曙光。但我們發現,將傳統拖拽策略遷移到 DiT 架構上難以帶來直接有效的性能提升。
研究結果認為問題的根源在于 UNet 與 DiT 網絡層的特征圖粒度存在本質差異:

通過可視化(如下圖)可以發現,UNet 的特征多是模糊的語義團塊,這意味著我們即使在 UNet 使用“點”級別操作,依舊可以有效干預周遭語義信息;而相比之下縮放到同樣大小的 DiT 特征卻能夠清晰勾勒出物體的精細輪廓,如果依舊對后者進行“點”級別的追蹤和約束,將難以有效帶動區域特征編輯,如同盲人摸象。

提出的解決方案:DragFlow 編輯框架
為了攻克這一難題,我們提出了 DragFlow,一個專為 DiT 設計的 基于區域監督的 (region-based) 精確編輯框架。其核心創新包括:
區域級仿射監督 (Region-Level Affine Supervision):用整體區域的仿射變換替代脆弱的單點追蹤,為 DiT 提供更豐富、更穩定的監督信號,從根本上解決了特征不匹配問題,并最大化消除了點操作固有的交互歧義;
適配器增強的反演 (Adapter-Enhanced Inversion):集成預訓練的 IP-Adapter 等特征提取與適配器,通過額外注入 ID Embedding 顯著提升在 CFG-distilled 模型(如 FLUX.1)上的主體一致性與反演保真度;
硬約束背景保持 (Hard-Constrained Background Preservation):摒棄使用掩碼損失函數 (Mask Loss) 的經典方案,通過自適應梯度掩碼(Gradient Mask)對背景非編輯區域施加硬性保護,徹底避免了背景污染問題。
多模態大語言模型 (MLLM) 輔助交互:利用 MLLM 先行分析、理解用戶意圖,生成供用戶選擇的編輯提示詞和操作類型(如平移、形變、旋轉),提升交互精度并最大化減少用戶操作負擔。
DragFlow 的完整框架如下圖所示,它整合了 MLLM 輔助交互、IP-Adapter ID注入、Key & Value Caching,以及核心部分基于仿射的區域拖拽優化工作流。

方法詳解 | DragFlow:區域為王,精準掌控
DragFlow 的設計初衷是:將拖拽視為區域的整體變換,而非孤立點的位移。這套全新的范式,從監督方式、背景處理到身份保持,都為 DiT 的特性進行了深度定制。
① 區域級仿射監督:告別“點追蹤”的煩惱
DragFlow 的核心是創新的區域級監督策略。它不再依賴于在每一步迭代中追蹤手柄點的位置坐標,而是將用戶指定的源區域(Source Region)作為一個整體,通過仿射變換逐步“移動”到目標位置。
1. 迭代式潛在向量優化 (Iterative Latent Optimization)
整個拖拽過程通過優化噪聲化的潛在向量 來實現。優化的目標是讓經過仿射變換后的目標區域 的特征,與優化開始前源區域 的特征保持一致。
損失函數設計如下:

其中:
是從 DiT 中間層提取的特征。我們發現,DiT 的第 17 和 18 雙流塊(Double-stream Blocks)最適合用于拖拽優化。 是用戶指定的源區域掩碼,而 是在第 k 次迭代中,通過仿射變換計算出的目標區域掩碼。 表示 Stop-gradient,確保梯度只流向待優化的 。
2. 仿射變換驅動的掩碼傳播 (Affine Transformation for Mask Propagation)
目標掩碼 由源掩碼 經過一個逐步變化的仿射變換 得到。變換參數 根據編輯類型(平移、形變或旋轉)和迭代步數 線性插值生成。

這種設計的兩大優勢:
提供豐富的語義上下文:對整個區域的特征進行匹配,相比單點特征,能為 DiT 提供更穩定、更魯棒的梯度信號,有效避免局部最優和偽影。消除追蹤需求:由于DragFlow通過漸進式的幾何移動監督區域,而不是追蹤內容點,該方法從根本上避免了傳統方法中因追蹤失敗而導致的編輯鏈式崩潰問題,過程更加穩定可靠。
② 背景與主體保真度:為 DiT 量身定制的策略
僅僅有好的監督信號還不夠,在強大的 DiT 模型上,如何保持背景不變和主體身份一致,是更大的挑戰,尤其是在有“反演漂移”問題的 CFG-distilled 模型上。
1. 背景保持:從“軟約束”到“硬隔離”傳統方法使用輔助損失項 來約束背景區域,但這在 DragFlow 中效果不佳,因為它會與拖拽損失 相互競爭,且對反演誤差敏感。
我們的方案是施加硬約束:在每次梯度更新后,直接將背景區域的潛在向量重置為原始未編輯分支的值:

其中:
是包含所有編輯軌跡的背景掩碼。 則是來自一個純粹的重構分支,代表了最保真的原始背景信息。 這種“硬隔離”方法雖然增加少量計算開銷,但效果遠超軟約束,能實現近乎完美的背景保真度。
2. 主體一致性:適配器增強反演
傳統的鍵值注入(KV injection)在 FLUX 這類 CFG-distilled 模型上效果不佳。我們發現,FLUX 的反演漂移問題比 SD 更嚴重(見下表)。

為此,我們引入了適配器增強反演:在反演和生成過程中,注入一個預訓練好的開放域適配器(如 IP-Adapter)所提取的主體身份表征。這無需任何額外訓練,就能顯著提升反演質量和編輯后的主體一致性。
如下圖所示,通過額外在反演和取樣過程中加入 IP-Adapter Embedding 后,人物身份的保持效果遠超單獨使用 KV 注入。

實驗 | 兩大基準測試,全面 SOTA
為了全面評估 DragFlow,我們構建了一個新的區域級拖拽基準 **ReD Bench**,它包含更豐富的區域-區域對應、任務類型標簽(平移、形變、旋轉)和意圖描述。同時,我們也在現有的 DragBench-DR 上進行了兼容測試。
定量分析
如 Table 2 所示,DragFlow 在基于兩大基準的多個指標上取得了最佳表現:
**平均距離 (Mean Distance (MD))**:DragFlow 取得了最低的 和 ,這兩套 評估標準分別來源現有的 “點拖拽” 與 “塊拖拽” 方法,該結果意味著 DragFlow 的編輯結果與用戶指令的空間對齊精度達到了最高。**圖像保真度 (Image Fidelity (IF))**:DragFlow 在背景保真度()、源區塊到目標區塊的內容保真度()以及拖拽前后源區塊的內容區分度()上名列前茅,證明了其在精準編輯指定區域的同時,能最大程度保留圖像質量和主體特征。
定性分析
下圖展示了 DragFlow 與其他現有方法的視覺定性比較。無論是復雜的結構(建筑),非剛性形變(動物),還是精細內容(鉆井平臺),DragFlow 都能精準地執行拖拽指令,同時保持場景的整體連貫性和真實質感。相比之下,其他現有方法或伴隨嚴重結構扭曲、變換失敗、或意圖誤解等失敗情況出現。

消融實驗
我們通過逐一添加 DragFlow 的核心組件來驗證其有效性。結果(見 Table 3 和 Figure 6)清晰地表明:
從點基線切換到區域級仿射監督,MD 指標大幅降低 (51.21 -> 31.26),證明了區域監督的優越性;加入背景保持模塊后, 從 0.757 飆升至 0.925,背景質量顯著提升;最后引入適配器增強反演, 進一步提升,主體一致性得到加強,同時 MD 也降至最低 (20.15)。
定性分析(如下圖)展示了各項消融操作的前后效果對比:

同時,消融實驗中使用的多項量化指標也證實了 DragFlow 的各組件都是不可或缺且協同增效的:

總結 | DragFlow 開啟 DiT 精確編輯新紀元
DragFlow 是拖拽式編輯領域的一次范式革命,其貢獻與優勢可總結為:
首創 DiT 拖拽框架: 首次成功將拖拽式編輯的能力從 UNet 遷移并適配到更強大的 DiT 架構上,釋放了 FLUX 等模型的SOTA級生成先驗。區域監督核心: 提出的“區域級仿射監督”范式,用整體、魯棒的區域特征匹配替代了脆弱、稀疏的點特征追蹤,從根本上解決了 DiT 架構下的編輯難題。系統性保真設計: 結合適配器增強反演與硬約束背景保持,為存在反演漂移的 CFG-distilled 模型提供了兼顧主體一致性與背景純凈度的完整解決方案。構建新基準: 推出的 ReD Bench 為區域級拖拽編輯的研究提供了更全面、更貼近真實意圖的評估標準。
DragFlow 不僅在各項指標上全面超越現有方法,更重要的是,它為如何利用新一代 DiT 生成架構的強大先驗來進行精細化、可控的圖像編輯,指明了一條清晰而有效的道路。
參考文獻
[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
原文標題 : ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區域監督的拖拽式圖像編輯新SOTA
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













