CVPR 2026|“全能AI海報(bào)設(shè)計(jì)師”P(pán)osterOmni開(kāi)源: 6大任務(wù)笑傲開(kāi)源社區(qū),媲美閉源商用
作者:Sixiang Chen等
解讀:AI生成未來(lái)
很多AI 海報(bào)生成默認(rèn)從一句 prompt 出發(fā)(Text-to-Poster)。但在真實(shí)設(shè)計(jì)流程里,更常見(jiàn)的起點(diǎn)其實(shí)是一張參考圖/舊海報(bào)/產(chǎn)品主視覺(jué):你希望在保留關(guān)鍵主體的前提下,完成擴(kuò)圖、補(bǔ)全、改比例、換風(fēng)格、換布局等操作,最終得到一張“更像成品海報(bào)”的結(jié)果。
PosterOmni 圍繞的核心一句話是:
one model for generalized multi-task image/poster-to-poster generation
用同一個(gè)開(kāi)源模型,統(tǒng)一覆蓋常見(jiàn)設(shè)計(jì)側(cè)需求:既能做精細(xì)編輯,也能做高層次的風(fēng)格與版式再創(chuàng)作。
傳統(tǒng)很多方案更像“一套修圖工具 + 一套生成工具”拼在一起,能做但經(jīng)常割裂;
PosterOmni 更像一個(gè)“從參考稿出發(fā)的設(shè)計(jì)助理”:你給它一張參考圖,它既能細(xì)修,又能按風(fēng)格/布局意圖重構(gòu)。
亮點(diǎn)直擊
1)統(tǒng)一“圖生海報(bào)”范式:一個(gè)模型覆蓋六類典型設(shè)計(jì)任務(wù)
PosterOmni 不把海報(bào)能力拆成多個(gè)模型/插件,而是把 image/poster-to-poster 的典型需求系統(tǒng)化為 6 類任務(wù),并統(tǒng)一在單一模型中:
局部編輯(精修類):Extend(擴(kuò)圖)、Fill(補(bǔ)全)、Rescale(改比例)、Identity-driven(ID 保持)
全局創(chuàng)作(再設(shè)計(jì)類):Style-driven(風(fēng)格參考)、Layout-driven(布局參考)
重點(diǎn)不在“任務(wù)列表”,而在它們共同對(duì)應(yīng)一個(gè)現(xiàn)實(shí)工作流:
給定參考圖/舊海報(bào) → 按需求做編輯/重排/換風(fēng)格/換布局 → 輸出新海報(bào)。

2)“數(shù)據(jù)—蒸餾—獎(jiǎng)勵(lì)”閉環(huán):讓 one model 同時(shí)兼顧精修與創(chuàng)作,減少多任務(wù)互相干擾
多任務(wù)最難的問(wèn)題之一是干擾:局部編輯強(qiáng)調(diào)像素一致、主體自然保持;全局創(chuàng)作強(qiáng)調(diào)整體風(fēng)格抽象與版式結(jié)構(gòu)的重創(chuàng)作。直接混在一起訓(xùn)練,常見(jiàn)結(jié)果是模型“都會(huì)一點(diǎn),但不夠穩(wěn)定”。
PosterOmni 的訓(xùn)練路線更克制:
先分別訓(xùn)練 局部編輯專家 與 全局創(chuàng)作專家
再用 任務(wù)蒸餾 融合能力到一個(gè)學(xué)生模型(PosterOmni-SFT)
最后引入統(tǒng)一獎(jiǎng)勵(lì)與強(qiáng)化學(xué)習(xí),把“審美偏好”和“編輯精度/指令遵循”一起對(duì)齊
3)PosterOmni-Bench:用統(tǒng)一基準(zhǔn)把“設(shè)計(jì)側(cè)常見(jiàn)需求”比清楚
我們建立了多任務(wù)基準(zhǔn) PosterOmni-Bench(中英文共 1020 條測(cè)試提示,覆蓋六任務(wù)),并進(jìn)行系統(tǒng)評(píng)測(cè)。結(jié)果顯示 PosterOmni 在六類任務(wù)上整體更均衡,尤其在需要高階理解的 布局遷移/風(fēng)格遷移 上提升更明顯;在 改比例/ID 保持 等局部任務(wù)上也更穩(wěn)定。在公平的評(píng)測(cè)與打分方式下,整體表現(xiàn)也超過(guò)了部分先進(jìn)的商業(yè)系統(tǒng),與最先進(jìn)的商業(yè)模型較為接近。

總覽:PosterOmni 能解決哪些“設(shè)計(jì)側(cè)常見(jiàn)需求”?
真實(shí)工作流的“雙重挑戰(zhàn)”:比例要改、版式要?jiǎng)樱伙L(fēng)格要學(xué)、內(nèi)容不能抄;主體要穩(wěn)、細(xì)節(jié)要自然
PosterOmni 聚焦的并不是“生成一張好看的圖”,而是更接近設(shè)計(jì)側(cè)的需求組合。
例如:
Rescale(改比例):不是簡(jiǎn)單裁剪/拉伸,而是更接近“比例變了,布局跟著重排”。比如把豎版活動(dòng)海報(bào)改成方圖社媒封面,標(biāo)題層級(jí)、留白、元素間距需要一起調(diào)整,同時(shí)主體不能漂。
Style-driven(風(fēng)格參考):在保留user prompt需求的同時(shí),更希望學(xué)到“配色/質(zhì)感/光影/字體氣質(zhì)”等抽象風(fēng)格,而不是把參考圖的具體元素直接 copy 過(guò)去(現(xiàn)存的商業(yè)模型在某些場(chǎng)景下也容易出現(xiàn)這種“拼貼式拷貝”的現(xiàn)象)。
Layout-driven(布局參考):在保留user prompt需求的同時(shí),復(fù)用的是結(jié)構(gòu)邏輯(視覺(jué)中心、信息分區(qū)、層級(jí)關(guān)系),而不是硬套模板導(dǎo)致生硬拼裝。
PosterOmni 把“精修”和“再設(shè)計(jì)”都放進(jìn)同一個(gè) image/poster-to-poster 引擎里,讓常見(jiàn)設(shè)計(jì)操作可以在一個(gè)模型內(nèi)完成。
方法論
PosterOmni 的核心目標(biāo),是把真實(shí)設(shè)計(jì)里常見(jiàn)的“一張參考圖 + 一句指令”統(tǒng)一成 one model for generalized multi-task image/poster-to-poster generation:既能做局部精修(比如擴(kuò)圖、補(bǔ)全、縮放、ID保持),也能做全局創(chuàng)作(布局遷移、風(fēng)格遷移),并且在同一個(gè)模型里做到“既改得準(zhǔn)、又改得好看”。
為了讓同一個(gè)模型同時(shí)具備這兩類能力,我們?cè)O(shè)計(jì)了一條完整的 數(shù)據(jù)—專家—蒸餾的SFT訓(xùn)練管線,在最后用 Omni-Edit 強(qiáng)化學(xué)習(xí)把“審美”和“任務(wù)完成度”一起對(duì)齊,避免常見(jiàn)的多任務(wù)互相干擾。
階段 1:自動(dòng)化數(shù)據(jù)構(gòu)建與 PosterOmni-200K
高質(zhì)量、多任務(wù)、可控的配對(duì)數(shù)據(jù),是統(tǒng)一模型的地基。PosterOmni 先用一套全自動(dòng)合成管線生成 PosterOmni-200K,并同步構(gòu)建評(píng)測(cè)集 PosterOmni-Bench。整個(gè)數(shù)據(jù)構(gòu)建流程把“創(chuàng)意提示生成—候選圖生成—多模態(tài)過(guò)濾—任務(wù)特定配對(duì)”串成一個(gè)閉環(huán):先生成具有真實(shí)海報(bào)語(yǔ)境的 prompts 和 base images,再做嚴(yán)格篩選,最后按任務(wù)生成輸入輸出對(duì)再過(guò)濾,組成訓(xùn)練與評(píng)測(cè)數(shù)據(jù)套件。

(1) 提示詞與基圖生成(更像“真實(shí)設(shè)計(jì) brief”)
PosterOmni不是用簡(jiǎn)單 caption,而是組合“主體/品類 + 場(chǎng)景 + 風(fēng)格標(biāo)簽”,再讓 VLM(如 GPT、Qwen3)寫(xiě)成帶排版與美學(xué)約束的結(jié)構(gòu)化提示(例如標(biāo)題/副標(biāo)題/位置、整體風(fēng)格意圖等),再用強(qiáng) T2I 生成器(如 Qwen-Image 等)渲染多個(gè)候選圖,提前剔除缺主體、文字崩壞、布局塌陷的樣本。
這一步的意義是:讓后續(xù)所有任務(wù)都圍繞“設(shè)計(jì)側(cè)真實(shí)需求”展開(kāi),而不只是通用圖像編輯。

(2) 多模態(tài)過(guò)濾(保證“能訓(xùn)練、也能評(píng)測(cè)”)
合成數(shù)據(jù)最大的問(wèn)題不是規(guī)模,而是噪聲。我們做了分層過(guò)濾:
訓(xùn)練集:用 PaddleOCR 做文字可讀性/關(guān)鍵詞一致性檢查,再用 Jina-clip-v2 做圖文一致性,去掉錯(cuò)字、錯(cuò)語(yǔ)種、錯(cuò)語(yǔ)義、排版不合理樣本。
評(píng)測(cè)集:在 OCR 之外再引入 Gemini-2.5-Flash 判斷“任務(wù)適配性”(例如布局遷移任務(wù)必須有可解析的布局結(jié)構(gòu)),保證 benchmark 的可比性與可靠性。同時(shí)用 SAM-2 做分割/區(qū)域生成,為后續(xù)“填充/擴(kuò)圖”等任務(wù)提供 mask 級(jí)監(jiān)督信號(hào)。
(3) 六類任務(wù)的配對(duì)構(gòu)建(把常見(jiàn)設(shè)計(jì)需求“落到數(shù)據(jù)上”)
在通過(guò)過(guò)濾的“文本→海報(bào)”基語(yǔ)料上,我們按六類任務(wù)生成 image/poster-to-poster 的訓(xùn)練對(duì):Extending / Filling / Rescaling / ID-driven / Layout-driven / Style-driven,分別對(duì)應(yīng)空間補(bǔ)全、比例重排、主體一致性、布局復(fù)用與風(fēng)格遷移等真實(shí)需求。并在后續(xù)使用VLM/人工過(guò)濾保證每個(gè)任務(wù)的質(zhì)量。
實(shí)現(xiàn)上,每個(gè)任務(wù)走一個(gè)模塊化的數(shù)據(jù)構(gòu)建器:
extending/filling 用 SAM2 生成局部區(qū)域或缺失 mask;
rescaling 用 BrushNet 類/閉源方法構(gòu)造“比例變化→內(nèi)容重排”的監(jiān)督對(duì);
ID-driven 用 PaddleDet 抽主體并結(jié)合強(qiáng)編輯器形成“保 ID 的變化”;
layout/style-driven 則通過(guò) prompt-controlled rerendering 構(gòu)造“復(fù)用布局/風(fēng)格但不復(fù)制內(nèi)容”的訓(xùn)練對(duì)。
階段 2:任務(wù)蒸餾(先分治,再統(tǒng)一:讓“精修”和“創(chuàng)作”在一個(gè)模型里共存)
直接把六個(gè)任務(wù)混在一起訓(xùn)練,最容易出現(xiàn)的就是任務(wù)干擾:局部任務(wù)追求像素對(duì)齊,全局任務(wù)追求構(gòu)圖與風(fēng)格抽象,兩者在同一參數(shù)空間里會(huì)互相拉扯,導(dǎo)致模型難以優(yōu)化收斂。PosterOmni 的做法是:先訓(xùn)練專家,再蒸餾到學(xué)生模型。
(1) 專家訓(xùn)練:局部專家 + 全局專家
局部編輯專家:側(cè)重 extending / filling / rescaling / ID-driven,強(qiáng)調(diào)實(shí)體一致性、邊界自然、文字清晰等“可控編輯”。
全局創(chuàng)作專家:側(cè)重 layout-driven / style-driven,學(xué)習(xí)抽象布局邏輯與風(fēng)格調(diào)性,輸出更像“重新設(shè)計(jì)”的結(jié)果。
同時(shí),我們還會(huì)引入輔助文本渲染相關(guān)的訓(xùn)練信號(hào),避免模型在專注某些編輯任務(wù)時(shí)犧牲文字可讀性(因?yàn)楹?bào)任務(wù)里“寫(xiě)對(duì)字”是底線能力)。
(2) 蒸餾到單一學(xué)生:PosterOmni-SFT
最終統(tǒng)一模型不是靠“參數(shù)硬融合”,而是訓(xùn)練一個(gè)學(xué)生網(wǎng)絡(luò)去對(duì)齊專家的速度場(chǎng)/預(yù)測(cè)行為:總損失由兩部分組成——
一部分是輔助文本渲染損失(保證文字穩(wěn)定、清晰);
另一部分是任務(wù)蒸餾損失(讓學(xué)生輸出逼近對(duì)應(yīng)任務(wù)專家的輸出)。
論文里把它寫(xiě)成一個(gè)總目標(biāo)(含 Auxiliary Text Rendering Loss + Task Distillation Loss),學(xué)生的預(yù)測(cè)記作 ,專家輸出記作 ,從而把“局部精修的確定性”和“全局創(chuàng)作的生成性”一起遷移進(jìn)同一個(gè) backbone。
這一階段結(jié)束后的 PosterOmni-SFT,可以理解成“一個(gè)模型同時(shí)繼承了兩類老師的長(zhǎng)處”:既能做嚴(yán)格受控的局部編輯,又能執(zhí)行抽象的布局/風(fēng)格指令,而不是依賴多個(gè)模型串聯(lián)。
階段 3:統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練( :把“好看 + 做對(duì)任務(wù)”變成可優(yōu)化信號(hào))
監(jiān)督微調(diào)能讓模型“學(xué)會(huì)做”,但很難讓模型“學(xué)會(huì)做得更好看、更像設(shè)計(jì)師”。不同于 SFT 階段往往存在“審美、保真、任務(wù)目標(biāo)”等目標(biāo)相互拉扯的情況,最終海報(bào)的評(píng)價(jià)在各個(gè)子任務(wù)之間其實(shí)共享一套通用原則(如構(gòu)圖平衡、層級(jí)清晰、色彩和諧、文本可讀性等)于是我們訓(xùn)練一個(gè)統(tǒng)一獎(jiǎng)勵(lì)模型 ,同時(shí)輸出通用審美與任務(wù)特定完成度的綜合獎(jiǎng)勵(lì),用來(lái)驅(qū)動(dòng)后面的強(qiáng)化學(xué)習(xí)。
(1) 偏好數(shù)據(jù)怎么來(lái)
我們用 PosterOmni-SFT 對(duì)同一條 image-to-poster prompt 生成成對(duì)結(jié)果,先用 Gemini-2.5-Pro 做篩選,再讓標(biāo)注者選擇“更美觀且更符合任務(wù)”的那張。更關(guān)鍵的是,我們加入了一個(gè)很實(shí)用的 negative-pair 策略:把“輸入?yún)⒖紙D”當(dāng)作 rejected,把“模型編輯后的輸出”當(dāng)作 chosen,強(qiáng)迫獎(jiǎng)勵(lì)模型認(rèn)識(shí)到“有意義的改動(dòng)”本身也是價(jià)值,避免模型在某些任務(wù)里學(xué)會(huì)投機(jī)——比如 layout/style 任務(wù)里直接把參考圖 copy 過(guò)去。

(2) 模型形式與訓(xùn)練目標(biāo)
基于 Qwen3-VL 編碼器 + 輕量 MLP head,同時(shí)編碼“視覺(jué)質(zhì)量 + 指令 + 任務(wù)類型”,用 Bradley–Terry 目標(biāo)把偏好對(duì)轉(zhuǎn)成可優(yōu)化的排序損失: 促使 chosen 的分?jǐn)?shù)高于 rejected。
結(jié)果就是: 學(xué)到的不只是“好看”,還學(xué)到“對(duì)這個(gè)任務(wù)來(lái)說(shuō)什么算做對(duì)、什么算偷懶”。
階段 4:Omni-Edit 強(qiáng)化學(xué)習(xí)
有了獎(jiǎng)勵(lì)模型之后,關(guān)鍵問(wèn)題是:如何把獎(jiǎng)勵(lì)真正“寫(xiě)回”擴(kuò)散/流匹配模型里,并且訓(xùn)練穩(wěn)定。PosterOmni 沿用 DiffusionNFT 這類思路:不走傳統(tǒng)逆過(guò)程的策略梯度(容易不穩(wěn)定),而是在正向擴(kuò)散過(guò)程上做直接優(yōu)化,用一種對(duì)比式 diffusion loss 把速度預(yù)測(cè)器推向高獎(jiǎng)勵(lì)行為、遠(yuǎn)離低獎(jiǎng)勵(lì)行為。DiffusionNFT 會(huì)從舊策略 構(gòu)造隱式正/負(fù)策略 、,并用獎(jiǎng)勵(lì) 加權(quán)的目標(biāo)函數(shù),把更新方向穩(wěn)定地約束在“更高獎(jiǎng)勵(lì)”的區(qū)域;獎(jiǎng)勵(lì)還會(huì)做歸一化以穩(wěn)定尺度。
DiffusionNFT 本身提供的是“在正向擴(kuò)散/流匹配過(guò)程中做對(duì)比式更新”的穩(wěn)定范式;我們的貢獻(xiàn)在于把它適配到 image-to-poster 的條件輸入形式(輸入圖 + 指令 + 任務(wù)類型),并形成一套可落地的 Omni-Edit RL 訓(xùn)練流程:讓速度預(yù)測(cè)器在同一訓(xùn)練機(jī)制下同時(shí)處理“局部編輯 + 全局創(chuàng)作”的兩類任務(wù)。
很多工作會(huì)直接把強(qiáng) VLM 的 logits / 打分當(dāng)作通用編輯獎(jiǎng)勵(lì),但這類獎(jiǎng)勵(lì)往往不理解 poster 任務(wù)的“完成標(biāo)準(zhǔn)”,容易出現(xiàn)“看起來(lái)像、但沒(méi)按任務(wù)做”的投機(jī)解。PosterOmni 的核心區(qū)別是:我們用 給出 task-aware 的分?jǐn)?shù),在統(tǒng)一的獎(jiǎng)勵(lì)尺度下同時(shí)編碼審美質(zhì)量與任務(wù)對(duì)齊/完成度,從而讓 RL 更新方向不僅“更好看”,也“更像完成這個(gè)任務(wù)”。
Poster 評(píng)價(jià)在跨任務(wù)上有大量共性(構(gòu)圖平衡、層級(jí)、可讀性、配色等),因此我們用 統(tǒng)一獎(jiǎng)勵(lì)模型去優(yōu)化這些共享質(zhì)量維度;同時(shí)通過(guò) task tags / task descriptions 把不同任務(wù)的差異化標(biāo)準(zhǔn)顯式條件化,避免某個(gè)任務(wù)的偏好干擾另一個(gè)任務(wù)。
實(shí)驗(yàn):PosterOmni 到底強(qiáng)在哪里?
我們把評(píng)測(cè)拆成三塊:統(tǒng)一基準(zhǔn)(PosterOmni-Bench)→ 自動(dòng)評(píng)測(cè)與對(duì)比 → 關(guān)鍵模塊消融。
1) PosterOmni-Bench:把“設(shè)計(jì)側(cè)常見(jiàn)需求”系統(tǒng)化成可評(píng)測(cè)基準(zhǔn)
我們首先做了一個(gè)專門(mén)面向 image/poster-to-poster 的多任務(wù)基準(zhǔn) PosterOmni-Bench,覆蓋六類任務(wù):Extend / Fill / Rescale / ID-driven / Layout-driven / Style-driven。
為了更貼近真實(shí)使用場(chǎng)景,Bench 同時(shí)包含中英文提示:540 條中文 + 480 條英文,共 1020 條,并且在六大主題(產(chǎn)品、美食、活動(dòng)/旅行、自然、教育、娛樂(lè))上均勻分布,既有單參考圖也有多參考圖的輸入形式。
評(píng)測(cè)方式上,我們采用強(qiáng) VLM(Gemini-2.5-Pro)對(duì)結(jié)果進(jìn)行打分:
既看審美(整體視覺(jué)和諧、構(gòu)圖平衡、風(fēng)格一致性等)
也看任務(wù)完成度(是否按指令完成編輯/遷移、是否保持需要保持的內(nèi)容)
并在 1–5 分范圍內(nèi)給出綜合評(píng)分(加權(quán)匯總為最終指標(biāo))。
直觀理解:這個(gè)基準(zhǔn)不是在測(cè)“會(huì)不會(huì)畫(huà)圖”,而是在測(cè)“會(huì)不會(huì)像設(shè)計(jì)師一樣做海報(bào)改稿/再設(shè)計(jì)”。
2) 定量對(duì)比:六項(xiàng)任務(wù)全線領(lǐng)先,開(kāi)源里斷層,閉源里逼近
在 PosterOmni-Bench 上,我們對(duì)比了主流開(kāi)源系統(tǒng)(如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)以及強(qiáng)閉源系統(tǒng)(如 Seedream 系列)。結(jié)果非常一致:PosterOmni對(duì)比所有開(kāi)源模型 在六項(xiàng)任務(wù)上全部拿到最高分,在整體評(píng)價(jià)上也超過(guò)現(xiàn)有的部分閉源模型,并且提升不只來(lái)自某一個(gè)任務(wù),而是“局部精修 + 全局創(chuàng)作”兩條能力線同時(shí)變強(qiáng)。
對(duì)比 Qwen-Image-Edit:PosterOmni 在 Extend / Fill / Rescale / ID / Layout / Style 六項(xiàng)上均明顯提升,尤其在 Layout-driven / Style-driven 這類需要高階設(shè)計(jì)理解的任務(wù)上提升更大(不是“貼圖式遷移”,而是更像“學(xué)到布局/風(fēng)格的規(guī)則再生成”)。
對(duì)比 Seedream-4.0:整體上 PosterOmni 的平均表現(xiàn)已經(jīng)超過(guò),這點(diǎn)證明把開(kāi)源的單模型直接把復(fù)雜需求做到了可用級(jí)別。
3) 定性對(duì)比:為什么說(shuō)它“學(xué)風(fēng)格/學(xué)布局”不是“直接 copy”?
定性結(jié)果里最典型的兩類失敗,我們?cè)诤芏?baseline(包括部分閉源系統(tǒng))上都能反復(fù)看到:
Style-driven:一些模型會(huì)把參考圖里的局部元素直接“貼”過(guò)來(lái),導(dǎo)致“看起來(lái)像拼貼”,甚至把不該復(fù)制的具體物體也搬運(yùn)過(guò)去;PosterOmni 更偏向去學(xué)習(xí)配色、材質(zhì)感、筆觸/光影、字體氣質(zhì)這些“風(fēng)格本質(zhì)”,再把它遷移到新主體上。
Rescale / Layout-driven:很多系統(tǒng)只能做到裁剪/拉伸,或簡(jiǎn)單把元素?cái)D壓到新畫(huà)布;PosterOmni 更像在做“改比例→重排版”:標(biāo)題層級(jí)、留白、元素間距會(huì)跟著一起調(diào)整,主體也更穩(wěn)定。
4) 消融實(shí)驗(yàn):每個(gè)模塊到底貢獻(xiàn)了什么?
我們做了系統(tǒng)消融,核心想回答:PosterOmni 的提升來(lái)自哪里——是“多訓(xùn)點(diǎn)數(shù)據(jù)”還是“確實(shí)解決了多任務(wù)互相干擾 + 審美對(duì)齊”。
(a) 任務(wù)蒸餾 vs 直接混訓(xùn):
我們對(duì)比了:
基座模型(如 Qwen-Image-Edit)六任務(wù)直接混訓(xùn)(Mixed Training)只訓(xùn)局部專家 / 只訓(xùn)全局專家先訓(xùn)專家再蒸餾到學(xué)生(Task Distillation)再加上輔助文本渲染損失(PosterOmni-SFT)
結(jié)果顯示:
直接混訓(xùn)能漲一點(diǎn),但仍會(huì)被“局部精修 vs 全局構(gòu)圖”拉扯;單獨(dú)的局部/全局專家會(huì)明顯偏科;蒸餾后的學(xué)生模型最穩(wěn),并且加上輔助文本渲染后,文字清晰度進(jìn)一步提升(對(duì)海報(bào)任務(wù)很關(guān)鍵)。
(b) 專家融合方式:為什么“參數(shù)硬融合”不行?
我們還對(duì)比了常見(jiàn)的 LoRA 融合方式(線性插值、ZipLoRA 等)和我們的蒸餾策略:
參數(shù)融合容易出現(xiàn)“塌向某個(gè)專家”、或者干脆“直接 copy 參考圖”的失敗;蒸餾是讓學(xué)生去學(xué)行為(輸出分布),而不是在參數(shù)空間硬拼,所以更能保持互補(bǔ)能力。
小結(jié):為什么這套方法能支撐“one model for generalized multi-task image/poster-to-poster generation”
數(shù)據(jù)把六類真實(shí)設(shè)計(jì)需求系統(tǒng)化成訓(xùn)練對(duì)(且有嚴(yán)格過(guò)濾),保證模型學(xué)到的是“可用的設(shè)計(jì)能力”。
蒸餾把局部專家與全局專家的優(yōu)勢(shì)遷移到單一學(xué)生,避免多任務(wù)硬混導(dǎo)致的能力互相牽制。
獎(jiǎng)勵(lì) + RL用統(tǒng)一的 把“好看 + 做對(duì)”變成可優(yōu)化信號(hào),再用 DiffusionNFT 的穩(wěn)定正向優(yōu)化注入模型,讓最終模型既不投機(jī) copy。
參考文獻(xiàn)
[1] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
原文標(biāo)題 : CVPR 2026|“全能AI海報(bào)設(shè)計(jì)師”P(pán)osterOmni開(kāi)源: 6大任務(wù)笑傲開(kāi)源社區(qū),媲美閉源商用
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤(pán):9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢(qián)!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





