復旦大學 × 階躍星辰開源最新力作PixelSmile:AI 終于實現(xiàn)人臉表情PhotoShop
作者:Jiabin Hua,Wei Cheng等
解讀:AI生成未來復旦大學與階躍星辰最新研究開源,聚焦人臉的細粒度表情編輯,把表情編輯真正做出了 PhotoShop 編輯的感覺!
亮點直擊
語義重疊的系統(tǒng)性分析。揭示并形式化了面部表情之間存在的結構化語義重疊,證明這種結構化語義重疊,而非單純的分類錯誤,是導致識別與生成式編輯任務失敗的主要原因。
數(shù)據(jù)集與基準測試。構建了FFE數(shù)據(jù)集,一個包含12類表情類別及連續(xù)情感標注的大規(guī)模跨領域數(shù)據(jù)集,并建立了FFE-Bench多維度評估體系,專門用于評估結構混淆性、表情編輯準確性、線性可控性以及表情編輯與身份保留之間的權衡關系。
PixelSmile框架。提出了一種基于擴散模型的新型框架,通過全對稱聯(lián)合訓練與文本隱空間插值技術,有效解耦了重疊的情感表征,實現(xiàn)了非糾纏且線性可控的表情編輯。
別的 AI 圖像編輯已經(jīng)很強了,但一旦任務落到人臉的細粒度表情編輯上,問題還是會立刻暴露出來:要么改不動,要么改不對,要么改著改著連臉都一起崩了。最近,復旦大學與階躍星辰聯(lián)合推出 PixelSmile,把這件事往前推了一大步。它不僅能夠圍繞 12 個目標表情做更細致的編輯,還能連續(xù)控制表情強度,把表情編輯真正做出了 PhotoShop 編輯的感覺。除此之外,這套能力還延伸到了動漫風格圖像,并進一步展示了自然的表情組合效果。

直接看效果
先直接看效果,看看 PixelSmile 到底把表情編輯做到了什么程度。

PixelSmile 不是只能“改出一個表情”,而是已經(jīng)能把表情編輯做得更細、更穩(wěn)、更豐富。無論是真人圖像還是二次元角色,它都能給出清晰的目標表情變化;更重要的是,這種變化不是一張圖突然跳到另一張圖,而是可以沿著同一個方向連續(xù)推進,直接做出動態(tài)視頻一樣的順滑效果。
連 Nano Banana Pro 都做不好的難題
除了連續(xù)可控之外,PixelSmile 的另一個關鍵結果,是它更好地處理了細粒度表情里的語義混淆問題。
人臉表情并不是幾個完全割裂的按鈕。驚訝和恐懼、憤怒和厭惡,本來就很接近,所以很多通用模型一旦進入細粒度表情編輯,就很容易出現(xiàn)兩類問題:要么目標表情本身就混了,編輯出來不夠準;要么為了把表情做明顯,連人物身份也一起帶偏了。
PixelSmile 想解決的正是這兩個問題。一方面,它希望把目標表情做得更清楚,減少相近情緒之間的串擾;另一方面,它又盡量把人物身份保留下來,而不是靠把整張臉改掉來換取更強的表情變化。

和其他模型放在一起看時,這個差異會更明顯。像 Nano Banana Pro 和 GPT-Image-1.5 這樣的強通用模型,在細粒度表情編輯里依然會遇到同樣的問題:要么表情編輯存在混淆,要么一旦把表情拉強,人物身份一致性就會明顯下降。
連續(xù)可控,把單圖編輯做出了動圖效果
單圖編輯成多圖并不難,難的是讓這些圖之間真的形成一條自然、平滑、可控的變化曲線。過去很多線性編輯模型在連續(xù)表情控制上都會出現(xiàn)各種問題:要么目標表情不夠準,要么人臉越改越不像原來的人,要么控制看起來只是機械地加大一個統(tǒng)一程度。PixelSmile 的亮點就在于,它把連續(xù)控制、表情準確性和身份保持更穩(wěn)地放在了一起。

為什么 AI 編輯做不到這種看似簡單的要求
人臉表情并不是嚴格割裂的幾個按鈕。真實的情緒變化更像一條連續(xù)曲線,很多相近情緒天然存在重疊區(qū)域。也正因為如此,表情編輯并不像“換個濾鏡”那么簡單。
如果模型沒有真正學會這些細微邊界,就很容易出現(xiàn)兩個常見問題。第一,目標表情不夠準,驚訝里混著恐懼,厭惡里混著憤怒。第二,為了把表情做明顯,模型會把臉本身也一起改掉,最后雖然表情變了,但人已經(jīng)不像原來那個人了。

所以這件事真正難的,從來不是“能不能改出一個表情”,而是能不能把表情改對、改細,還不要把人一起改掉。
除了編輯,還能組合出新表情
除了對單一目標表情做連續(xù)控制,PixelSmile 還天然支持表情混合。
這意味著它不是單獨記住每個表情獨立的樣子,而是完全理解了構成表情內(nèi)基本的五官特征。比如驚訝和開心疊在一起,更接近“驚喜”;厭惡和開心混在一起,也會呈現(xiàn)出一種更微妙的“禮貌的嫌棄”。這類結果更靈活,也更符合真實情緒并不總是完全單一的直覺。

首個統(tǒng)一的表情編輯評估框架
PixelSmile 不只是給出了一個模型,也把這個方向里長期缺失的數(shù)據(jù)和評測基礎設施一起補了起來。
其中,F(xiàn)FE 是首個為細粒度表情編輯提供連續(xù)表情分數(shù)標注的數(shù)據(jù)集,不再只用簡單的離散標簽去描述表情,而是第一次用連續(xù)分數(shù)去刻畫更細的情緒變化。
與之配套的 FFE-Bench,則是首個統(tǒng)一的表情編輯評估框架,不再只看結果圖“像不像”“好不好看”,而是把表情是否編輯準確、控制是否穩(wěn)定、身份是否保持這些真正關鍵的問題,第一次放進同一套標準里去衡量。


更全面的體驗
PixelSmile 已經(jīng)公開了論文、代碼、模型、Benchmark 和 Demo,想進一步了解方法細節(jié)、直接上手體驗,或者看看完整效果,都可以從下面這些入口進入。
項目頁:https://ammmob.github.io/PixelSmile/
論文:https://arxiv.org/abs/2603.25728
GitHub:https://github.com/Ammmob/PixelSmile
模型:https://huggingface.co/PixelSmile/PixelSmile
Benchmark:https://huggingface.co/datasets/PixelSmile/FFE-Bench
Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo
結語
PixelSmile 最吸引人的地方,不只是把人臉表情編輯做得更豐富,而是把這件事真正往可控、可用的方向推了一步。12 個目標表情的連續(xù)控制、相近情緒之間更少的混淆、盡量穩(wěn)定的身份保持,再加上動漫編輯和表情混合這些更直觀的能力,讓它不再只是“能改表情”,而是開始接近真正可調(diào)的人臉表情編輯。
更重要的是,這項工作還同時補上了連續(xù)表情分數(shù)數(shù)據(jù)和統(tǒng)一評估框架,讓這個方向第一次有了更系統(tǒng)的數(shù)據(jù)與 Benchmark 支撐。對于關注 AIGC、人像編輯和可控生成的讀者來說,PixelSmile 是一個很值得繼續(xù)關注的工作。
參考文獻
[1] PixelSmile: Toward Fine-Grained Facial Expression Editing
原文標題 : 復旦大學 × 階躍星辰開源最新力作PixelSmile:AI 終于實現(xiàn)人臉表情PhotoShop
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市


分享













