CVPR 2020 最佳論文提名 | 神經網絡能否識別鏡像翻轉
為了深入了解人臉的視覺手性現象,作者在人臉數據集上進行了孤立訓練。
作者在Flickr-Faces-HQ (FFHQ)人臉數據集上進行了訓練,并在測試集上取得了高達81%的精度,并利用手性特征聚類對人臉中的視覺手性現象進行了初步的探討:

1) 劉海分界處:人們一般用右手來分理劉海,這會導致劉海的朝向向一側偏移,并出現視覺手性現象。
2) 眼睛:人們在看向物體時傾向于用一只主視眼進行瞄準,這樣會導致人們的目光在進行拍攝時出現偏移。多數人的主視眼為右眼,而這一現象可能是導致視覺手性現象的成因。
3)胡子:與頭發一樣,可能與人們習慣于用右手理胡子有關。
作者提到,文中對以上的視覺手性現象的討論均為初步的分析,而人臉中任有大量的視覺手性線索值得被發掘。
五、數字圖像處理
作者對數字圖像處理過程,例如去馬賽克(最常見為Bayer Demosaicing)和圖片壓縮(最常見為JPEG Compression)過程中產生的視覺手性現象進行了分析。舉個例子,當作者首次利用神經網絡在Instagram數據集上進行自監督訓練時,發現沒有使用隨機剪裁(random cropping)的神經網絡盡管精度更高(在測試集上高達92%),但在部分圖片上,類激活映射所得到的熱圖更著重關注圖片的邊緣部分,如左下圖所示:

而在使用隨機剪裁之后,我們得到的新的熱圖則更關注來自于圖片中物體本身的線索(例如圖中的襯衫領子)。作者推斷這是由于Instagram的圖片均為JPEG格式,經過了JPEG圖像壓縮這一數字圖像處理方式。JPEG壓縮的算法是在圖片上對于每16乘16的像素格進行分別處理的,而對于不能被16整除的圖片,其邊緣會用統一方式進行處(例如重復邊緣像素)。這會導致JPEG壓縮的圖片的邊緣失真(edge artifact),從而導致了視覺手性現象。
作者通過概率論與群論(group theory)對數字圖像處理過程產生的視覺手性現象進行了數學論證,并通過神經網絡實驗驗證了這一現象在互聯網圖片中廣泛存在。而此類的線索往往不能被肉眼可見,卻在圖片中存在固定的模式,因而為圖像識偽的應用創造了可能性。
由于文中的證明和實驗過程較為復雜,此處我們先給出數學定義和最重要的幾點結論。
1、定義

D為數據集所來源于的圖像分布。T為一個圖像變換函數,例如鏡像翻轉。需要注意的是論文中的證明不僅限于鏡像翻轉,也可以被用于任何具備結合律(associativitive)和可逆性(invertible)的變換。J為一個圖像處理函數。例如去馬賽克以及JPEG圖片壓縮。

為經過J處理后所得到的的新圖像分布。
我們沿用之前對視覺手性的定義:對于任意圖片x,如果D(x)= D(T(x)),那么D不具備視覺手性。對于任何經過數字圖像處理的圖片y,如果

,那么

同樣不具備視覺手性。
文中最重要的結論是:
當圖像變換函數T和圖像處理函數J具備交換律(commutative property)時,如果原先的圖像分布D沒有視覺手性,經過數字圖像處理后的分布DJ也不具備視覺手性。換句話說,我們可以通過檢查T和J的交換律,來判斷數字圖像處理能否造成視覺手性現象。
作者在論文中主要涉及了兩種最常見的圖像處理方式:
去馬賽克(Demosaicing):數字相機的感光元件一般只能在每個像素格上捕捉RGB中的其中一種顏色,而其中最常用的為貝爾濾色鏡(Bayer Color Filter Array),如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過程。

JPEG壓縮算法(JPEG Compression):JPEG是一種有損的圖像壓縮方式,被廣泛應用在如今大量的互聯網圖片上。一般以每16乘16的像素格為單位通過色彩空間變換,縮減像素采樣,離散余弦變換等步驟來進行圖片編碼壓縮。
2、結論
去馬賽克或JPEG壓縮算法單獨使用時,會在特定的圖片大小產生視覺手性現象。對于去馬賽克,由于貝爾濾色鏡為2乘2的像素格,且濾色鏡本身不對稱(參考上圖綠紅藍綠的排序),任何能被2整除的圖片寬度均會導致視覺手性。對于JPEG壓縮,任何不被16整除的圖片寬度均會導致視覺手性。這意味著,當去馬賽克和JPEG壓縮被共同使用時,任意寬度的圖片都將產生視覺手性,因為同時滿足不被2整除和能被16整除的數字不存在。當使用隨機剪裁(random cropping)時,去馬賽克或JPEG壓縮單獨使用并不產生視覺手性現象。當使用隨機剪裁(random cropping)時,去馬賽克和JPEG壓縮同時使用將會產生視覺手性現象。這意味著互聯網圖片中可能存在大量有規律的,肉眼不可見的視覺手性線索,而人們將能夠利用這類線索來進行圖片識偽。
3、證明
那下面我們進入證明部分(讀者需要對群論(Group Theory)有一定基礎)文中最重要的證明為附加材料中的命題3:

命題3:當原圖像分布D不具備視覺手性時,如果圖像處理函數J與圖像變換函數T具備交換律,則經J處理后的圖像分布DJ也不具備視覺手性。
證明:由于T具備可逆性和分配律,T可以將原分布中的圖片分為一個個不相交的循環群(disjoint cyclic groups)。


即為一個循環群,而這個循環群的單位元(identity element)可以選這個集合里面任意一個元素。這些循環群的群運算(group operation)可以被定義如下:

每個循環群的階(order of group)由T以及其中的元素決定。舉個例子,如果T為鏡像翻轉,那么對于一張對稱的照片

,其所在群的階為1

。對于不對稱的一張照片

,其所在群的階為2。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













