OpenAI提出Image GPT實現高質量圖像補全和樣本生成
實現方法
研究人員分別在ImageNet上訓練了大中小三個GPT-transformer模型,分別包含了1.4B,455M,76M的參數。同時還利用ImageNet和網絡數據共同訓練了包含6.8B參數的iGPT-XL,由于長序列訓練需要消耗非常大的計算資源,所有的訓練都在較低的圖像分辨率上進行(32x32,48x48,64x64)。
雖然研究人員嘗試在更低的分辨率上繼續減小計算資源的消耗,但先前研究認為人眼的識別分類能力會隨圖像尺寸的減小而迅速變弱。在先前顯示模型研究的啟發下,構建了9-bits的顏色表示模式,可以用較為真實的編碼顏色同時代替RGB三個通道。
實驗結果
研究人員使用了兩種方法來評測模型的分類性能。第一種類似一個線性探測器,利用訓練好的模型從圖像中抽取特征進行分類,隨后用邏輯回歸擬合圖像的標簽。另一種方式是在下游任務數據上對整個模型進行調優。為了抽取特征,在某些層的輸入添加了layernorm注意力模塊,并在序列維度上使用了平均池化。為了調優模型,研究人員使用了layernorm transformer的輸出,并在序列維度上進行平均池化來作為分類部分的輸入。
由于針對序列中下一個像素的預測與圖像分類并沒有明顯的關系,最后層的特征對于目標分類并不是最好的。從結果中可以看出一開始特征質量在迅速提升,而后隨著深度的增加緩慢減小。這一現象表明transformer生成模型在運行中有兩個顯著的階段,在第一階段每個位置從它周圍的上下文中獲取信息以構建出有效的的圖像特征;而后在第二階段上下文特征被用于解決下一個像素的條件生成問題。在這種線性探測器下觀測到的兩階段現象很容易讓人聯想到具有約束結構(bottleneck)的自編碼器,其中間層就是手動設置用于特征抽取的結構。

特征質量與層深度具有明顯的相關性,與監督模型不同,生成模型特征質量最高的位置來自于模型網絡的中間部分。
隨后的實驗結果還顯示了生成模型性能和特征質量之間的關系,研究發現隨著模型規模的訓練迭代的增加,生成模型的性能也會逐步增加,并直接反映在更好的特征質量(分類精度)上。

圖中每條線都代表了不同的生成預訓練模型在不同迭代下的結果。正的斜率表明生成模型的特征質量隨著訓練次數的增加而不斷提高,更大的模型也顯示出了更好的結果。
當研究人員在CIFAR-10, CIFAR-100, STL-10數據集上測評模型性能時,可以看到提出的方法超過了所有的監督和非監督遷移算法,同時也超過了完全調優情況下的結果。

線性探測器和調優方法的精度比較,這些方法使用了監督或非監督的ImageNet遷移。結果中也包含了CIFAR上最好的端到端模型AutoAugment方法。
在不同的設置下,與不同的監督、非監督方法進行了比較。訓練的圖像分辨率為48x48,iGPT-L的特征維度為1536,實現了65.2%的top-1精度,已經超越了AlexNet的性能。
典型的特征維度一般都是8192維度,但訓練如此龐大特征的iGPT模型非常耗時,所以研究人員將最后基層的特征疊加起來作為8192維的近似。但由于iGPT中的特征在不同層間存在相關性,所有需要更多的維度才能獲得更具競爭力的效果。最終的設置使用了來自5層上的15360維的特征,實現了72%的top1精度,超過了AMDIM, MoCo, CPC v2等算法,但和最好的SimCLR還有一定的差距。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













