OpenAI提出Image GPT實現高質量圖像補全和樣本生成

GPT在自然語言處理上取得了有目共睹的成就,包括BERT,RoBERTa,T5等眾多無監督或自監督學習方法輪番登場拿下了一個又一個語言高地。自然語言處理高歌猛進的同時圖像領域不甘心了,也在躍躍欲試想要利用類似的模型學習出可以用于分類任務的有效特征來。
Transformer家族的模型基本上可以直接處理任何形式的1D數據,于是研究人員就想到將2D圖像拉伸為長長的1D圖像序列,利用與GPT-2模型類似的技術構建了用于處理像素序列的iGPT模型。

在詳細的實驗分析后研究人員發現,模型顯現出對于2D圖像特征的理解能力,包括有效的個體和類別的理解。模型可以在沒有人工指導情況下生成連續的圖像樣本,實現圖像補全,同時可以在多個分類數據集上實現先進的分類性能,并在ImageNet實現了非常接近最優秀無監督方法精度水平。這證明了這類生成序列模型可以作為通用的無監督學習算法。
在使用GPT-2類似的架構時,雖然需要更多的計算來達到基于卷積的非監督學習水平,然而這種方法在面對全新領域時,大型的GPT-2模型無需針對特定領域架構進行設計就可以學習出非常有效的特征和優異的性能。

下面讓我先來看看iGPT應用于圖像補全和樣本生成任務下的一些結果,下圖中紅色框是原始圖像,藍色框中是模型補全的結果。可以看到模型很好的恢復出了另一半缺失的圖像,并在不同的生成結果中添加了各種語義特征的對象。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













