年轻的老师:日本电影,黄色毛片在线播放亚洲一区在线播放,午夜久久久久久久久久一区二区,我父亲的女保姆是我的首选电视剧

谷歌公布新研究BiT探索大規模數據如何影響預訓練模型性能

2020-05-28 11:28

計算機視覺的研究人員在利用現代深度神經網絡解決問題時常常會無奈地感受到其對數據的龐大需求，當前很多先進的CNN模型都需要在像OpenImages和Places這樣包含上百萬張標注圖片的數據集上進行訓練。然而對于很多領域的應用來說，收集如此海量的數據其時間和經濟成本幾乎是常人無法承受的。

為了解決計算機視覺領域缺乏數據的問題，人們提出了預訓練模型的遷移學習方法，通過在大規模的通用數據上進行預訓練而后再復用到目標任務上，用少量數據對模型進行適應性調優。

盡管預訓練模型在實踐中十分有效，但它仍不足以迅速地在新場景下掌握概念并進行深入的理解，在工程實踐中還面臨著一系列問題。由于大規模的預訓練使得BERT和T5等方法在語言領域取得了巨大的進展，研究人員堅信大規模的預訓練可以有效提升計算機視覺任務的性能。

為了充分研究大規模預訓練和遷移學習的內在機理和規律，來自谷歌的研究人員發表了一篇名為BigTransfer的論文，探索了如何有效利用超常規的圖像數據規模來對模型進行預訓練，并對訓練過程進行的系統深入的研究。研究人員發現，隨著預訓練數據的增加，恰當地選擇歸一化層、拓展模型架構的容量對于預訓練的結果至關重要。

在有效的調整和訓練后，這種方法展示了多個領域的視覺任務上展現了前所未有的適應性和先進的性能，包括小樣本是識別任務和最近提出的真實數據基準ObjectNet上都取得了非常優異的成績。

預訓練

為了探索數據規模對于模型性能的影響，研究人員重新審視了目前常用的預訓練配置（包括激活函數和權重的歸一化，模型的寬度和深度以及訓練策略），同時利用了三個不同規模的數據集包括：ILSVRC－2012 （1000類128萬張圖像）， ImageNet－21k （2．1萬類的1400萬張圖像）和 JFT （1．8萬類的三億張圖像），更重要的是基于這些數據研究人員可以探索先前未曾涉足的數據規模。

研究人員首先探索了數據集規模和模型容量間的關系，選擇了ResNet不同的變體進行訓練。從標準大小的“R50x1”到x4倍寬度的，再到更深度152層“R152x4”，都在上面的數據集上進行了訓練。隨后研究人員獲得了關鍵的發現，如果想要充分利用大數據的優勢，就必須同時增加模型的容量。

下圖左半部分箭頭開頭的擴大顯示了這一結論，數據量增大的情況下容量更大的模型性能增加更大，而容量小的模型反而會有一定程度地下降。