谷歌公布新研究BiT探索大規(guī)模數(shù)據(jù)如何影響預(yù)訓(xùn)練模型性能
遷移學(xué)習(xí)
基于構(gòu)建BERT過程中的方法,研究人員將BiT模型在一系列下游任務(wù)上進行調(diào)優(yōu),而在調(diào)優(yōu)的過程中只使用了非常有限的數(shù)據(jù)。由于預(yù)訓(xùn)練模型已經(jīng)對視覺特征有著良好的理解,這種簡單的策略已經(jīng)能夠取得非常優(yōu)異的結(jié)果。
模型調(diào)優(yōu)的過程涉及一系列超參數(shù)的選擇,包括學(xué)習(xí)率、權(quán)重衰減參數(shù)等等。在這篇文章中提出了一種啟發(fā)式的超參數(shù)選擇方法“BiT-HyperRule”,它僅僅依賴高層次的數(shù)據(jù)集特征,包括圖像分辨率和標(biāo)簽數(shù)量等。這種方法成功地應(yīng)用到了從自然圖像到醫(yī)學(xué)影像等超過20個不同的任務(wù)上。

當(dāng)BiT模型訓(xùn)練完成后,它可以使用少量數(shù)據(jù)調(diào)優(yōu)就可以應(yīng)用到其他的視覺任務(wù)上。
當(dāng)利用非常少的樣本對BiT進行遷移學(xué)習(xí)時,研究人員發(fā)現(xiàn)隨著預(yù)訓(xùn)練過程中使用的數(shù)據(jù)量和架構(gòu)容量的增加,所得到遷移后的模型性能也在顯著增加。當(dāng)在較小數(shù)據(jù)集ILSVRC上增加模型容量時,1-shot和5-shot情況下遷移CIFAR得到的增益都較小(下圖中綠線)。而在大規(guī)模的JFT數(shù)據(jù)集上進行預(yù)訓(xùn)練時,模型容量增加會帶來顯著的增益(紅棕色線所示),BiT-L可以在單樣本和五樣本上達到64%和95%的精度。

曲線描繪了五次平均運行后模型遷移到CIRAR-10數(shù)據(jù)集上的平均精度。不同架構(gòu)的性能曲線表明,在大數(shù)據(jù)集上的容量更大的架構(gòu)具有更為顯著的數(shù)據(jù)效率。
為了進行更為廣泛的驗證,研究人員還在BTAB-1k上驗證了BiT的性能,其中包含了19個不同的獨立任務(wù),每個任務(wù)包含1000個標(biāo)注樣本。通過將BiT-L遷移到這些任務(wù)上,達到了76.3%的整體分數(shù),比先前最好的方法提高了5.8%。
下表展示了這種大規(guī)模預(yù)訓(xùn)練和簡單遷移學(xué)習(xí)的有效性,即使是在數(shù)據(jù)量有限的情況下也得到了最好或接近最好的結(jié)果。BiT即使作RetinaNet的主干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上進行結(jié)構(gòu)化的檢測任務(wù),這種大規(guī)模的預(yù)訓(xùn)練也能帶來顯著的性能提升。

左側(cè)顯示了BiT-L在不同的標(biāo)準(zhǔn)視覺任務(wù)上取得的優(yōu)異結(jié)果。右側(cè)展示了在目標(biāo)檢測任務(wù)的遷移性能。
值得一提的是,在所有這些遷移任務(wù)上都沒有使用特殊的調(diào)參技巧,全部基于BiT-HyperRule來進行調(diào)參,在充分的數(shù)據(jù)集上進行調(diào)參甚至可以得到更好的結(jié)果。
ObjectNet上的測評
為了在更具挑戰(zhàn)的場景下驗證BiT的性能,研究人員在最近提出的ObjectNet數(shù)據(jù)集上進行了驗證,這一模型更為接近真實場景,同時具有非典型的內(nèi)容、視角和旋轉(zhuǎn)等。受益于更大的數(shù)據(jù)和架構(gòu)容量,BiT-L在這一任務(wù)上取得了令人矚目的成就,實現(xiàn)了高達80%的top-5精度,超出先前最先進方法近25個百分點!

BiT在ObjectNet上的評測結(jié)果,左側(cè)為top5精度右側(cè)為top1精度。
結(jié) 語
本研究發(fā)現(xiàn)在大規(guī)模通用數(shù)據(jù)的訓(xùn)練下,簡單的遷移策略就可以達到令人矚目的成果,無論是基于大數(shù)據(jù)還是小樣本數(shù)據(jù)甚至單樣本數(shù)據(jù),通過大規(guī)模預(yù)訓(xùn)練的模型在下游任務(wù)中都能取得顯著的性能提升。BiT預(yù)訓(xùn)練模型將為視覺研究人員提供代替ImageNet預(yù)訓(xùn)練模型的全新選擇。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設(shè)計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













