一文學(xué)會以極低的 FLOPs 改進圖像識別
前言:這篇論文旨在以極低的計算成本解決性能大幅下降的問題。提出了微分解卷積,將卷積矩陣分解為低秩矩陣,將稀疏連接整合到卷積中。提出了一個新的動態(tài)激活函數(shù)-- Dynamic Shift Max,通過最大化輸入特征圖與其循環(huán)通道移位之間的多個動態(tài)融合來改善非線性。
在這兩個新操作的基礎(chǔ)上,得到了一個名為 MicroNet 的網(wǎng)絡(luò)系列,它在低 FLOP 機制中實現(xiàn)了比現(xiàn)有技術(shù)顯著的性能提升。在 12M FLOPs 的約束下,MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 準(zhǔn)確率,比 MobileNetV3 高 9.6%。

歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
論文出發(fā)點
高效 CNN 架構(gòu)的最新進展成功地將 ImageNet 分類的計算成本從 3.8G FLOPs (ResNet-50) 降低了兩個數(shù)量級到大約 40M FLOPs(例如 MobileNet、ShuffleNet),性能下降合理。
然而,當(dāng)進一步降低計算成本時,它們會遭受顯著的性能下降。例如,當(dāng)計算成本分別從 44M 下降到 21M 和 12M MAdds 時,MobileNetV3 的 top-1 準(zhǔn)確率從 65.4% 大幅下降到 58.0% 和 49.8%。
這篇論文的目標(biāo)是將極低 FLOP 機制下的精度從 21M 降到 4M MAdds,這標(biāo)志著計算成本降低到另一個數(shù)量級。
處理極低計算成本(4M-21M FLOPs)的問題非常具有挑戰(zhàn)性,考慮到輸入數(shù)據(jù)大小為 224×224x3,在第一層 3 × 3 卷積、輸出通道8的操作上就消耗了 2.7M MAdds。 剩余的資源太有限,無法設(shè)計有效分類所需的卷積層和 1,000 類分類器。

如上圖所示,減少現(xiàn)有高效 CNN(例如 MobileNet 和 ShuffleNet)的寬度或深度的常見策略會導(dǎo)致嚴(yán)重的性能下降。
這篇論文專注于新的算子設(shè)計,同時將輸入分辨率固定為 224×224,預(yù)算成本為 4M FLOPs。
創(chuàng)新思路
這篇論文從兩個角度處理極低的 FLOPs:節(jié)點連接性(node connectivity)和非線性(non-linearity),這與網(wǎng)絡(luò)寬度和深度有關(guān)。
首先,降低節(jié)點連接以擴大網(wǎng)絡(luò)寬度為給定的計算預(yù)算提供了一個很好的權(quán)衡。其次,依靠改進的層非線性來補償減少的網(wǎng)絡(luò)深度,這決定了網(wǎng)絡(luò)的非線性。這兩個因素促使設(shè)計更有效的卷積和激活函數(shù)。
Methods
Micro-Factorized Convolution
分為兩部分:Micro-Factorized Pointwise Convolution和 Micro-Factorized Depthwise Convolution,兩者再以不同方式組合。
Micro-Factorized Pointwise Convolution
論文提出了微分解卷積 (MF-Conv) 將逐點卷積分解為兩個組卷積層,其中組數(shù) G 適應(yīng)通道數(shù) C 為:G = sqrt(C/R)。其中 R 是兩者之間的通道縮減比。
對于給定的計算成本,該等式在通道數(shù)量和節(jié)點連接之間實現(xiàn)了良好的折衷。

如上圖所示,輸入通道數(shù)C分為G組,G組再通過中間一個 (C/R × C/R )的置換矩陣Φ 降低通道數(shù),這個置換矩陣類似于shufflenet中的打亂通道順序的操作。
Micro-Factorized Depthwise Convolution

這個部分是引用Inception_v2中的分解卷積,在使用Depthwise的基礎(chǔ)上,將KxK卷積核分為Kx1和1xK兩部分。
Micro-Factorized pointwise 和 depthwise 卷積可以以兩種不同的方式組合:(a) 常規(guī)組合,和 (b) lite 組合。

前者只是將兩個卷積連接起來。 上圖所示的 lite 組合使用微分解深度卷積來擴展通道數(shù)量,通過為每個通道應(yīng)用多個空間濾波器。 然后應(yīng)用一組自適應(yīng)卷積來融合和壓縮通道數(shù)。 與其常規(guī)組合方式相比,它通過節(jié)省通道融合(pointwise)計算在學(xué)習(xí)空間過濾器(depthwise)上花費更多資源,經(jīng)驗證明這對于實現(xiàn)較低的網(wǎng)絡(luò)層更有效。
Dynamic Shift-Max
考慮到Micro-Factorized pointwise 卷積更注重組內(nèi)的連接,因此提出Dynamic Shift-Max,這是一種新的動態(tài)非線性,用于加強由Micro-Factorized創(chuàng)建的組之間的聯(lián)系。
Dynamic Shift-Max 輸出 K 個融合的最大值,每個融合組合多個 (J) 組位移為

其中J表示組數(shù),i表示通道數(shù),K表示融合后的輸出數(shù)量。當(dāng)J=K=2時,可以在準(zhǔn)確率和復(fù)雜度之間取得較好的折衷。
這個公式用一句話來解釋就是,每J個組,對每組的x進行加權(quán)求和,共K個融合,然后取K個中的最大值作為第i個通道上的激活函數(shù)值。
這樣,DY-Shift-Max 實現(xiàn)了兩種形式的非線性: (a) 輸出 J 組的 K 個融合的最大值,以及 (b) 通過動態(tài)參數(shù)。
第一個非線性是對 Micro-Factorized pointwise 卷積的補充,它側(cè)重于每個組內(nèi)的連接,加強組之間的連接。第二個使網(wǎng)絡(luò)能夠根據(jù)輸入 x 調(diào)整這種強化。這兩個操作增加了網(wǎng)絡(luò)的表示能力,補償了減少層數(shù)所帶來的損失。
MicroNet


Conclusion

在 12M FLOPs 的約束下,MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 準(zhǔn)確率,比 MobileNetV3 高 9.6%。

對 ImageNet 分類的評估。左:top-1 準(zhǔn)確率與 FLOPs。右圖:top-1 準(zhǔn)確率與延遲。注意添加了 Mo bileNetV3 ×0.75 以方便比較。MicroNet 優(yōu)于 MobileNetV3,尤其是在計算成本極低的情況下(當(dāng) FLOPs 小于 15M 或延遲小于 9ms 時,top-1 精度提高 5% 以上)。

動態(tài) Shift-Max 與 ImageNet 上的其他激活函數(shù)的比較。
本文來源于公眾號 CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細(xì)節(jié)炸,設(shè)計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













