頂會競賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗?

本文為將門技術社群第227期talk直播的文字內容整理分享嘉賓:曠視南京研究院研究員 趙冰辰
眾所周知,參加頂會競賽是當今AI研究人員鍛煉自身、驗證已有學術成果的一大舞臺。從2017年到現在,曠視研究院在全球頂會累計榮獲28項世界冠軍,好奇的同學們肯定想知道其中的經驗與技巧。
為此我們很榮幸邀請到曠視南京研究院研究員—趙冰辰,與大家分享其團隊在 CVPR 2020 iWildCam 項目奪冠的經歷,同時也介紹了他們在本次比賽中針對 Camera Trap 數據的特點設計的方法及冠軍方案。

值得一提的是,雖然曠視南京研究院在整個參賽過程中持續領先,但就在最終截止日期前5天,Facebook突然大比分反超。經過對現有模型的快速分析,團隊通過序列和日期信息大幅提升了模型性能近10個點,在48小時內重新登頂,并奪得iWildCam的全球冠軍。

本文回顧了此次比賽的基本背景、團隊方案,并介紹了團隊總結的參賽經驗,希望能為同學們帶來啟發。
背景
iWildCam競賽隸屬于 CVPR 2020 FGVC workshop, 其目的是利用部署在野外無人操縱的 Camera Trap 來識別野生動物,從而輔助對野生動物的研究與保護。該比賽的難點在于,由于 Camera Trap 的拍攝機制是通過熱感或運動來觸發相機,因此成像效果與ImageNet或者是iNaturalist中的圖像有很大區別。

一個典型的camera trap設備 例如下圖,每張圖片中都存在動物,但是由于 camera trap 無人操縱的特性,獲取的畫面會受到光照、模糊、小ROI、遮擋、奇異視角、或者動物本身保護色等諸多因素的干擾。 可以發現,定位到這些動物并且給出正確分類,即使對人類來說也比較困難。

Camera Trap數據的另外一個特點在于畫面背景。由于camera trap固定在某個區域進行拍攝,因此由特定camera trap所采集到的圖片背景相似度極高。如下圖,Camera-1和Camera-2分別對應部署在兩個位置的camera trap,可以發現同一個camera拍到的圖片背景基本一致。而相應的,不同camera獲取的背景差異顯著。

因此,這對分類模型的泛化性提出了極高的要求。iWildCam數據集總共包括263個類別,28萬張圖片,其中訓練集441個camera trap,測試集111個camera trap。主辦方將全部552個位置的camera trap分成為train set 441個,和test set 111個,這也就是說測試集圖片全部來自訓練集之外的camera trap 。 另外,類別數據的長尾分布也是必須考慮的問題。 因此可以總結,在Camera Trap場景下,主要存在三個問題: Camera Trap無人操作導致的圖像模糊,遮擋等問題。來自訓練與測試集不同背景所導致的泛化問題。野生動物分布帶來的長尾問題。 針對上述問題,曠視南京研究院在此次參賽中進行了逐項攻克。 挑戰一:ROI尺寸過小 如前所述,iWildCam的第一個挑戰來自于camera trap所捕獲的畫面,即動物圖片經常存在過小或者被遮擋等問題。 因此比賽主辦方提供了Mega Detector(一個微軟提供的Camera Trap動物檢測器,輸出類別只有animal和background)。 因此,曠視南京研究院用Mega Detector來提取圖像的ROI區域,從輔助進一步的分類工作。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













