谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統
這種方法超過了僅僅使用單幀圖像的FasterR-CNN方法,在多個生態環境圖像檢測領域內都具有明顯的優勢。研究人員已將模型整合到TF Object Detection API中,為相關研究人員提供更為簡化的訓練和部署。

上圖中顯示了上下文信息(長達一個月)是如何幫助專家確定模糊場景中的動物的。上下文中目標形狀、尺寸、每天固定的食草時間幫助算法確定這是角馬。
上下文R-CNN模型
上下文R-CNN主要利用靜態相機拍攝圖像序列間的高度相關性,在無需額外人工標注數據的情況下提升算法在復雜情況下的性能,同時改善在新的相機設置下的泛化性。與Faster R-CNN類似,它也采用了兩階段目標檢測架構。

上圖顯示了上下文R-CNN的頂層架構,顯示了檢測模型與長期上下文信息如何有效系統提升性能。
為了抽取某一相機的上下文信息,研究人員首先利用參數固定的特征抽取器從較大的時間跨度中構建出上下文存儲空間(下圖中M);隨后每幅圖像在對應上下文信息聚合的幫助下,上下文R-CNN將會更好地在復雜情況下對目標進行檢測(包括低光、濃霧、模糊等場景)。這種聚合利用attention方式實現,它對靜態相機中出現的稀疏和非規則采樣具有較好的魯棒性。

第一階段的Faster R-CNN將提出潛在目標,而第二階段將對每個候選目標進行分類。在Context R-CNN中針對第一階段的候選目標,使用基于相似性的注意力機制來確定當前目標與記憶池中特征的相關性。隨后利用相關性權重加權記憶池中的特征來構建針對這一目標的上下文特征,并將其添加到原始的目標特征后,送入第二階段的Faster R-CNN中進行最終的分類。

Context R-CNN將近一個月的上下文信息用于幫助分類當前目標。綠色數字顯示了每個記憶特征與當前目標的注意力相關性權重。
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?



分享













