論文:基于關鍵點的單目3D目標檢測
關鍵點檢測網絡
本文的關鍵點檢測網絡將 RGB 圖像當作輸入,輸出 3D 檢測框的頂點及中心點,其包括三個組成部分:骨架、關鍵點特征金字塔以及檢測頭,主要架構采用了與 2D 無錨檢測器相似的一階段策略。
為了在速度和準確性之間進行平衡,本文使用兩種不同的結構作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個 RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對輸入進行降采樣。ResNet-18 和 DLA-34 用于圖像分類網絡,最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進行上采樣。在上采樣層之前連接了相應的低級特征圖,同時添加了一個 1×1 卷積層以減小通道尺寸。經過三個上采樣層后,通道分別為 256、128、64。

圖像中的關鍵點在大小上沒有差異。因此,關鍵點檢測不適合使用特征金字塔網絡(FPN)。本文提出了一種新的關鍵點特征金字塔網絡(KFPN),以檢測點空間中尺度不變的關鍵點。假設我們有F個尺度特征圖,我們首先調整每個大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運算生成軟權重,以表示每個尺度的重要性。通過線性加權獲得最終的尺度空間得分圖:

檢測頭由三個基本組件和六個可選組件組成,可以任意選擇這些組件以提高 3D 檢測的準確性,而計算量卻很少。受 CenterNet 的啟發(fā),本文將關鍵點作為連接所有特征的主要中心 由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界,因此將更適當地選擇 2D 框的中心點。Heatmap 定義為 M,其中 C 是目標種類的數量,另一部分是由頂點和中心點投影出的 9 個點 V,對于一個對象的關鍵點,本文將回歸得到的主中心的局部偏移量 Vc 作為指標。最接近 Vc 坐標的 V 的關鍵點被作為一個對象的集合。盡管 9 個關鍵點的 18 個的約束能夠恢復物體的 3D 信息,但是越多的先驗條件能夠增加更多的約束,中心偏移 M_OS,頂點偏移 V_OS 是 heatmap 中對每個關鍵點的離散誤差。
3D 目標的維度 D 方差小容易預測,本文引用基于 Multi-Bin 方法對偏航角 θ 進行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進行分類,并使用 2 個 bin 生成方向特征圖,同時對 3D 邊框的中心深度Z進行回歸。最終的 loss 如下(各部分 loss 的定義參見原文,在此不再贅述):

3D邊框的估計
得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標是找出哪一個邊框中心點與 2D 關鍵點 kp 最匹配,這能夠最小化 3D 關鍵點和 2D 關鍵點的投影損失,并將它和其他先驗損失定義為一個非線性最小二乘優(yōu)化問題:

其中 e_cp、e_d、e_r 是相機點、維度先驗、方向先驗的損失,從 heatmap 中提取的置信度表示為:

實驗論文
本文在 KITTI 數據集上進行了實驗。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發(fā)現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市


分享













