港大研究員提出融合自適應(yīng)法向量約束和遮擋注意力的深度估計新方法
多視圖立體視覺是計算機視覺領(lǐng)域的重要問題,在三維重建、機器人導(dǎo)航和圖形學(xué)中都具有重要的應(yīng)用。而現(xiàn)有的多視圖深度估計方法一方面對于無紋理/弱紋理的區(qū)域、較細較薄的結(jié)構(gòu)無法很好的重建,同時會在一定程度上丟失三維形狀的邊角和平面信息,此外對于遮擋區(qū)域的深度估計還會存在一定的退化現(xiàn)象。
為了解決這一問題,來自香港大學(xué)和馬普研究所的研究人員在深度估計模型中引入了融合表面法向量約束來更好地捕捉曲率變化劇烈和平面區(qū)域的信息,同時還引入了遮擋注意力策略來進一步提升深度估計的精度。實驗表明在這些方法的作用下,大幅度提升了單目多視圖的深度估計性能,并在多個測評指標(biāo)上超過了先前的深度估計方法。

多視圖深度估計
本文所要研究的問題是利用單個移動相機獲得的多視角視頻中估計出場景深度,但從彩色視頻序列中估計深度并不簡單。傳統(tǒng)立體視覺方法無法處理無紋理區(qū)域、細薄結(jié)構(gòu)、銳利的形狀邊緣和非朗伯表面。雖然近年來深度學(xué)習(xí)方法利用逐像素的深度損失進行端到端的訓(xùn)練得到了較為精確的結(jié)果,但還無法有效保持陡峭的邊、角、平面結(jié)構(gòu)等主要的形狀特征,而這對于場景的理解特別是室內(nèi)人造物件的重建至關(guān)重要。如何解決這些問題,在深度估計過程中保持局部和全局的幾何特征就顯得尤為重要。
法向量可以編碼物體表面的角度信息,對于平面可以利用統(tǒng)一的法向量進行約束,而對于劇烈變化的局部結(jié)構(gòu)也可以利用法向量中包含的角度信息進行約束。所以在深度估計過程中,利用法向量作為深度外的另一個約束可以有效提升模型對于場景全局和細節(jié)的重建能力。
此外在多視角重建過程中,特定視角下某些區(qū)域會存在明顯的遮擋,這會造成不同視角下得到的深度在遮擋區(qū)域變換劇烈。同時遮擋和非遮擋區(qū)域?qū)τ谏疃裙烙嫷呢暙I也各不相同,有效處理遮擋區(qū)域是高精度深度估計的另一個關(guān)鍵所在。
實現(xiàn)方法
為了解決這些問題,本文提出了融合法向量(combined normal map, CNM)作為深度估計任務(wù)中的額外約束,同時利用遮擋注意力機制來處理遮擋對深度估計造成的影響,在進一步優(yōu)化深度結(jié)果的同時還能給出遮擋概率圖。
下圖顯示了模型的完整結(jié)構(gòu),分為單應(yīng)性變換、代價空間構(gòu)建、初始深度估計、遮擋注意力的深度優(yōu)化估計等主要部分。其中輸入包含一張位于時間軸中間的參考圖像和偶數(shù)張源圖像。在單應(yīng)性變換的作用下,每一張源圖像與參考圖像都可以在采樣深度上生成代價空間,而后利用DepthNet進行初始深度估計,并使用CNM和深度的L1損失進行訓(xùn)練。在獲取初始深度后,多視角的代價空間進行融合并與預(yù)測出的深度圖一同送入優(yōu)化網(wǎng)絡(luò)中進行處理,在遮擋注意力機制的作用下,提升深度估計的精度,并同時給出遮擋概率圖。這一部分訓(xùn)練同時由深度、法向量和遮擋進行約束。

下面我們將利用最簡單的三視圖情況作為例子來對每一個細節(jié)進行深入地探討。其中中間視圖作為參考視圖,前后兩張則作為源視圖。首先需要利用單應(yīng)性變換將源視圖變化到參考視圖的坐標(biāo)下、一系列相互平行的深度采樣平面上去,將任意一張源視圖變換到給定深度上并與對應(yīng)位置的參考視圖配對,通過計算在不同深度上計算視覺連續(xù)連續(xù)性來構(gòu)建出WxHxD的代價空間,其中W,H為圖像的長寬,D為深度采樣的數(shù)量。與先前從圖像對中抽取4D的代價空間不同,這種直接基于圖像對計算代價空間的方法避免了3D卷積對于計算資源和時間的消耗。
在獲取代價空間后,研究人員使用了DepthNet對代價空間進行聚合,以得到初始的深度信息。需要注意的是,這一部分的輸入還包含了對應(yīng)的視圖,以便充分利用圖像中所包含的上下文信息。最終,模塊輸出的初始深度圖為與參考圖像視角下。
為了保留場景更多的局部和全局結(jié)構(gòu)信息,研究人員還引入了CNM來作為基準(zhǔn)來監(jiān)督法向量約束。一方面通過PlaneCNN來抽取場景的平面區(qū)域,并利用區(qū)域平均法向量來為這一區(qū)域賦值;另一方面利用局域法向量計算方法來獲取非平面區(qū)域的法向量。最主要的目的是利用局部表面法向量來捕捉局部曲率較高的幾何結(jié)構(gòu),而用平均法向量來去除平面區(qū)域的噪聲保留全局結(jié)構(gòu)。最終在深度的L1損失和融合法相量CNM的約束下得到了效果較好的深度估計結(jié)果,下面顯示了兩部分損失的定義:



為了進一步提升深度估計的精度,在提升部分RefineNet則利用了遮擋注意力機制來進一步優(yōu)化模型性能。
將上一步得到的初始深度圖合并為一張深度圖并與平均代價空間一同送入優(yōu)化網(wǎng)絡(luò)進行處理。其中優(yōu)化網(wǎng)絡(luò)包含兩個解碼器,分別用于深度估計和遮擋概率估計。
深度圖中的遮擋區(qū)域不能同時在兩張初始深度圖中觀察到,與平等處理所有像素處的深度不同的是在計算損失時,為遮擋區(qū)域的賦予較低的權(quán)重,而非遮擋區(qū)域權(quán)重較高(非遮擋區(qū)域較為可靠)。此外得到的遮擋概率圖還可以用于濾除一些不靠譜的深度估計結(jié)果,并有助于從深度圖進行三維重建。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-5.20立即下載>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
-
精彩回顧立即查看>> 【在線會議】液冷服務(wù)器信號完整性及冷卻液關(guān)鍵電參數(shù)測試
推薦專題
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩(wěn)、細節(jié)炸,設(shè)計師慌了
- 3 6000億美元估值錨定:字節(jié)跳動的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進展總結(jié)
- 5 連夜測了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續(xù)扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













