為什么無(wú)圖智駕不使用SLAM建立局部語(yǔ)義地圖?
智駕無(wú)圖的概念已經(jīng)在自動(dòng)駕駛領(lǐng)域流傳頗深,過(guò)去幾年,自動(dòng)駕駛高度依賴高精地圖,但現(xiàn)在更追求像人一樣開(kāi)車,也就是在不依賴預(yù)設(shè)地圖的情況下,實(shí)時(shí)感知并理解周圍環(huán)境。
在這個(gè)過(guò)程中,BEV、Occupancy(占用網(wǎng)絡(luò))和Transformer的組合成了主流,而曾經(jīng)在機(jī)器人領(lǐng)域立下汗馬功勞的SLAM方案,卻沒(méi)有在智駕領(lǐng)域大放異彩。為什么無(wú)圖智駕不使用SLAM建立局部語(yǔ)義地圖?
為什么傳統(tǒng)的幾何建圖跟不上變化?
傳統(tǒng)的SLAM方案(即即時(shí)定位與地圖構(gòu)建)核心邏輯是基于幾何約束的。它依賴于如系統(tǒng)提取出路邊建筑的邊緣、交通標(biāo)志的轉(zhuǎn)角等特征點(diǎn)的匹配,然后通過(guò)復(fù)雜的數(shù)學(xué)公式計(jì)算這些點(diǎn)在三維空間中的坐標(biāo)。這種方案在處理靜態(tài)、剛性的環(huán)境時(shí)會(huì)非常精確,但在城市交通這種動(dòng)態(tài)、非剛性的環(huán)境下,幾何邏輯就會(huì)遭遇嚴(yán)重的挑戰(zhàn)。
因?yàn)镾LAM方案在構(gòu)建局部語(yǔ)義地圖時(shí),本質(zhì)上是在做一種拼圖工作。它需要先識(shí)別出圖像里的車、人、路緣石,然后嘗試把這些帶語(yǔ)義標(biāo)簽的物體投影到地圖坐標(biāo)系里。一旦圖像中出現(xiàn)了遮擋,或者是車輛在顛簸中導(dǎo)致相機(jī)角度發(fā)生了微小的偏移,幾何投影就會(huì)產(chǎn)生錯(cuò)位,導(dǎo)致地圖里的物體出現(xiàn)重影或位置漂移。更關(guān)鍵的是,這種方案對(duì)算力的消耗分布不均,隨著環(huán)境復(fù)雜度的提升,維護(hù)一個(gè)精細(xì)的局部特征地圖會(huì)占用大量的內(nèi)存和處理時(shí)間。
在此基礎(chǔ)上,語(yǔ)義斷層也是一個(gè)無(wú)法回避的問(wèn)題。傳統(tǒng)的語(yǔ)義地圖方案要求系統(tǒng)必須先看懂物體,才能將其畫(huà)進(jìn)地圖。但在實(shí)際駕駛中,我們會(huì)遇到各種無(wú)法被歸類的東西,比如路邊垂下的樹(shù)枝、灑在地上的建筑垃圾,或者是形狀怪異的特種車輛。SLAM方案如果無(wú)法給這些物體貼上準(zhǔn)確的標(biāo)簽,它們?cè)诰植康貓D里可能就是缺失的,這對(duì)自動(dòng)駕駛的高安全要求來(lái)說(shuō)是一個(gè)巨大的隱患。
Transformer是如何重塑空間感的?
BEV方案之所以在自動(dòng)駕駛領(lǐng)域崛起,核心在于它引入了Transformer這種能夠處理全局關(guān)聯(lián)的架構(gòu),其徹底改變了空間特征的轉(zhuǎn)化方式。在傳統(tǒng)的方案中,我們要把2D圖像轉(zhuǎn)為3D空間,需要依賴深度估計(jì),也就是先猜每一個(gè)像素點(diǎn)離我有多遠(yuǎn),再把它投射出去。但猜深度本身就是一個(gè)極不穩(wěn)定的過(guò)程,容易受到光影、雨霧的干擾。
Transformer引入了主動(dòng)詢問(wèn)的機(jī)制。在BEV空間里,算法會(huì)先預(yù)設(shè)好一張空的鳥(niǎo)瞰圖畫(huà)布,畫(huà)布上的每一個(gè)位置(我們稱之為Query,即查詢量)都會(huì)主動(dòng)去向所有的攝像頭畫(huà)面打聽(tīng),在你們的視野里,有沒(méi)有哪個(gè)像素的信息是屬于我這個(gè)地理位置的?這種機(jī)制不再?gòu)?qiáng)求系統(tǒng)去精準(zhǔn)計(jì)算深度,而是通過(guò)大規(guī)模數(shù)據(jù)的學(xué)習(xí),讓系統(tǒng)建立起一種類似于人類的空間感。它知道當(dāng)左側(cè)相機(jī)出現(xiàn)一個(gè)車頭,后側(cè)相機(jī)出現(xiàn)一個(gè)車尾時(shí),它們?cè)贐EV畫(huà)布上應(yīng)該匯聚成同一個(gè)物理實(shí)體的特征。
這種方式的最大優(yōu)勢(shì)在于它能夠?qū)崿F(xiàn)特征級(jí)的融合,而不是結(jié)果級(jí)的拼接。過(guò)去我們是把每個(gè)相機(jī)算出的結(jié)果強(qiáng)行湊在一起,現(xiàn)在我們是在最底層的特征階段就把360度的信息融為一體。由于Transformer具有全局注意力機(jī)制,它甚至可以利用道路的整體輪廓來(lái)推斷被遮擋區(qū)域的情況。如當(dāng)一輛貨車擋住了側(cè)方視角時(shí),系統(tǒng)可以結(jié)合前后的車道線走向,在BEV空間里腦補(bǔ)出貨車后方的道路結(jié)構(gòu),這種邏輯的連貫性是傳統(tǒng)SLAM方案難以企及的。
占用網(wǎng)絡(luò)如何解決感知死角?
如果說(shuō)BEV和Transformer聯(lián)手解決了視野重構(gòu)與空間還原的問(wèn)題,讓車輛看清了世界長(zhǎng)什么樣以及空間怎么分布,那么占用網(wǎng)絡(luò)存在的意義,就是通過(guò)判定空間是否被占據(jù),繞過(guò)了傳統(tǒng)識(shí)別方案中必須先給物體分類的要求,解決了因?yàn)橄到y(tǒng)叫不出物體名字而造成的感知漏洞。
在SLAM語(yǔ)義地圖里,如果系統(tǒng)識(shí)別不出一個(gè)物體是什么,它可能就會(huì)忽略這個(gè)物體的物理存在。而占用網(wǎng)絡(luò)將空間細(xì)分為一個(gè)個(gè)微小的體素塊,它的任務(wù)極其純粹,即判斷每一個(gè)小方塊是被占據(jù)了,還是空的。
這種基于幾何占用而非語(yǔ)義識(shí)別的邏輯,為智駕系統(tǒng)提供了一層物理保底。它把世界看作是一個(gè)充滿障礙物的物理空間,而不是一張貼滿標(biāo)簽的分類表。當(dāng)車輛行駛在路上,無(wú)論前方是一個(gè)倒下的路標(biāo)、一堆灑落的紙箱,還是一輛橫著的事故車,占用網(wǎng)絡(luò)都能實(shí)時(shí)反饋出那片空間是不可逾越的。它不需要知道那個(gè)東西叫什么,只需要知道那里的物理空間被占據(jù)了,從而引導(dǎo)車輛進(jìn)行避讓。
同時(shí),這種方案還帶來(lái)了極高的時(shí)空連續(xù)性。通過(guò)將Transformer處理后的特征注入到占用網(wǎng)絡(luò)中,系統(tǒng)可以存儲(chǔ)過(guò)去幾個(gè)幀的信息,形成帶記憶的4D空間感知。即使某個(gè)障礙物在某一瞬間被其他車輛遮擋了,系統(tǒng)依然記得在那個(gè)體素塊里曾經(jīng)檢測(cè)到了物體,并能根據(jù)物體的運(yùn)動(dòng)趨勢(shì)預(yù)測(cè)它現(xiàn)在的位置。這種對(duì)物理世界的連續(xù)理解能力,讓無(wú)圖智駕方案在處理復(fù)雜路口和突發(fā)狀況時(shí),表現(xiàn)得遠(yuǎn)比依賴靜態(tài)語(yǔ)義地圖的方案要從容和安全。
為什么這種組合成為了必然選擇?
BEV、Transformer和Occupancy的結(jié)合,實(shí)際上是將原本支離破碎的感知環(huán)節(jié)統(tǒng)一到了同一個(gè)坐標(biāo)系和同一種數(shù)學(xué)語(yǔ)言下。SLAM方案之所以沒(méi)有在智駕領(lǐng)域得到應(yīng)用,本質(zhì)上是因?yàn)樗噲D在一個(gè)不斷變動(dòng)的世界里建立一套永恒不變的坐標(biāo),這在復(fù)雜的城市環(huán)境中成本太高、容錯(cuò)率太低。
自動(dòng)駕駛需要擁抱不確定性,通過(guò)利用Transformer的強(qiáng)大擬合能力去處理相機(jī)間的視差和遮擋,利用BEV視角提供統(tǒng)一的決策基礎(chǔ),再利用占用網(wǎng)絡(luò)補(bǔ)齊對(duì)未知物體的識(shí)別短板,可以讓自動(dòng)駕駛實(shí)現(xiàn)老司機(jī)的駕駛能力。這種架構(gòu)不僅對(duì)傳感器的安裝位置、型號(hào)具有更強(qiáng)的兼容性,更重要的是,它極大簡(jiǎn)化了感知與下游規(guī)控環(huán)節(jié)的對(duì)接流程。
當(dāng)規(guī)控系統(tǒng)拿到的不再是幾個(gè)飄忽不定的語(yǔ)義標(biāo)簽和一堆散亂的點(diǎn)云,而是一張高清、實(shí)時(shí)、且包含了物理占用信息的3D鳥(niǎo)瞰圖時(shí),路徑規(guī)劃就會(huì)變得像玩賽車游戲一樣直觀。這種從底層邏輯上的簡(jiǎn)化與重構(gòu),正是無(wú)圖智駕能夠快速落地、并表現(xiàn)出超越人類司機(jī)反應(yīng)潛力的根本原因,也是眾多車企敢于選擇無(wú)圖的原因。
-- END --
原文標(biāo)題 : 為什么無(wú)圖智駕不使用SLAM建立局部語(yǔ)義地圖?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤(pán):9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





