自動(dòng)駕駛從模塊化到One Model的進(jìn)階之路。
如果將自動(dòng)駕駛汽車(chē)看作是一臺(tái)懂得“看、想、做”的機(jī)器,它首先要做的就是借助傳感器全面感知周?chē)h(huán)境,然后對(duì)這些信息進(jìn)行“思考”,并做出預(yù)測(cè)與決策,預(yù)測(cè)決策結(jié)果最終可以轉(zhuǎn)化為具體的控制指令并執(zhí)行。自動(dòng)駕駛的工作邏輯已經(jīng)非常清晰,但技術(shù)實(shí)現(xiàn)路徑卻一直在迭代,并沿著一條清晰的軌跡演進(jìn)。從專(zhuān)注“理解”的感知模型化,到賦予“思維”的規(guī)控模型化,再到協(xié)同增效的多模塊端到端,最終一定會(huì)走向One Model端到端。

圖片源自:網(wǎng)絡(luò)

感知模型化,專(zhuān)注“理解清楚”
自動(dòng)駕駛的第一階段,主要是做好理解清楚世界這件事。在這個(gè)階段,感知系統(tǒng)非常重要,其實(shí)現(xiàn)路徑高度依賴(lài)于多傳感器(攝像頭、毫米波雷達(dá)、激光雷達(dá))的前端融合,而B(niǎo)EV(鳥(niǎo)瞰視角)空間與Transformer架構(gòu),因其能統(tǒng)一處理不同來(lái)源的特征并建立全局關(guān)聯(lián),成為實(shí)現(xiàn)這一目標(biāo)的主要工具,通過(guò)硬件與軟件的融合,可顯著提升目標(biāo)檢測(cè)、地圖分割與軌跡跟蹤的可靠性。在這一階段,需要考慮感知精度、低誤報(bào)率、對(duì)光照和天氣變化的魯棒性等,同時(shí)也要保證實(shí)時(shí)性與可部署性。

圖片源自:網(wǎng)絡(luò)
這一階段,自動(dòng)駕駛模塊邊界清晰,工程責(zé)任明確,便于驗(yàn)證和上線。感知模塊輸出的是明確的如目標(biāo)的2D/3D框、車(chē)道線、語(yǔ)義地圖等中間結(jié)果,上層預(yù)測(cè)與規(guī)劃模塊也可以直接讀取這些結(jié)果,更容易做安全檢查和異常處理。
獨(dú)立的感知模塊使得數(shù)據(jù)標(biāo)注和訓(xùn)練流程相對(duì)可控,但也正因如此,系統(tǒng)存在模塊間信息離散、有損傳遞等問(wèn)題。那些經(jīng)人為接口(如目標(biāo)類(lèi)別、邊界框)抽象后的結(jié)果,也無(wú)法保留傳感器原始數(shù)據(jù)中的全部細(xì)節(jié)。這種信息損失在多數(shù)情況下尚可接受,但在需要細(xì)粒度環(huán)境理解、長(zhǎng)時(shí)序依賴(lài)分析或跨模態(tài)信息融合的復(fù)雜場(chǎng)景中,就會(huì)嚴(yán)重阻礙系統(tǒng)做出最佳決策,從而限制其性能上限。

規(guī)控模型化,讓“思考”與“行動(dòng)”也神經(jīng)化
在規(guī)控模型化階段,預(yù)測(cè)、決策、規(guī)劃等“規(guī)控”功能開(kāi)始用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),但系統(tǒng)仍保留“感知”與“規(guī)控”兩個(gè)相對(duì)獨(dú)立的模型。也就是說(shuō),系統(tǒng)的感知部分可以產(chǎn)出的是一個(gè)清晰、可解釋的語(yǔ)義世界圖,而規(guī)控部分的預(yù)測(cè)和規(guī)劃任務(wù),則交給了深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)完成,不再依賴(lài)傳統(tǒng)的規(guī)則或優(yōu)化器。這種架構(gòu)將學(xué)習(xí)能力延伸至更高層,使行為策略能夠從數(shù)據(jù)中學(xué)習(xí)更復(fù)雜的模式,同時(shí)也保留了模塊化帶來(lái)的可控性。

圖片源自:網(wǎng)絡(luò)
規(guī)控模型化的確可以讓自動(dòng)駕駛汽車(chē)變得更聰明,因?yàn)楦兄鸵?guī)控是兩個(gè)獨(dú)立的模塊,出了問(wèn)題也容易定位和調(diào)試。但也正因?yàn)閮烧呤欠珠_(kāi)的,兩個(gè)模塊之間傳遞信息,就像在傳紙條,總會(huì)有細(xì)節(jié)丟失。可能感知模塊看到的一個(gè)細(xì)微動(dòng)作對(duì)決策至關(guān)重要,但傳過(guò)去時(shí)卻被壓縮或丟棄了,這就導(dǎo)致決策模型無(wú)法充利用全部信息。而且兩個(gè)模塊各練各的,即便感知練到滿分,也不代表它給規(guī)控的信息就是最有利于最終決策的,這樣反而無(wú)法提升自動(dòng)駕駛的整體性能。
這一階段其實(shí)是自動(dòng)駕駛發(fā)展過(guò)程中一個(gè)折中的階段,由于希望上層更智能,又不愿放棄模塊化帶來(lái)的可解釋性與驗(yàn)證便利,只能做這種選擇。很多頭部公司也正嘗試在規(guī)控端引入更多學(xué)習(xí)能力,同時(shí)通過(guò)設(shè)計(jì)更豐富的感知中間表達(dá)和更緊密的特征接口,來(lái)緩解信息損失的問(wèn)題。

多模塊端到端,打通關(guān)節(jié),信息傳遞更完整
多模塊端到端的關(guān)鍵在于接口形式的改變,感知與規(guī)劃之間不再通過(guò)人為設(shè)計(jì)的語(yǔ)義標(biāo)簽或邊界框傳遞信息,而是使用隱式的特征向量進(jìn)行連接。也就是說(shuō),系統(tǒng)在邏輯上仍保留如感知、預(yù)測(cè)、規(guī)劃的“模塊化”劃分,但這些模塊之間傳遞的是高維連續(xù)特征,允許梯度跨模塊反向傳播。這樣一來(lái),訓(xùn)練過(guò)程可以同時(shí)影響所有模塊,實(shí)現(xiàn)跨模塊聯(lián)合優(yōu)化,從而可以實(shí)現(xiàn)全局最優(yōu)解。UniAD等架構(gòu)就是這一方案的典型代表,將檢測(cè)、跟蹤、預(yù)測(cè)、規(guī)劃等任務(wù)置于同一框架下聯(lián)合訓(xùn)練,各任務(wù)共享特征表示,從而互相促進(jìn)。

圖片源自:網(wǎng)絡(luò)
多模塊端到端的好處是信息保留更完整,網(wǎng)絡(luò)可以不依賴(lài)人類(lèi)預(yù)設(shè)的格式,就學(xué)到對(duì)下游任務(wù)最有價(jià)值的中間表達(dá)。因?yàn)槟K依然存在,可以在部署時(shí)保留一定邊界,便于逐步替換或回退,降低了風(fēng)險(xiǎn)。這種架構(gòu)更是讓訓(xùn)練效率顯著提升,通過(guò)共享特征和聯(lián)合損失函數(shù),模型能更充分地利用數(shù)據(jù),即使是稀缺場(chǎng)景,也能通過(guò)聯(lián)合訓(xùn)練獲得更好的泛化能力。
引入多模塊端到端設(shè)計(jì)后,系統(tǒng)復(fù)雜度也明顯上升,這不僅意味著訓(xùn)練需要消耗更多的數(shù)據(jù)與算力,也使得整個(gè)流程對(duì)超參數(shù)和損失權(quán)重的設(shè)置更加敏感。隨之而來(lái)的還有模型可解釋性的降低,當(dāng)不同任務(wù)(如檢測(cè)與規(guī)劃)的學(xué)習(xí)目標(biāo)不一致時(shí),調(diào)試難度會(huì)大幅增加。由于各模塊深度集成,若系統(tǒng)在某個(gè)場(chǎng)景失效,將很難快速定位到具體的原因,這極大地拖慢了認(rèn)證進(jìn)程。此外,盡管梯度能夠跨模塊流動(dòng)以尋求全局最優(yōu),但也同時(shí)引入了訓(xùn)練不穩(wěn)定和梯度沖突的風(fēng)險(xiǎn),這必須依靠專(zhuān)門(mén)的訓(xùn)練策略和平衡機(jī)制來(lái)維持穩(wěn)定。

One Model端到端,自動(dòng)駕駛完美方案
One Model端到端,是一種更徹底的端到端思路,該架構(gòu)的目標(biāo)是從原始傳感器信號(hào)(如圖像像素、雷達(dá)點(diǎn)云)到最終控制指令或軌跡,全部由一個(gè)統(tǒng)一的深度學(xué)習(xí)模型完成。這里不再有傳統(tǒng)意義上的感知、預(yù)測(cè)、規(guī)劃等模塊劃分,模型內(nèi)部通過(guò)自學(xué)形成完成任務(wù)所需的全部中間表達(dá)和處理路徑。這種架構(gòu)能完整利用傳感器的每一分信息,避免人為接口造成的信息瓶頸,從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)更高的性能與更好的泛化能力。

圖片源自:網(wǎng)絡(luò)
One Model端到端需要極大的數(shù)據(jù)與算力支撐,以覆蓋足夠多的駕駛場(chǎng)景與邊界情況。模型容量、訓(xùn)練樣本覆蓋面以及監(jiān)督信號(hào)的設(shè)計(jì)(如行為克隆、逆強(qiáng)化學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等混合策略)都會(huì)直接影響最終性能。由于這類(lèi)模型更接近“大模型”范式,可借鑒自然語(yǔ)言處理或視覺(jué)大模型中的預(yù)訓(xùn)練-微調(diào)策略,先利用海量無(wú)標(biāo)簽或弱標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練,再用少量高質(zhì)量決策數(shù)據(jù)進(jìn)行微調(diào)。
該架構(gòu)中,由于模型一體化,可解釋性與可驗(yàn)證性問(wèn)題也出現(xiàn)了,當(dāng)系統(tǒng)內(nèi)部沒(méi)有清晰的模塊邊界,如何構(gòu)建安全論證、通過(guò)法規(guī)或行業(yè)認(rèn)證就成了難題。自動(dòng)駕駛模型想合規(guī)利用,需要解釋系統(tǒng)在特定情境下為何做出某個(gè)行為,而“一體化”的黑箱模型很難滿足這一要求。這一方案的魯棒性與可控性也是需要考慮的問(wèn)題,若系統(tǒng)在稀有場(chǎng)景出錯(cuò)時(shí),如何快速定位、修復(fù)與回滾?傳統(tǒng)模塊化可以只替換一個(gè)模塊,而“大模型”可能需要重新訓(xùn)練或大幅微調(diào)。在安全關(guān)鍵系統(tǒng)中,冗余設(shè)計(jì)(如雙通道獨(dú)立感知鏈路)是常態(tài),但“一體化”模型如何設(shè)計(jì)冗余、如何在部分傳感器失效時(shí)降級(jí),是必須解決的難問(wèn)題。
雖然很多人將One Model端到端視為自動(dòng)駕駛的“終極形態(tài)”,但短期內(nèi)它更可能作為研究前沿或特定場(chǎng)景(如封閉園區(qū)、低速環(huán)境)的試驗(yàn)方案,想真正將其落地,還需很長(zhǎng)一段路要走。

最后的話
將上述四個(gè)階段放在一起看,可以將自動(dòng)駕駛系統(tǒng)理解為一條從“可解釋、可控”逐步走向“信息完整、潛在性能更強(qiáng)”的技術(shù)演進(jìn)路徑,感知模型化適合將“看清楚”做到極致;規(guī)控模型化讓“思考”與“行動(dòng)”更智能;多模塊端到端在效率與完整性之間找到平衡;One Model端到端雖代表理論上的性能上限,卻伴隨驗(yàn)證、解釋與部署上的巨大挑戰(zhàn)。無(wú)論選擇哪種架構(gòu),自動(dòng)駕駛的最終目的還是服務(wù)于人,只有在確保安全的前提下將技術(shù)用到極致,才是真正有用的技術(shù)架構(gòu)。
-- END --
原文標(biāo)題 : 自動(dòng)駕駛從模塊化到One Model的進(jìn)階之路
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專(zhuān)題
- 1 特斯拉Optimus Gen3量產(chǎn)在即,哪些環(huán)節(jié)最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 5 Tesla AI5芯片最新進(jìn)展總結(jié)
- 6 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 7 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 8 2026,人形機(jī)器人只贏了面子
- 9 AI界的殺豬盤(pán):9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢(qián)!
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





