2022年下半年,智駕行業(yè)開(kāi)始彌漫一股去高精地圖的趨勢(shì);2023年,隨著彼時(shí)還是華為車(chē)BU CEO的余承東振臂一呼,業(yè)內(nèi)去高精地圖的呼聲達(dá)到高潮。時(shí)至今日,“無(wú)圖NOA,全國(guó)都能開(kāi)”的宣傳口號(hào)已經(jīng)成為車(chē)企們的通用詞匯,高精地圖早已被人們遺忘在角落。
尤其這兩年軟硬件技術(shù)的雙向提升也讓業(yè)內(nèi)在“去高精地圖”上有了更多底氣。
首先是網(wǎng)絡(luò)模型提取特征能力提升。相比于基于規(guī)則和小模型的智駕方案,智駕進(jìn)入BEV+Transformer+OCC和端到端階段,智駕方案的環(huán)境感知和運(yùn)動(dòng)規(guī)劃能力都得到提升;
其次,目前的智駕傳感器方案至少采用6V+方案,相比傳統(tǒng)的單目方案擁有更大的信息輸入量,并且比多目后融合的精度更高,錯(cuò)誤更少,感知能力明顯提升。
此外,端到端大模型的實(shí)時(shí)運(yùn)行能力提升了系統(tǒng)效率,地平線征程6等高算力芯片可以提供更多的算力和算子支持。系統(tǒng)的承載和表達(dá)能力更強(qiáng)了,也就無(wú)形中提高了它的上限能力。
這些都加速了行業(yè)“去高精地圖”的步伐。
端到端帶來(lái)的“假象”
端到端技術(shù)到來(lái)讓業(yè)內(nèi)“去高精地圖”的底氣達(dá)到高潮。2023年,小鵬汽車(chē)率先提出“全國(guó)都能開(kāi),有路就能開(kāi)”的口號(hào)。隨后,華為也迅速跟進(jìn),提出只要有導(dǎo)航地圖的地方都能開(kāi)。今天,幾乎所有頭部車(chē)企在宣傳標(biāo)語(yǔ)上都實(shí)現(xiàn)了“全國(guó)都能開(kāi)”。
2023年下半年,華為高階智駕在鄉(xiāng)間小道絲滑穿行的小視頻在網(wǎng)絡(luò)瘋傳。彼時(shí)端到端能力已經(jīng)在發(fā)揮作用,無(wú)圖智駕能力得到落地驗(yàn)證。這也讓車(chē)企們堅(jiān)信,脫離高精地圖,智駕的表現(xiàn)更加得心應(yīng)手。
何小鵬甚至激進(jìn)地表示,未來(lái)不上端到端和大模型的車(chē)企將會(huì)很快出局。《圓周智行》粗略統(tǒng)計(jì),截至目前,已經(jīng)有超過(guò)20+頭部車(chē)企和智駕公司布局端到端方案。
然而,端到端極高的上限能力幾乎“騙了”所有人,讓大家很容易忽視其下限也低的既定事實(shí)。
仔細(xì)分析會(huì)發(fā)現(xiàn),事情并沒(méi)有表面看到的那么簡(jiǎn)單。自動(dòng)駕駛技術(shù)的本質(zhì)是“輸入信息的有效性+模型特征提取的高效性?!?/span>
前者由傳感器數(shù)量和模態(tài)決定。端到端網(wǎng)絡(luò)結(jié)構(gòu)下,特征提取能力由訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)據(jù)場(chǎng)景覆蓋決定。但傳感器實(shí)時(shí)探測(cè)數(shù)據(jù),具有探測(cè)距離、分辨率、動(dòng)態(tài)范圍等性能約束,及光照、擁堵、遮擋及信號(hào)丟失等場(chǎng)景約束。這就很難保證實(shí)時(shí)感知信息的準(zhǔn)確性。
智駕系統(tǒng)一般是先在云端離線訓(xùn)練模型,然后再下放到車(chē)端。但是在智駕車(chē)放量數(shù)據(jù)回傳接管場(chǎng)景前,離線模型學(xué)習(xí)到的都是大量的常規(guī)數(shù)據(jù),異常場(chǎng)景所需要的先驗(yàn)信息少。
如果要大批量量產(chǎn),又有不同城市規(guī)則及更多復(fù)雜場(chǎng)景的大量場(chǎng)景需要模型覆蓋。
離線訓(xùn)練數(shù)據(jù),實(shí)時(shí)感知與復(fù)雜場(chǎng)景數(shù)據(jù)都無(wú)法保證。這就使得端到端的上限提升的同時(shí),下限也更低了。
而上文提到的無(wú)圖智駕能力就是一個(gè)典型的“假象”。鄉(xiāng)間小道屬于低速,小范圍,拓?fù)浜?jiǎn)單場(chǎng)景。這些場(chǎng)景下,OCC很容易構(gòu)建出精確的3D語(yǔ)義空間,同時(shí)簡(jiǎn)單車(chē)道及路網(wǎng)的軌跡預(yù)測(cè)更準(zhǔn)確,加上被限定在局部小范圍,他車(chē)軌跡干擾小,路徑規(guī)劃就相對(duì)簡(jiǎn)單。不僅如此,低速進(jìn)一步降低了系統(tǒng)延遲,帶來(lái)更好的路徑規(guī)劃時(shí)空精度,有點(diǎn)像靜態(tài)泊車(chē)場(chǎng)景??雌饋?lái)好像解決了無(wú)圖帶來(lái)的精度問(wèn)題,一旦場(chǎng)景復(fù)雜度提升,速度提升,無(wú)圖端到端的表現(xiàn)就需要重新評(píng)估。
換言之,低速場(chǎng)景的表現(xiàn)并不能作為車(chē)企脫離高精地圖能夠?qū)崿F(xiàn)更好智駕的佐證。
端到端需要行業(yè)重新評(píng)估智駕地圖的價(jià)值
喧鬧之下,Momenta創(chuàng)始人曹旭東,地平線創(chuàng)始人余凱都曾對(duì)行業(yè)發(fā)出過(guò)警惕,端到端上限高,但下限也低,尤其one model屬于一體化端到端架構(gòu),屬于典型的黑盒方案,具有不可解釋性,在安全上存在極大的漏洞。
我們先來(lái)看這樣一個(gè)事實(shí),即便在端到端技術(shù)架構(gòu)下,頭部車(chē)企的智駕產(chǎn)品今天依然面臨很多問(wèn)題,包括但不限于“進(jìn)出環(huán)島與連續(xù)變道、環(huán)島識(shí)別成丁字路口錯(cuò)誤降速、中間車(chē)道異常掉頭、轉(zhuǎn)彎時(shí)壓線侵入非機(jī)動(dòng)車(chē)道、掉頭時(shí)路線選擇錯(cuò)誤侵入導(dǎo)流區(qū)進(jìn)入對(duì)向車(chē)道逆行、左轉(zhuǎn)紅燈未識(shí)別或無(wú)車(chē)道級(jí)拓?fù)潢J燈掉頭、出隧道后多種類型道路的匯出場(chǎng)景走錯(cuò)道路”。
根本原因在于,這些場(chǎng)景都是采用SD地圖與BEV感知融合來(lái)呈現(xiàn)道路規(guī)則和拓?fù)潢P(guān)系,無(wú)法實(shí)現(xiàn)準(zhǔn)確的感知推理。需要具有時(shí)空屬性的先驗(yàn)信息給予支撐,端到端無(wú)法依靠有限的離線訓(xùn)練能力推算出來(lái)這些東西。同時(shí),這也需要模型具有極強(qiáng)的泛化能力,而模型訓(xùn)練主要受制于離線訓(xùn)練數(shù)據(jù)的質(zhì)量和分布無(wú)法實(shí)現(xiàn)這些效果。
于是,朗歌科技副總經(jīng)理李戰(zhàn)斌得出這樣一個(gè)結(jié)論,無(wú)圖端到端技術(shù)給車(chē)企帶來(lái)的是一種過(guò)渡性優(yōu)勢(shì),這種優(yōu)勢(shì)會(huì)在25年上半年消退。而要繼續(xù)提升用戶的智駕體驗(yàn),具有車(chē)道級(jí)拓?fù)浜蛯傩缘闹邱{地圖高質(zhì)量數(shù)據(jù)會(huì)成為競(jìng)爭(zhēng)關(guān)鍵。
解題的關(guān)鍵就在于智駕地圖,智駕地圖擁有高質(zhì)量的時(shí)空先驗(yàn)信息,通過(guò)embedding(嵌入式)方式進(jìn)入Transformer,增強(qiáng)端到端的感知預(yù)測(cè)能力。它可以向大模型輸入實(shí)例化的場(chǎng)景提示信息,感知得到地圖的時(shí)空實(shí)例化的注意力增強(qiáng),實(shí)時(shí)增強(qiáng)模型輸出更為準(zhǔn)確和全局最優(yōu)的智駕規(guī)控信息。
智駕地圖不僅可以作為真值離線訓(xùn)練模型,也可以作為仿真地圖,生成4D訓(xùn)練樣本,更可以作為前融合的時(shí)空先驗(yàn)知識(shí),提升端到端的在線推理能力。智駕地圖作為先驗(yàn)知識(shí)輸入Transformer后,通過(guò)embedding,地圖數(shù)據(jù)方式以Q,K,V輸入到Cross attention(交叉注意力),作為一種模態(tài),通過(guò)attention來(lái)增強(qiáng)端到端自動(dòng)駕駛的感知、規(guī)控及安全兜底網(wǎng)絡(luò)或策略。
按照歷史的經(jīng)驗(yàn)回溯,更能清楚地發(fā)現(xiàn)其中存在的問(wèn)題。為了提升智駕體驗(yàn),整個(gè)行業(yè)經(jīng)歷了兩次大的算法升維。
第一次是從單目感知與多模塊的規(guī)則化到分階段的模型化,實(shí)現(xiàn)了經(jīng)驗(yàn)驅(qū)動(dòng)到海量數(shù)據(jù)驅(qū)動(dòng)的模型開(kāi)發(fā)范式的變化,引入了大量的先驗(yàn)數(shù)據(jù)學(xué)習(xí),及多目BEV與OCC的出現(xiàn),實(shí)時(shí)感知信息量也增大;這個(gè)階段大概是在2023年以前。簡(jiǎn)單說(shuō)來(lái),就是最早期的rule-based到后來(lái)的數(shù)據(jù)驅(qū)動(dòng)。
接下來(lái)就是2023年開(kāi)啟的分段式模塊化到漸進(jìn)式端到端及雙系統(tǒng)范式,系統(tǒng)一采用一體化模型,主要信息來(lái)源是BEV特征的時(shí)序化及anchor(錨點(diǎn))實(shí)例的初始化輸入,系統(tǒng)2更多的在于復(fù)雜場(chǎng)景的領(lǐng)航引導(dǎo)信息,相比系統(tǒng)一的效果明顯減弱。系統(tǒng)1的信息丟失率減少,上限得到提升。兩者都需要實(shí)時(shí)推理,這又回到了上文提到的問(wèn)題,感知信息不準(zhǔn)確對(duì)推理結(jié)果造成的影響。導(dǎo)致端到端的下限很低。
有意思的是,兩次技術(shù)革命的發(fā)起者都是特斯拉,然后國(guó)內(nèi)車(chē)企迅速將這些技術(shù)推向高峰。
外界知道雙系統(tǒng)最早是理想汽車(chē)上半年首次提出來(lái),但從效果上看,雙系統(tǒng)加持下,理想的智駕依然存在很多問(wèn)題。
在整個(gè)行業(yè)進(jìn)入大算力芯片和端到端/世界模型的背景下,如果傳感器輸入的信息不足,那么欠定/非線性情況凸顯,無(wú)效解大量增加,導(dǎo)致端到端的下限很低,再增大芯片算力與模型復(fù)雜度是無(wú)效浪費(fèi)。這時(shí)候要做的就是提高輸入環(huán)境信息的有效性。智駕地圖就是不二之選。
然而,一個(gè)矛盾的問(wèn)題擺在圖商們面前,傳統(tǒng)智駕方案在使用地圖時(shí)需要將逐個(gè)地圖元素通過(guò)規(guī)則開(kāi)發(fā)的方式應(yīng)用在路徑規(guī)劃等模塊中,而端到端最大的特點(diǎn)就是降低規(guī)則開(kāi)發(fā)的訴求。
這里我們來(lái)看看朗歌科技在實(shí)戰(zhàn)中找到的經(jīng)驗(yàn)。今年6月,CVPR 2024國(guó)際自動(dòng)駕駛挑戰(zhàn)賽中,朗歌科技在無(wú)圖智駕賽道奪冠,擊敗來(lái)自10個(gè)國(guó)家和地區(qū)的120支隊(duì)伍,斬獲創(chuàng)新獎(jiǎng)和全國(guó)冠軍獎(jiǎng)。
傳統(tǒng)基于規(guī)則和小模型的后融合方式在使用智駕地圖時(shí)存在感知和地圖兩者分別錯(cuò)誤或缺失時(shí)信誰(shuí)的問(wèn)題。而在端到端時(shí)期,智駕地圖可以以非監(jiān)督信息嵌入,作為query,或者key與value,這兩種方式輸入。
我們先來(lái)看第一種,SD地圖特征作為key與value輸入。例如朗歌參賽的LG-map多模態(tài)方案,在有 SD 地圖的場(chǎng)景下,LGMap 沿著 SD 中的每個(gè)矢量均勻采樣固定數(shù)量的點(diǎn),經(jīng)過(guò)正弦位置編碼之后,使用 BEVFormer 的方式,將 bev query 分別對(duì) SD 地圖特征和來(lái)自視覺(jué)輸入的特征做交叉注意力。SD地圖特征作為key和value向量,通過(guò)交叉注意力計(jì)算,和相機(jī)特征融合,得到最終的BEV特征。之所以這樣編碼,在于SD信息為道路信息,缺少車(chē)道級(jí)內(nèi)容,作為檢索信息來(lái)增強(qiáng)感知更為合適。
第二種,智駕地圖特征作為初始化query輸入。輸入智駕輕地圖HQ,每個(gè)智駕地圖元素編碼成一個(gè)query,即query的值初始化為地圖元素的幾何位置和類別,與bev feature通過(guò)交叉注意力網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)多模態(tài)信息的融合。這種“智駕地圖+智駕端到端前融合”輸入方式能夠帶來(lái)幾個(gè)明顯的好處:
1、將地圖先驗(yàn)信息以非規(guī)則的模型化方式輸入到網(wǎng)絡(luò)中,與端到端模型降低規(guī)則開(kāi)發(fā)的訴求一致;
2、基于地圖增強(qiáng)的query與BEV感知特征,端到端和漸進(jìn)式端到端都獲得先驗(yàn)知識(shí)的增強(qiáng),提高模型下限和智駕用戶體驗(yàn);
3、更新后的query通過(guò)map decoder,輸出前融合后的局部更新地圖,通過(guò)數(shù)據(jù)閉環(huán)回傳,提升云端眾包建圖質(zhì)量和效率,促進(jìn)車(chē)云協(xié)同的周天智能體系飛輪的快速運(yùn)轉(zhuǎn)。
余凱和曹旭東都有一個(gè)基本共識(shí),城市NOA會(huì)在3-5年內(nèi)迎來(lái)大規(guī)模爆發(fā),端到端是一個(gè)很好的抓手,但要保證智駕的安全和體驗(yàn)有質(zhì)的飛躍,行業(yè)需要重新評(píng)估智駕地圖的價(jià)值。