国产成人av一区二区三区在线,国产欧美性成人精品午夜,а√最新版在线天堂,欧洲成人一区二区三区,亚洲国产精品成人久久蜜臀

  1. 首頁
  2. 大牛說
  3. 自動駕駛大模型,是怎么學習「世界知識」的?

自動駕駛大模型,是怎么學習「世界知識」的?

近期,科技產(chǎn)業(yè)大佬不約而同地發(fā)出一個非常強烈的信號:自動駕駛走向完全的成熟,必須要被AI大模型重構。

中國工程院院士、清華大學教授、清華智能產(chǎn)業(yè)研究院(AIR)院長張亞勤認為,「自動駕駛是高度復雜的、最具有挑戰(zhàn)的AI垂直領域問題,自動駕駛將作為建立其上的垂直模型,最終以端到端的方式實現(xiàn)?!?/p>

毫末智行CEO顧維灝的觀點是,「未來的自動駕駛系統(tǒng)一定跟人類駕駛員一樣,不但具備對三維空間的精確感知測量能力,而且能夠像人類一樣理解萬物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識,并且能基于這些人類社會的經(jīng)驗來做出更好的駕駛策略?!?/p>

百度創(chuàng)始人李彥宏也表達過類似觀點:「未來AI原生應用一定是多模態(tài)的,在信息世界之外,一定會重構物理世界。自動駕駛就是視覺大模型重構物理世界的一個典型應用。大模型會讓自動駕駛能力超越經(jīng)驗系統(tǒng)?!?/p>

為什么自動駕駛需要被AI大模型重構?自動駕駛被AI大模型重構,該怎么做?這是本文想探討的兩個問題。

一、自動駕駛為什么要具有“世界知識”?

理解自動駕駛,就需要采用第一性原理,來還原人類駕駛的過程,從而理解智能的本質。

首先,讓我們還原人類駕駛的過程。人類和所有動物一樣,具有一套功能強大而敏銳靈活的感知覺系統(tǒng)。

人類視覺具有深度空間、顏色、紋理的感知能力,也具有理解速度、位移變化、距離的推斷能力,也具有社會經(jīng)驗賦予的語義判斷和邏輯推斷的能力,當然不能忽略聽覺的作用,聽覺一定程度彌補視野盲區(qū)的感知信息,能根據(jù)聲音大小、種類來判斷距離和危險程度。

人類本身有非常靈活的四肢,可以在有限的地面空間自由移動。而車輛的出現(xiàn)則顯著提高了人類移動的效率。隨之而來的代價是,人類要通過一定程度的學習來掌握「 開車」這么新的行動技術。

人是如何學會開車的?

  • 第一步,人們要掌握交通規(guī)則和駕駛經(jīng)驗。現(xiàn)代交通是由大量的符號和規(guī)則來構成的交通網(wǎng)絡,從而可以保證高密度車輛的高效、安全的行駛,越是復雜的交通場景,尤其是人車混行的路口,相對于的規(guī)則也就越多。

  • 第二步是掌握駕駛技巧,主要是掌握啟停的手腳操作,泊車入位的操作,以及慢速情況下的繞行等。

  • 第三步是實際的上路,通過切身經(jīng)驗來體會加減速度、跟車距離、變道時機,同時也實際理解從理論上學習到的駕駛知識和交通規(guī)則。

正常來說,一個普通人大概幾個小時就可以掌握基本操作,幾十個小時就可以在實際道路上比較熟練的行駛,吃上幾次罰單就可以深刻理解交通法規(guī)的價值,然后用一年左右時間或一萬公里左右就基本可以成為一名“老司機”。

自動駕駛想要真正達成在任何條件下無人駕駛的目標,就必須按照人類老司機的方式來處理駕駛任務。這也決定了自動駕駛“應該”和“不應該”的實現(xiàn)方法。

先說不應該。

  • 第一,自動駕駛以不應該過度依賴激光雷達,視覺感知本身就可以帶來最為豐富的駕駛場景,而配合少量的毫米波雷達或者最多一顆激光雷達就可以彌補超視距感知的不足。畢竟人類主要依靠視覺就可以完成駕駛,而多顆攝像頭實現(xiàn)的環(huán)視效果就能極大提高感知效果。

  • 第二,自動駕駛不應該以高精地圖的方案來實現(xiàn)。高精地圖帶來了“先驗”視角,讓車輛有了對環(huán)境信息的提前的掌握,但高精地圖顯然也限制了自動駕駛的運行范圍,提高了運行成本,在鮮度不足或者覆蓋范圍之外的地方會帶來額外的風險。畢竟人類只要靠自己的感知的判斷就可以完成駕駛,最多依賴導航地圖能夠更有效。

  • 第三,自動駕駛不應該以AI小模型+人工規(guī)則的方式來實現(xiàn)。AI小模型是基于特定問題來執(zhí)行任務的,比如有專門識別紅綠燈、車道線的小任務模型,但是駕駛場景會遇到種類繁多的感知任務,不可能用小模型的方式去窮盡極端場景;同樣,車輛行駛過程當中遇到的各類任務也不可能完全用人工規(guī)則寫完,遭遇復雜的博弈場景,系統(tǒng)就很容易“擺爛”或者“失效”。

因此,自動駕駛“應該”的實現(xiàn)方式是下面這樣的。

  • 首先,感知模式應該是以視覺為主的多模態(tài),感知能力應該是具備通用識別能力的,無論是對于形狀各異、提示信息各異的紅綠燈,還是對于道路上的各類指示牌、標線都有較好的泛化性;

  • 其次,自動駕駛的局部路徑規(guī)劃應該是實時建圖的方式,至少是多次重復建圖的方式,來處理當前的路徑規(guī)劃任務,就像人類依靠重復記憶,在多次經(jīng)過一段道路之后,就會對道路結構和轉向連接路徑有了內生的認知,從而可以擺脫導航地圖的幫助。

  • 另外,自動駕駛對自車和其他障礙物的預測以及規(guī)劃,要依靠模型的自我學習的方式而非規(guī)則的方式,來理解交通場景中各類障礙物的特點和行動意圖,從而更靈活地做出駕駛決策。比如,擋在閃燈鳴笛的救護車或者消防車前面,是否要主動靠邊讓行,遇到前方路口的交通事故,是否要壓實線變道過去,遇到前面帶著耳機在主路上騎行的車手或者行動遲緩的老人要不要減速避讓等等,而這些正是人類駕駛所必須掌握的“世界知識”。

總之,自動駕駛系統(tǒng)要想在真實的物理世界和人類社會環(huán)境當中運行,就必要擺脫一些額外的、人為的、過度的保護措施,更多的依靠自動駕駛系統(tǒng)自身產(chǎn)生的通用智能,擺脫過去條塊分割的模塊化思路,采用像人類一樣的感知和認知判斷的方式和人類一樣的學習方式。

過去二十年,深度學習、高精地圖、激光雷達傳感器、移動通信技術、車路協(xié)同等技術,構建了自動駕駛的基礎架構,讓自動駕駛在一定條件下開始實現(xiàn),并形成了如今的產(chǎn)業(yè)格局。而AI大模型的出現(xiàn),會讓自動駕駛的技術架構發(fā)生一次顛覆性的重構,真正有可能達成自己的最終目標。

二、AI大模型正在具有“世界知識”

哲學家維特根斯坦在早期的《邏輯哲學論》中提及了“語言與命題”、“邏輯與世界”的關系,他指出:“語言是通過符號之間的關系來表達意義的”,“語言的意義是通過語言使用者與其行為來確定的”,而“語言由命題構成,邏輯是對命題和真值的判斷,而命題是關于事實的描述,事實又存在于世界之中?!?/p>

由此,維特根斯坦通過語言建立起了邏輯和世界的橋梁。這些觀點也成為我們檢視人工智能能力的坐標。

當人工智能技術進入到大模型(Foundation Model)階段,率先實現(xiàn)的就是大語言模型(LLMs)的突破。ChatGPT的橫空出世帶給世人一種錯覺,那就是這種生成式AI可以有模有樣地產(chǎn)生高質量的對話、文本,其中真的體現(xiàn)了“智能”。

不過,ChatGPT所生成的語言內容,本質是根據(jù)前面語詞對下一個語詞的預測,我們盡管可能從中看到有關“事實”的描述,也能看到一定程度的推理,但仍然并不妨礙AI大模型在做一只“隨機鸚鵡”,也就是AI并沒有具有對現(xiàn)實世界的真正理解,它只是在“表演”對知識的理解和對世界的描述。

顯然,這并不是我們對人工智能的期望。因此,大模型應該升級為多模態(tài)的,即大模型不僅能夠讀懂文本中的意義,同時也能看懂人類世界的事實和知識,而且可以將二者聯(lián)系起來。

在ChatGPT基礎上,GPT-3.5和GPT-4模型都可以開始基于圖像進行分析和對話。而最新的GPT-4V(ision)這一大型多模態(tài)模型(LMM)也被公布出來,成為理解AI具有世界知識的新技術樣本。

多模態(tài)模型的通用性,必然要求系統(tǒng)能夠處理不同輸入模態(tài)的任意組合。根據(jù)微軟公布的報告,GPT-4V 在理解和處理任意混合的輸入圖像、子圖像、文本、場景文本和視覺指針等多模態(tài)輸入,均表現(xiàn)出了前所未有的能力。而且,GPT-4V 在開放世界視覺理解、視覺描述、多模態(tài)知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等不同領域和任務中也都表現(xiàn)出了令人印象深刻的人類水平的能力。

用比較通俗的話來說,GPT大模型的技能樹已經(jīng)拉滿,不僅局限在處理文本內的復雜推理關系,同時能夠讀懂圖像,并且理解圖像當中的深層涵義,還能夠對其中的涵義做出細致解釋。這相當于AI大模型正在打通語言和世界的隔閡,并且從中建立邏輯推理和對應關系

我們簡單舉例來看下。

先看什么是多模態(tài)的輸入(MultiModal Input),GPT-4V支持純文本、單個圖像-文本對、交錯圖像-文本的輸入。

如上圖所示,在Prompt里給出了單個或多個圖像-文本對,GPT-4V不僅從圖像中找到了Prompt中對應的答案,并且還指出這些答案所在的位置。

下圖是視覺指向和視覺參考提示的例子。圖中用高亮線條、箭頭圈出或指向的區(qū)域稱為GPT-4V要理解的目標。

從圖中給出的結果可以看到,GPT-4V能夠指出這些所指的內容,并且可以判斷他們與整個圖形其他東西的關系。并且可以回答圖形當中的相關問題。

有了指令跟隨、思維鏈、上下文少樣本學習等這些LLM當中的test-time技術,GPT-4V就可以很好地用文本來理解和解釋視覺(物理)世界。

其中,GPT-4V可以區(qū)分不同域圖像,并進行識別不同的名人,并能詳細描述名人的職業(yè)、行為、背景、事件等信息。

除了識別名人外,GPT-4V能準確識別測試圖像中的地標、菜肴、常見的疾病,同時給出生動詳細的描述,指出菜肴的成分和烹飪技術,以及描述疾病并給出治療建議。甚至于,當Prompt的問題與圖片事實不符,GPT-4V也能進行反事實推理。

更進一步,GPT-4V能夠理解圖像中人與物體之間的空間關系,例如,GPT-4V識別飛盤和人之間的空間關系,行駛在公路上的汽車和行人的位置、大小比例的關系;能夠成功地定位和識別圖像中的個體,然后為每個個體提供簡潔的描述;也能夠確定圖像中指定物體的數(shù)量。

例如上圖就可以成功定位四個人物的位置關系,并且獲取四個人的人名,并且給他們做出簡潔的描述。

以上如果是常規(guī)操作,后面GPT-4V的操作逐漸走向離譜,包括但不限于對多模態(tài)(圖文對)信息的理解和常識的推理。

例如,解釋需要很多背景信息才能讀懂的梗圖和笑話,對場景下的文本、表格、圖文進行推理、計算,對流程圖、圖表、報告進行閱讀、總結和提煉,對多語言文本進行識別、翻譯,甚至于從人的面部表情中識別和解讀人的情緒,理解不同的視覺內容如何激發(fā)情緒,根據(jù)所需的情緒和情感生成適當?shù)奈谋据敵?;以及可以對視頻內容進行理解和預測。

當這一切都可以完成,那么是不是可以應用在自動駕駛場景的理解當中呢?GPT-4V顯然可以。

下面是知乎網(wǎng)友Naiyan Wang 應用GPT-4V對交通場景所做的測試*,包括對前方車輛障礙物的識別、標記和預測。如下圖。

GPT-4V給出結果如下:

描述了三輛卡車的基本情況,以及發(fā)現(xiàn)了中間道路上遺留的未知物體,并進行了推測。

下面是對一個極端天氣下的行駛場景的描述,Prompt要求做出駕駛策略的建議。

從GPT-4V描述中看出,場景識別非常細致,能夠認出卡車尾部的霧氣,是因為經(jīng)過水坑所產(chǎn)生的,并且給出了非常符合物理世界規(guī)律的駕駛策略。

以下可以看到一個更復雜(極端)的例子。擋風玻璃前面是一個揮舞著棒球桿的男子。可以看到,GPT-4V給出的描述非常準確,能夠識別到男子的危險動作和情緒,并且給出了非常中肯的駕駛策略。

測試者認為,GPT-4V具有強大的泛化性能,適當?shù)腜rompt應當可以完全發(fā)揮出GPT-4V的實力。解決語義上的corner case應該非??善?,但幻覺的問題會仍然困擾著一些和安全相關場景中的應用。合理使用這樣的大模型可以大大加快L4乃至L5自動駕駛的發(fā)展,然而是否LLM一定是要直接開車?尤其是端到端開車,仍然是一個值得商榷的問題。

這里可以看下一些自動駕駛公司的做法。

三、引入大語言模型,自動駕駛開始具備世界知識

要把大語言模型的能力下放到自動駕駛上面,主要面臨攻克兩個難題:

一是在紛繁復雜的交通場景中具備“見多識廣”的感知理解能力,另外就是在參與者眾多的行駛過程具備“靈活多變”的認知決策能力。

第一個能力,要求自動駕駛系統(tǒng)認得東西多、準、快,要清晰地知道這些東西的相對位置、速度,材質、紋理、語義信息。第二個能力,要求準確地知道這些東西的意圖、軌跡和接下來的變化趨勢,從而指導決策和控制輸出。

毫末的自動駕駛大模型DriveGPT,是通過視覺大模型,在海量無標注的自動駕駛數(shù)據(jù)集上,采用自監(jiān)督預訓練的方式構建圖像表征,讓CV Backbone大幅提升視覺表征學習能力。

其次,DriveGPT在CV Backbone提取到視覺特征基礎上,再引入NeRF技術,通過預測視頻下一幀的自監(jiān)督方式來構建4D編碼空間,即將一個Clips序列的前K幀的部分輸入模型,用NeRF渲染出后續(xù)的H幀,構建起一個帶有時序的4D特征空間。

其中,DriveGPT在過程中引入了圖文多模態(tài)大模型,經(jīng)過4D編碼器將視頻中的時空特征編碼到4D特征空間后,在通過多模態(tài)大模型,將視覺特征對齊到文本語義特征,最后通過NeRF渲染器,以預測未來視頻的方式,用來監(jiān)督4D特征空間中對世界的感知能力。

如此,圖文多模態(tài)模型的引入就讓4D空間中的各類事物具有了語義信息。從而DriveGPT先構建起一個見多識廣的自動駕駛通用感知大模型,實現(xiàn)在一個模型中同時學習到空間的三維幾何結構、語義分割和紋理信息,也就具備識別萬物的能力,也由此更好地完成目標檢測、目標跟蹤、深度預測等各類感知任務。

舉個例子,當車輛前方出現(xiàn)低垂的柳條或者被風卷起的塑料袋,原有的視覺感知會將其識別為一般障礙物,而可能出現(xiàn)幽靈剎車的問題。而借助通用感知大模型的萬物識別能力,就能理解前方事物的具體語義信息,根據(jù)其物理信息判斷是否可以繼續(xù)行駛。

第三,感知的結果將作為輸出,進入認知模塊,通過引入大語言模型LLM,讓自動駕駛系統(tǒng)能看懂駕駛環(huán)境,理解社會常識,從而具備世界知識,也就是既能認識這些道路場景的元素是什么,也能知道其包含的物理、社會屬性,從而做出更好預測和決策規(guī)劃。

具體過程是這樣:先將感知大模型的結果解碼得到當前的感知結果,再結合自車信息和駕駛意圖,構造典型的Drive Prompt(駕駛提示語),再將這些Prompt輸入大語言模型,讓大語言模型對當前的自動駕駛環(huán)境做出解釋。例如為什么要加速、為什么要減速、為什么要變道等,讓大語言模型能夠像駕校教練或者陪練一樣,對駕駛行為做出詳細的解釋。

最后,再將駕駛解釋和駕駛建議作為prompt輸入到生成式大模型,來讓自動駕駛大模型獲得外部大語言模型內的人類知識,從而具備常識,才能理解人類社會的各種明規(guī)則或者潛規(guī)則,才能跟老司機一樣,與各類障礙物進行更好地交互,更好地對未來的駕駛策略進行規(guī)劃,輸出控制結果。

四、掌握世界知識:自動駕駛將抵達目標點

回到開頭,從第一性原理出發(fā),人類是如何開車的?優(yōu)秀的人類司機在駕駛中,不僅僅能看到交通環(huán)境的各種場景,而且還能很好理解這些場景中的路牌、路標、車輛、行人分別代表什么含義,而且還能準確推理、判斷這些物體的運動趨勢、意圖和危險程度。

比如,當司機注意到前面有一個不斷向后扭頭觀察的騎行者,就能判斷他是想要變道或者橫穿過去,就會主動禮讓,而如果遇到一個按照穩(wěn)定在直線騎行的成年人就可以試著超過去,但如果是遇到帶著頭盔、耳機的年輕騎行者或者是年級較大的老人就應該減速,從而小心應對。這些在真實物理世界當中的社會知識,是需要在長期的駕駛過程中結合生活經(jīng)驗融會貫通的。

對于自動駕駛系統(tǒng)來說,如果把不同類型的移動的行人、車輛都一視同仁地看作同等類型的障礙物,就很難做出擬人的駕駛策略,要么會非常保守,要么就會非常激進。

因此,自動駕駛系統(tǒng)不僅要學習如何區(qū)分感知到的物體,而且要逐漸理解這些物體分別具有的含義,除了學習駕駛者在相應場景下的駕駛決策行為,還要理解駕駛者為什么會做出這種決策。

再舉一個現(xiàn)實的案例。

不久前,美國自動駕駛公司Cruise的Robotaxi在舊金山的開放道路上開始了商業(yè)運營。結果沒幾天,有一臺車陷到了一段沒有干透的水泥路里。

那為啥這臺Robotaxi會沖進去?就是因為它的感知里識別到那是一段平坦的路面,但是不知道車在這種沒干透的水泥路會陷進去,這是普通人都知道的物理常識,但顯然這臺Robotaxi還沒有學會。

在城市場景里,其實有著類似這樣無窮無盡的極端場景。所以自動駕駛想要開的好、變得真正像人一樣聰明地駕駛,就必須掌握大量的世界知識。

目前來看,大語言模型確實已經(jīng)存儲了大量的世界知識,自動駕駛將大語言模型引入進來,從中能夠學習到這些常識,以后就可以知道沒有干透的馬路不能開上去,遇到馬路邊的小孩子要比成年人更需要注意減速避讓,遇到戴頭盔的電動車的騎行者也需要提高警惕。

最后總結下,AI大模型正在幫助自動駕駛獲得認識萬物的通用感知,以及獲得世界知識的通用認知能力。一些大模型展現(xiàn)出來的圖文解釋能力,以及引入多模態(tài)模型和大語言模型的實踐,正是這一自動駕駛技術架構正在被重構的前沿實踐。

可以預見,接下來自動駕駛領域將會出現(xiàn)更多大模型的實踐,給出更具技術潛力的端到端方案。

* 文內第二部分引用的交通場景測試案例,來自于Naiyan Wang在《GPT-4V在自動駕駛中初探》中的分享,原文鏈接:https://zhuanlan.zhihu.com/p/66094051

來源:第一電動網(wǎng)

作者:HiEV

本文地址:http://www.medic-health.cn/kol/213672

返回第一電動網(wǎng)首頁 >

收藏
11
  • 分享到:
發(fā)表評論
新聞推薦
第一電動網(wǎng)官方微信

反饋和建議 在線回復

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!
-->