根據(jù)馬斯克的預告,一個月之后,特斯拉 2021 AI Day 就將到來。
我們不知道屆時特斯拉會發(fā)布什么黑科技,但我們知道,馬斯克屆時一定會為純視覺自動駕駛路線作出詳盡的解釋,順便立下足夠嚇人的 flag。
早在一個月之前,特斯拉就宣布,北美市場的 Model 3/Y 將不會再配備毫米波雷達和超聲波雷達,僅標配攝像頭。
純視覺自動駕駛,無疑是特斯拉對汽車行業(yè)的新一次挑戰(zhàn),甚至對自己推動的浪潮,也是一次「不破不立」。
特斯拉一直是激光雷達的反對者,馬斯克屢次在推特 diss 激光雷達陣營,并多次強調純視覺路線的優(yōu)越性。
《任何依賴激光雷達的人都注定失敗》
特斯拉 AI 部門高級主管 Andrej Karpathy 說的「人類開車不是靠雙眼發(fā)射激光」,同樣是經(jīng)典。
但除了金句、flag,特斯拉一直沒有說明白,純視覺自動駕駛背后究竟有怎樣的思考?為什么全世界都在加碼的激光雷達路線,在特斯拉這里這么不受待見?
直到最近,在 2021 CVPR 國際計算機視覺與模式識別會議上,Andrej 用一場時長 38 分鐘的在線演講,放出了足夠多的干貨,于是我們再次得以一窺特斯拉 AI Day 。
今天的推送當然會枯燥,但也沒那么索然無味。
因為,想要把特斯拉堅定站在純視覺路線的理由說清楚,反而不能過分執(zhí)著于技術名詞。邏輯、思考,則是更形而上學,也更通俗易懂的敘述方式。
純視覺 FSD 背后的哲學
兩年兩個月之后,Andrej 把那句「名言」OTA 到了最新版本:
「人類依賴視覺開車,而我們大腦里的‘深度學習網(wǎng)絡’,很明顯是有能力處理視覺數(shù)據(jù)輸入,并理解身邊所有物體視覺深度和速度的」。
是的,特斯拉的自動駕駛依然帶著濃濃的第一性原理味道。人類如何坐到方向盤后面,Autopilot 就照樣再做一次。
特斯拉相信的,是人類既然可以通過視覺信息+大腦處理,成為一個合格的駕駛者。那么攝像頭+深度學習神經(jīng)網(wǎng)絡+計算硬件,也可以達到類似的效果。
于是特斯拉需要證明三個有關純視覺 FSD 的命題:觀察世界的能力、理解交通的能力、處理場景的能力。
1.先來說說「觀察」。
攝像頭可以做到人類眼睛的程度嗎?Andrej 的原話是:「unequivocal yes 絕對可以」。
兩個半月之前,馬斯克在推特上這么說:「當雷達和視覺不一致時,你會相信哪一個?視覺具有更高的精度,所以最好是加注視覺路線,而不是多傳感器融合?!?/span>
馬斯克后來解釋稱,傳感器的本質是比特(bit)數(shù)據(jù)流,而攝像頭每秒傳輸?shù)谋忍亓勘壤走_高了幾個量級。「只有顯著提升雷達比特數(shù)據(jù)流的信噪比,才值得去整合它(相較于攝像頭)的復雜性。」
幾個量級這樣的表述有點模糊,Andrej 精確了一下:「100 倍」。
「攝像頭幾乎是在俯視其他傳感器,其他傳感器甚至開始成為(自動駕駛系統(tǒng))的累贅」,他這樣補充。
上圖是特斯拉 Autopilot 8 攝像頭的畫面總覽。目前特斯拉使用的攝像頭為 1280x960 分辨率,每秒拍攝 36 幀畫面,約束數(shù)據(jù)流的規(guī)模大概是 8M bits 每秒。
Andrej 表示即使是這樣分辨率的攝像頭畫面,相比其他傳感器仍然是「data rich 數(shù)據(jù)富?!?/strong>,這也是他們「doubling down 雙倍加注」視覺路線的主要原因。
「我們不希望在雷達堆棧、多傳感器融合堆棧上面浪費人力」,他表示現(xiàn)在特斯拉只有一支「vision team 視覺隊伍」。
2. 攝像頭的「優(yōu)越性」,需要規(guī)模效應激發(fā)。
Andrej 舉了個例子:Waymo 的自動駕駛測試車。盡管和 FSD Beta 一樣都可以做出無保護左轉這樣的動作,但實現(xiàn)這套動作的硬件底層卻大相徑庭。
Waymo 公開運營的大捷龍長這樣,頭上有激光雷達:
Andrej 表示,激光雷達+高精度地圖的技術路線,需要大量的前置準備,工作范圍被高精度地圖限制,并且「保持更新基礎硬件的成本太高」。
深度學習需要巨量數(shù)據(jù)喂養(yǎng),以覆蓋小數(shù)點后面無數(shù)個 9,所代表的 Corner case,也就是小概率場景。前期成本遠高于攝像頭的激光雷達路線,很難跟上特斯拉賣車的腳步。
Andrej 強調稱,特斯拉的純視覺硬件已經(jīng)在上百萬輛車型上使用,這是其他車企很難復刻的。
但「這并不意味著視覺路線更簡單,因為純視覺更依賴深度學習網(wǎng)絡——而深度學習又依賴于數(shù)據(jù)反饋的規(guī)模」,所以對特斯拉來說,「scale」才如此重要。
Andrej 認為,特斯拉解決了規(guī)模問題之后,基于深度學習的攝像頭「kind of leaving a lot of other sensors in the dust(像是把其他傳感器都甩遠了)」。
「一旦你可以讓其(深度學習網(wǎng)絡)正常工作,(純視覺)自動駕駛就可以在世界上任何地方使用」。
3. 然后是理解交通的能力。
特斯拉認為攝像頭是可以和人眼媲美的,且?guī)缀跷ㄒ恍枰淖詣玉{駛傳感器。
而如何使車輛與人類一樣思考、理解交通,則是 Autopilot 貫徹「第一性原理」的另一基礎。
Andrej的原話是「massive data set of depth, velocity acceleration on a lot of cars, and we’re going to train a large enough neural network and do a very good job at that.」
中文表達簡潔很多:「足夠多有關深度/加速度的(視頻)數(shù)據(jù),足夠多汽車提供這樣的數(shù)據(jù),訓練足夠大的神經(jīng)網(wǎng)絡并且做得足夠好」。
特斯拉的純視覺方法論,某種程度上很像人類交通探索過程:開足夠多的車(數(shù)據(jù))、有足夠多的人開車(車輛數(shù))、總結交通法規(guī)+駕駛培訓課程+老司機「言傳身教」。
特斯拉的銷量當然不需要擔心,交通法規(guī)已經(jīng)非常完善,而特斯拉需要解決的,就剩下最核心的任務——給 Autopilot「上駕駛課」。
這一過程不僅需要數(shù)據(jù)的數(shù)量,還需要質量。
Andrej 表示特斯拉用來訓練純視覺的數(shù)據(jù),必須要滿足 large(數(shù)以百萬計)、clean(清晰標注速度/加速度/深度)、diverse(包含大量邊緣案例,不是‘無聊’的場景)這三個條件。
2019 年 11 月,Andrej 在出席 PyTorch 開發(fā)者峰會的時候表示,「現(xiàn)階段我的團隊已經(jīng)可以在椅子上葛優(yōu)癱,然后數(shù)據(jù)就會從特斯拉的車子上傳過來,在神經(jīng)網(wǎng)絡模型上自己不斷循環(huán)運行」。
他將這套流程為「Operation Vacation(運營假期)」,本質則是精準而高效的數(shù)據(jù)自動標注能力。
這樣的「假期」,首先體現(xiàn)在高到「變態(tài)」的人力效率——Andrej 表示基于目前的神經(jīng)網(wǎng)絡結構,一個深度學習網(wǎng)絡所需的工程師數(shù)量,僅有 20 個。
有意思的是,Andrej 在演講中說「有些場景中,額外的傳感器也會用于自動標注,比如雷達」。
自動標注能力不是憑空得來的,Andrej 稱最近四個月,團隊都在致力于讓深度、速度、加速度等信息標注更加高效。
4. 理解交通,不僅需要「教材」,還需要「做題」。
目前 Andrej 的團隊總結出 221 個純視覺「trigger」,也就是觸發(fā)條件。
這 221 個觸發(fā)條件的解釋包含了大量專業(yè)術語,事實上大家并不需要完全理解,因為它們的共同作用,都是「從用戶駕駛過程中獲取多樣化場景」。
它們就是 Autopilot 軟件團隊為純視覺自動駕駛準備的「習題」,幾乎永不停歇。
當然,給純視覺 FSD 上課,并不像人類駕校的科目一科目二,但特斯拉也有相對固定的流程。
首先需要的是「seed data set 種子數(shù)據(jù)集」
然后用它們訓練出深度學習網(wǎng)絡
將其以「影子模式」的形式部署至用戶車輛中
深度學習網(wǎng)絡做靜默預測
完善深度學習網(wǎng)絡偏差溯源機制
用觸發(fā)條件獲得差異化場景
部分場景需要經(jīng)歷獨立測試
大致經(jīng)歷以上流程之后,所有被自動標注(同時保證數(shù)據(jù)得到清洗)的場景數(shù)據(jù),就會成為純視覺 Autopilot 學習駕駛課程的知識,然后被應用到實際道路上。
Andrej 放出了這張 PPT:7 輪影子模式迭代流程、100 萬個 8 攝像頭、36 幀、10 秒時長的高度差異化場景、60 億個包含精確深度/加速度的物體標注,以及 1.5PB(1PB=1024TB=10242GB)數(shù)據(jù)量。
另外,在已釋放的影子模式下,做純視覺 Autopilot 的驗證,也是深度學習進化的重要環(huán)節(jié)。
這里還是放工作成果吧,Andrej 的 PPT 給出了下面的數(shù)字:
6000 個人工挑選的挑戰(zhàn)性片段、70 類不同場景、10000 個模擬場景、相當于 10 年實際時長的 QA 駕駛(quality assurance質量保證),以及影子模式下相當于 1000 年的駕駛時長。
目前純視覺版本已經(jīng)積累了約 1500 萬英里的數(shù)據(jù),其中 170 萬英里在 Autopilot 啟動情況下收集,目前還沒有純視覺版本的事故——Andrej表示「我們認為事故總是會有的,目前雷達融合版本 Autopilot 的事故率大概是 500 萬英里一次」。
真夠凡爾賽的。
5. 最后是「處理場景的能力」,也就是「算力」。
文章寫到這里,純視覺 FSD 的第一性原理方法論,來到了最后一關。特斯拉可以獲得視覺數(shù)據(jù),可以訓練深度網(wǎng)絡,唯一欠缺的,就是一顆大腦。
這塊板子是特斯拉 Autopilot 硬件 3.0,兩塊顯眼的芯片能提供 144TOPS 的 INT8 算力,這已經(jīng)是量產(chǎn)王者。明年英偉達的 Orin 即將上車,單顆芯片算力可以達到 254TOPS,看上去也非常不錯。
然而它們?nèi)匀缓茈y與人腦媲美——說「很難」已經(jīng)是在夸獎它們了。
于是特斯拉「取巧」了:人腦不能外借,算力卻可以來自別處。
下面這張 PPT,介紹了特斯拉訓練純視覺深度學習網(wǎng)絡,而打造的數(shù)據(jù)中心。雖然硬件 3.0 算力和人類有差距,但借助數(shù)據(jù)網(wǎng)絡,特斯拉可以以超級計算機的形式,挑戰(zhàn)人腦。
數(shù)據(jù)中心的大腦,是來自英偉達的最新一代 A100 加速計算卡——的頂配版:A100 80GB Version。
整個數(shù)據(jù)中心里面一共有 720 組計算卡,每組包含 8 張 A100,合計5760 張,Andrej 的 PPT 顯示,F(xiàn)P16 精度下,這臺超算的算力高達 1.8EFLOPS。
Andrej 表示這大概是世界上第五強的超級計算機——之所以達到 1.8EFLOPS 的算力依然沒有問鼎全球超算,是因為特斯拉宣傳用的算力標準不一樣。
目前超級計算機的算力都是按照 FP64 雙精度計算,而特斯拉的 1.8EFLOPS 用的是 FP16 精度。
按照 FP64 精度計算,特斯拉用的 5760 塊 A100,并行算力達到了 55872TFLOPS。
這個數(shù)字與目前排第 5 的 PERLMUTTER還有差距—— 63460TFLOPS,但我想沒有人會挑剔 Andrej 的小小失誤,因為這臺計算機已經(jīng)足夠驚艷。
無超算,不車企?
文章的主體已經(jīng)寫得差不多了,下面是有感而發(fā)環(huán)節(jié)。
為什么特斯拉打造了一臺超算?
因為當下,自動駕駛和人類駕駛的最大差距,已經(jīng)不是獲得視野的能力,卻恰是處理視野的能力。
CVPR 演講的最后,Andrej 劇透了一下真正的 Dojo,是的,上文大家看到的這臺由車企打造的超級計算機,還不是 DOJO 本尊,而只是特斯拉純視覺星辰大海的起點。
Andrej 表示:「我們正在推進 DOJO 計劃,會將(深度學習計算)帶到另一個階段,但我還沒準備好透露更多細節(jié)。」
「如果關于這個應用(純視覺自動駕駛)的高性能計算,以及這個瘋狂的神經(jīng)網(wǎng)絡讓你感興趣,請聯(lián)系超級計算團隊,如果你可以為特斯拉提供幫助的話,我們會非常感激?!?/span>
在特吹群體里,DOJO 是一個神圣的詞匯。
每當特斯拉 VS 其他車企的論戰(zhàn)掀起帷幕,DOJO 總能成為制勝一擊,它甚至是特斯拉鮮為人知的「護城河」——因為它是特斯拉的 1,而其他車企都是 0。
DOJO,從立項之日起,也許就是特斯拉補全純視覺 FSD 的最后拼圖。它還是世界上第一臺「汽車公司」打造的「超級計算機」——兩個本該風馬牛不相及的詞語,偏生在 2021 年碰撞出了火花。
如果上面這臺算力巨獸還只是特斯拉「小試牛刀」,那么真正的 DOJO 到底會有多驚艷?
更重要的是,再過幾年,有沒有屬于自己的超算,會不會成為衡量一家車企自動駕駛能力的重要標志?
「第一性原理」
標題是「純視覺 FSD 背后的哲學」,那文章的最后,我們就來聊聊哲學。
「第一性原理」,這是眾所周知的,馬斯克的思考準則。
2013 年 12 月 4 日,馬斯克接受 innomind 采 訪時表示:「我習慣于從物理學的框架上獲得結論。物理教會你用第一性原理溯源,而不是用類比。」
自從特斯拉和 SpaceX 成為各自領域里面的旗幟,馬斯克堅持的「第一性原理」被越來越多的人奉為圭臬。
早在約 2400 年前,洪荒時期理工男亞里士多德,已經(jīng)表達過類似的觀點:「在每一系統(tǒng)的探索中,存在第一原理,是一個最基本的命題或假設,不能被省略或刪除,也不能被違反。」
找到事物唯一的原命題,并解決它,這就是第一性原理的通俗解釋,也是數(shù)千年來理工男們改變世界的一種「類信仰」般存在。
縱觀特斯拉 18 年發(fā)展歷程,「第一性原理」貫穿其內(nèi)。
「加速世界向可持續(xù)能源發(fā)展」,這是馬斯克加入特斯拉之后,為其尋找的「原命題」。
要實現(xiàn)這樣的目標,特斯拉需要證明可持續(xù)能源是「值得發(fā)展」的,于是有了兼顧性能和環(huán)保的,堪稱汽車「悖論」的 Roadsteds/a>,以及之后的 Model SEXY,等等。
自動駕駛,以及堪稱「瘋狂」的車艙智能化,則是在電動汽車行業(yè)探索多年之后,特斯拉順理成章的發(fā)展方向。
智能依然是解決特斯拉原命題的方案,因為全自動駕駛、高級智能座艙、FOTA...這些只有整車可控的純電汽車,可以實現(xiàn)。而全自動智能出行,是解放人類生產(chǎn)力的必然選擇。
其實所有人都不知道純視覺 Autopilot 究竟表現(xiàn)如何,因為它還沒經(jīng)歷過千萬上億級公里數(shù)、不同國家路況的認證。
但我們很清楚地感知到,特斯拉早已 All in 純視覺。
無論是去掉毫米波雷達,還是斥巨資打造專有的超級計算機——1 組 4 個 A100 加速卡組成的 DGX 機柜就要賣 14.9 萬美元,約合人民幣 96 萬——而特斯拉目前已經(jīng)用了 5760 個。
第一性原理似乎有著神奇的魔力,可以讓一群人步調一致、信念統(tǒng)一地鉆研、工作,即使其他 99% 的人都在否定,或者至少不看好他們。
我們無需懷疑特斯拉的認真,只需要檢驗特斯拉的成果。
(完)
來源:第一電動網(wǎng)
作者:電動星球News蟹老板
本文地址:http://www.medic-health.cn/kol/150264
文中圖片源自互聯(lián)網(wǎng),如有侵權請聯(lián)系admin#d1ev.com(#替換成@)刪除。