最近一段時間,自動駕駛數(shù)據(jù)閉環(huán)工具鏈領(lǐng)域有些熱鬧。
廣州車展期間,出行平臺如祺出行推出了由數(shù)據(jù)標注平臺ONTIME Data Encoder、高精地圖工具鏈ONTIME MapNet、智駕仿真平臺ONTIME NexSim三大板塊構(gòu)成的自動駕駛解決方案。
幾乎同時,車聯(lián)網(wǎng)平臺優(yōu)咔科技也推出了自研的自動駕駛數(shù)據(jù)閉環(huán)工具鏈產(chǎn)品,希望通過該工具鏈平臺,讓車企能更高效地開發(fā)和部署自己的算法。
而在剛剛過去的CES上,星塵數(shù)據(jù)帶來了一站式AI全生命周期數(shù)據(jù)管理平臺MorningStar,旨在支持AI算法的高效迭代,實現(xiàn)機器學習,當然也包括自動駕駛閉環(huán)全鏈路打通,助力打造專注高效迭代的算法生產(chǎn)環(huán)境……
在這些變化中,有如祺出行、優(yōu)咔科技這樣的新玩家,也有星塵數(shù)據(jù)這樣一直深耕數(shù)據(jù)服務(wù)領(lǐng)域的資深玩家,從大家的積極態(tài)度中不難推測,在高效的數(shù)據(jù)閉環(huán)這件事上,行業(yè)依然存在痛點。
1
—
從模型到數(shù)據(jù)
這些年,自動駕駛經(jīng)歷了不同的發(fā)展階段,從CNN到 Transformer、大模型,技術(shù)在不斷迭代發(fā)展,過程中,核心的影響因素也在變化。
前期,模型架構(gòu)本身是關(guān)注的重點,隨著大模型階段的到來,大家開始意識到處理大規(guī)模數(shù)據(jù)和運用的能力開始成為關(guān)鍵。
當然,這不是什么發(fā)現(xiàn)新大陸似的重要發(fā)現(xiàn),2021年,著名的人工智能科學家吳恩達就提出,當下的人工智能領(lǐng)域,一個重要的趨勢是從以模型為中心的人工智能(Model-centric AI)向以數(shù)據(jù)為中心的人工智能(Data-centric AI)轉(zhuǎn)變。同時,他提出了著名二八定律:80%的數(shù)據(jù)+20%的模型=更好的AI。
具體到自動駕駛領(lǐng)域,2021年特斯拉在AI Day 上提到Transformer是其自動駕駛系統(tǒng)算法中最核心的模塊之一,此后國內(nèi)眾多車企紛紛跟進,但真正開始采用Transformer的方案,已經(jīng)是2023年之后的事。
因此,雖然在“軟件定義汽車”的共識下,數(shù)據(jù)、算法和算力早就被稱為自動駕駛開發(fā)的三駕馬車,但行業(yè)對于高質(zhì)量、高價值數(shù)據(jù)的追求和應(yīng)用,卻剛開始沒多久。
在這個過程中,行業(yè)開始發(fā)生一些變化。
曾經(jīng)許多主機廠喜歡拿自動駕駛累計行駛里程作為自動駕駛能力以及經(jīng)驗的體現(xiàn),而現(xiàn)在這些已經(jīng)不再具備說服力。
“首先采集的數(shù)據(jù)不代表都有使用價值,再加上各家對于數(shù)據(jù)處理能力的差異開始逐漸拉開,月銷過萬的未必能比月銷幾千的車型功能迭代得好。此外,還有成本問題?!?路特斯智能駕駛測試開發(fā)專家L解釋道。
“一張圖片的標注成本大概是1元,如果是BEV則是十幾元,假如一輛車上有11個攝像頭,每個攝像頭一秒鐘能采10張數(shù)據(jù),那么一輛車一秒鐘就有110張圖片。如果車的保有量是10萬輛,一天產(chǎn)生的數(shù)據(jù),光標注的成本就不可想象。所以車的數(shù)量多不能與車企自動駕駛會更強畫等號。”
此外,隨著數(shù)據(jù)量的不斷增長和模型復(fù)雜度的提升,“數(shù)據(jù)債”——正在成為算法工程師們面臨的隱秘又難解的挑戰(zhàn)。
2
—
解決數(shù)據(jù)債
數(shù)據(jù)債一詞源于技術(shù)債,是一種新型的技術(shù)債務(wù),指的是由于對數(shù)據(jù)資產(chǎn)的維護不足導(dǎo)致的數(shù)據(jù)質(zhì)量問題。
對于機器學習,數(shù)據(jù)債就是指在全生命周期中的各個環(huán)節(jié),由于各個角色跨組織協(xié)同產(chǎn)生的數(shù)據(jù)質(zhì)量問題。
△圖片來自星塵數(shù)據(jù)
根據(jù)星塵數(shù)據(jù)產(chǎn)品總監(jiān)龔書介紹,數(shù)據(jù)債的來源主要有幾點:
1、算法工程師與數(shù)據(jù)標注PM之間的認知“鴻溝”
算法工程師重視數(shù)據(jù)的價值和質(zhì)量,他們會準確評估數(shù)據(jù)的價值,定義數(shù)據(jù)標注的邊界,并對數(shù)據(jù)進行詳細記錄和分析。但是,數(shù)據(jù)標注工作通常不是算法工程師負責,而是數(shù)據(jù)運營或數(shù)據(jù)項目經(jīng)理作為“中間人”,指導(dǎo)自身標注團隊或去找供應(yīng)商來完成。
這種情況下,算法工程師和數(shù)據(jù)標注項目經(jīng)理之間的認知差異,便可能導(dǎo)致數(shù)據(jù)標注需求的不明確,標規(guī)則的不統(tǒng)一,從而造成重復(fù)標注、多次返修、甚至無效標注等“數(shù)據(jù)債”。
2、業(yè)務(wù)需求變化帶來的“數(shù)據(jù)債”
當面對新增需求時,算法工程師往往會花大量時間思考業(yè)務(wù)、數(shù)據(jù)標注和數(shù)據(jù)分析,以提高模型的泛化性。但即使算法訓練效果很好,一旦面對真實而復(fù)雜多變的環(huán)境,準確率也可能顯著下降。
所以,算法工程師需要耗費大量的時間和精力仔細研究數(shù)據(jù),找出異常之處,了解數(shù)據(jù)規(guī)律,反復(fù)編排流程,比較版本差異,以提高模型的泛化性,達到最佳效果。研究、分析、使用、迭代數(shù)據(jù)的過程中,便會產(chǎn)生大量的“數(shù)據(jù)債”。
3、文檔不統(tǒng)一和跨組織執(zhí)行之間的“鴻溝”
很多時候,為了節(jié)省標注時間和成本,降低標注難度,算法工程師需要對標注數(shù)據(jù)進行預(yù)處理。然而,為了盡快完成產(chǎn)品開發(fā),算法方面往往會直接準備好數(shù)據(jù)交給標注人員,甚至放棄對部分數(shù)據(jù)邊界的分析,數(shù)據(jù)標注規(guī)則和文檔往往不夠清晰。
在實際操作過程中,數(shù)據(jù)標注并非一蹴而就的事情。在一些非標準化的數(shù)據(jù)標注工作中,項目經(jīng)理并沒有可供參考的操作手冊,需要根據(jù)實際情況反推標準的適用性,并從問題中尋找解決方案,以形成更穩(wěn)定、更具操作性的方法。
同時,數(shù)據(jù)標注目前缺乏統(tǒng)一的行業(yè)標準。文檔不統(tǒng)一和規(guī)則不清晰導(dǎo)致了數(shù)據(jù)標注方面缺乏清晰的指導(dǎo)。
4、數(shù)據(jù)資產(chǎn)與數(shù)據(jù)管理之間的“鴻溝”
目前市場上90%以上的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),但只有不到10%得到有效利用。如果企業(yè)數(shù)據(jù)未經(jīng)有效管理和利用,將成為資源的浪費。此外,未明確數(shù)據(jù)資產(chǎn)價值也會導(dǎo)致高昂的存儲和管理成本。
5、算法需求與數(shù)據(jù)工具鏈缺失的“鴻溝”
在實際的算法訓練和迭代過程中,算法工程師通常在發(fā)現(xiàn)模型效果不佳或遇到錯誤時才開始嚴格管理數(shù)據(jù),這種應(yīng)急處理的方式看似成本小,實際上卻是一顆定時炸彈。
比如,在自動駕駛算法訓練中,算法工程師需要大量的視覺數(shù)據(jù)來訓練模型,以識別道路、車輛、行人等元素。然而,如果在數(shù)據(jù)采集和標注過程中存在重復(fù)使用同類型數(shù)據(jù)的情況,對數(shù)據(jù)的分布缺乏全面的認知,模型會對特定場景“過擬合”,泛化能力不足。自動駕駛特殊場景數(shù)據(jù)極為稀缺,對難例的發(fā)現(xiàn)和處理提出更高的要求。
此外,自動化、自定義的數(shù)據(jù)檢索和可視化的版本管理對于算法工程師也至關(guān)重要。如果數(shù)據(jù)版本沒有得到妥善管理,會導(dǎo)致在模型效果出現(xiàn)問題時無法準確追溯到數(shù)據(jù)的來源和處理過程,無法還原問題點。因此,如果沒有一套完整“對癥下藥”的數(shù)據(jù)工具鏈,就加大了算法工程師在數(shù)據(jù)處理方面的挑戰(zhàn)。
“通過與大量算法工程師的溝通,我們發(fā)現(xiàn)他們在處理與數(shù)據(jù)相關(guān)的工作時,通常使用的是原始的自建工具、臨時工具,甚至沒有工具可用。這導(dǎo)致他們無法進行與數(shù)據(jù)相關(guān)的高級操作,使得整個工作流程變得不夠高效?!?星塵數(shù)據(jù)產(chǎn)品總監(jiān)龔書告訴「智車星球」。
因此,為了解決數(shù)據(jù)價值無法釋放、數(shù)據(jù)孤島、運營成本增加等數(shù)據(jù)債帶來的問題,行業(yè)對數(shù)據(jù)管理和數(shù)據(jù)價值挖掘的需求越來越迫切,能滿足這些需求的數(shù)據(jù)工具鏈也成為了新的機會。
3
—
不同選擇
雖然不同的軟件開發(fā)流程在細節(jié)上有差異,但大體思路基本一致,從下圖“華為八爪魚”的數(shù)據(jù)閉環(huán)鏈路可以看到,主要分為數(shù)據(jù)采集、感知模型訓練、仿真測試和實車測試四個環(huán)節(jié),每個環(huán)節(jié)中又包括了若干模塊。
這些環(huán)節(jié)中所使用的工具和平臺就是“工具鏈”,工具鏈的效率決定了整個系統(tǒng)開發(fā)的效率。
△“華為八爪魚”數(shù)據(jù)閉環(huán)鏈路
而不同的玩家會結(jié)合自身的優(yōu)勢與需求來選擇不同的切入點。
比如作為出行科技與服務(wù)平臺,如祺出行的優(yōu)勢在于自身掌握的場景與數(shù)據(jù)優(yōu)勢,同時,在Robotaxi的運營中積累了很多數(shù)據(jù),對于場景的理解較為深刻。因此,如祺出行選擇基于標注、地圖、仿真業(yè)務(wù)先切入To B端,同時推動L4技術(shù)的成熟。
而對于星塵數(shù)據(jù),則是將面向 AI 算法的數(shù)據(jù)服務(wù),從算法真值數(shù)據(jù)和人工反饋,擴展到支持企業(yè)AI算法高效迭代的數(shù)據(jù)管理、探索和挖掘服務(wù)。
△星塵數(shù)據(jù)MorningStar數(shù)據(jù)閉環(huán)
而像亮道智能這樣的激光雷達系統(tǒng)供應(yīng)商,同樣能提供數(shù)據(jù)管理平臺以及相關(guān)的工具鏈,但優(yōu)勢毫無疑問是在激光雷達上。近期,亮道在歐洲交付了L3 高階智駕數(shù)據(jù)真值項目,在此量產(chǎn)項目中,亮道重點參與的就是L3 高階智能中的激光雷達感知訓練工作,包括激光雷達感知訓練的數(shù)據(jù)中心建設(shè),大數(shù)據(jù)管理,任務(wù)分發(fā),真值數(shù)據(jù)的自動化生產(chǎn),質(zhì)量評價等。
可以說,對于車企以及自動駕駛公司,根據(jù)自己的需求可選擇的產(chǎn)品數(shù)量在增加,產(chǎn)品質(zhì)量也在提升。而在這些選擇中,還有一個重要的選擇,那就是是否選擇自研。
4
—
自研or不自研
選擇自研,車企可以避免使用不同公司提供的工具鏈做“分段開發(fā)”導(dǎo)致的“數(shù)據(jù)孤島”現(xiàn)象,同時能更好地相應(yīng)內(nèi)部算法團隊的需求以及更好地匹配車企的研發(fā)流程,進一步提升開發(fā)和迭代的效率。
Momenta就是在前期花費了較長時間搭建自己的數(shù)據(jù)驅(qū)動平臺,實現(xiàn)了全流程數(shù)據(jù)驅(qū)動的技術(shù)能力,包括感知、融合、預(yù)測和規(guī)控等算法模塊都可以通過數(shù)據(jù)驅(qū)動的方式高效的迭代與更新。其閉環(huán)自動化(Closed Loop Automation)是一整套讓數(shù)據(jù)流推動數(shù)據(jù)驅(qū)動的算法自動迭代的工具鏈,能自動篩選出價值數(shù)據(jù),驅(qū)動算法的自動迭代,讓自動駕駛飛輪越轉(zhuǎn)越快。
當然,不選擇自研的理由也有不少,首先自然是所花費的成本與自身業(yè)務(wù)的需求是否匹配,二是研發(fā)數(shù)據(jù)閉環(huán)工具鏈需要大量用戶的反饋,主機廠自研的工具可能會受企業(yè)自身經(jīng)驗體系的制約,自研出的工具未必好用,另外,車企掌舵人對于企業(yè)在智駕領(lǐng)域核心競爭力的判斷也很重要。
不過,對于大多數(shù)車企,自研與否并不是非黑即白的選擇,結(jié)合自身優(yōu)勢選擇若干版塊進行自研是大多數(shù)車企的選擇。
“(對于車企)工具鏈是一定要自研的,但不是全棧。我認為企業(yè)需要搭建數(shù)據(jù)管理平臺,因為不同主機廠是按照自己的需求去管理數(shù)據(jù),對數(shù)據(jù)管理的結(jié)構(gòu)有很大差異,所以必須要自己管起來,就像京東倉儲一樣,能快速分門別類歸納整理好,要用的時候馬上就可以拿出來。平臺搭好后,就可以引入軟件合作伙伴,直接 API 調(diào)用就好,比如數(shù)據(jù)標注,就沒有太大必要自己養(yǎng)團隊去做?!绷恋乐悄蹸MO 江南逸告訴「智車星球」?!?/span>
同樣,在路特斯看來,數(shù)據(jù)管理一定要自己做,“我們自己采集的數(shù)據(jù),交給第三方管理,會有數(shù)據(jù)安全方面的擔心。” L解釋道。
“處理明天的問題,用的不是今天的工具,而是明天的工具”,在這樣的認知基礎(chǔ)上,路特斯對于工具鏈的自研程度也相對較深。據(jù)L介紹,其平臺上的部分數(shù)據(jù)鏈工具,已經(jīng)供應(yīng)給其他企業(yè)使用。
△路特斯ROBO Galaxy工具鏈解決流程方案
所以,企業(yè)是否自研以及自研的程度,取決于企業(yè)基因、企業(yè)能力、掌舵人的認知以及是否有足夠的底層驅(qū)動力。若自研能夠切實提高產(chǎn)品開發(fā)效率、降低成本、提升企業(yè)競爭力,那么自研的自驅(qū)力自然會增強。
大家最終的選擇也許不同,但能比較肯定的是,無論是從頂層設(shè)計還是企業(yè)自身的發(fā)展需求來看,數(shù)據(jù)正在成為每個企業(yè)生存發(fā)展不可或缺的生產(chǎn)資料。
這意味著,對于數(shù)據(jù)資產(chǎn)的管理,也會成為企業(yè)長期經(jīng)過時間積累下來的競爭門檻,重要性在不斷提升。
這個曾經(jīng)隱藏在自動駕駛系統(tǒng)“冰山”下的“一角”,或許正在帶來一場新的風暴。
來源:第一電動網(wǎng)
作者:兵長的碎碎念
本文地址:http://www.medic-health.cn/kol/218383
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。