国产成人av一区二区三区在线,国产欧美性成人精品午夜,а√最新版在线天堂,欧洲成人一区二区三区,亚洲国产精品成人久久蜜臀

  1. 首頁
  2. 大牛說
  3. VLA:有人喊“最強(qiáng)解法”,有人說“跑不動(dòng)”

VLA:有人喊“最強(qiáng)解法”,有人說“跑不動(dòng)”

L3 拐點(diǎn)將至,智能駕駛走向 VLA 分水嶺。

原本統(tǒng)一的「智駕第一陣營」分化出兩條道:

  • 理想、小鵬、元戎是一隊(duì),高舉 VLA 大旗,把 VLA 拼命推向前臺;

  • 華為、Momenta、博世、卓馭等玩家卻站在對立面,給 VLA 毫不留情的潑冷水。

有人將 VLA 視為指路燈的同時(shí),有人也在質(zhì)疑 VLA 能否「發(fā)光」。

從以下三個(gè)問題,我們試圖把關(guān)于 VLA 的爭論點(diǎn)還原清晰:

  • VLA 能為智駕解決什么問題?

  • VLA 落地還面臨什么挑戰(zhàn)?

  • VLA 是否是智駕終局的最優(yōu)解?

智能駕駛早已過了「抄作業(yè)」的時(shí)代。沒有所謂的標(biāo)準(zhǔn)答案,大家都是在摸著石頭過河。

智駕當(dāng)下比拼的,已經(jīng)不是單純的技術(shù)路徑分野,而是技術(shù)路徑選擇背后,一場對于資源分配的策略和定力,比的是技術(shù)價(jià)值觀。

就像理想和元戎堅(jiān)信,VLA 盡管進(jìn)展慢,但上限一定會比端到端更高。

大家都在押注長期主義,但誰的長期主義會先顯驗(yàn),還要時(shí)間給出答案。

01、僅靠端到端,智駕進(jìn)度條只能到 90%

端到端固然是條捷徑,它改寫了底層邏輯,從傳統(tǒng)規(guī)則驅(qū)動(dòng)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)。

但當(dāng)幾乎所有玩家都上了端到端這艘大船后,才發(fā)現(xiàn),大船還不一定靠得了岸。

端到端兩大缺陷橫亙眼前:

一是車為什么這樣動(dòng),說不清楚。

傳統(tǒng)端到端是一個(gè)黑箱,傳感器信號如何轉(zhuǎn)化為駕駛動(dòng)作難以追溯,無法給出清晰的決策邏輯。例如車輛突然急剎,原因可能是探測到行人,也可能是把陰影誤判為障礙物,但系統(tǒng)并不會告訴你「為什么」。

二是沒見過的場景,就不會了。

端到端完全依賴數(shù)據(jù)驅(qū)動(dòng),沒見過的場景往往就不會處理。尤其在動(dòng)態(tài)突發(fā)情況下,如行人突然橫穿馬路,系統(tǒng)只能依賴過往類似案例被動(dòng)應(yīng)對,反應(yīng)滯后。此外,模型只能識別像素級特征(如紅燈形狀),卻無法理解語義級規(guī)則,比如紅燈等于禁止通行。

端到端可以解決智駕 90% 的難題,但剩下的 10%,卻怎么也跨不過去。

智駕安全顯然不能停留在 90% 的基準(zhǔn)線,要向前推進(jìn),業(yè)內(nèi)普遍的共識是用規(guī)則兜底,在端到端網(wǎng)絡(luò)之外寫入規(guī)則代碼,教會系統(tǒng)基本的交通法則,保證合理行駛。

但兜底更像是最后一道防線,面對錯(cuò)綜復(fù)雜的極端情況,需要更加「治本」的方式。

于是,VLA(視覺-語言-動(dòng)作大模型)躍入技術(shù)前臺。

這項(xiàng)技術(shù)最早由谷歌旗下的 DeepMind 提出,其標(biāo)志性成果為機(jī)器人領(lǐng)域的 RT-2 模型,通過整合視覺感知、語言推理和動(dòng)作控制,首次實(shí)現(xiàn)了從圖像觀察和文本指令到物理動(dòng)作的端到端控制。

理想、元戎啟行將其引入智駕領(lǐng)域,目的也是借 VLA 能力突破端到端的瓶頸。

VLA 的關(guān)鍵點(diǎn)在于,在「VA(視覺-動(dòng)作)模式」中間加入了「Language(語言)」這一關(guān)鍵橋梁。

理想智駕負(fù)責(zé)人郎咸朋強(qiáng)調(diào),「L」指代語言學(xué)習(xí)能力,它并不是簡單的用語言做顯示的文字推理,而是用語言提供的數(shù)據(jù)學(xué)習(xí)做隱式的邏輯推理。

這就好比人與動(dòng)物的區(qū)別,人的視覺能力、行動(dòng)速度都不如動(dòng)物,但憑借強(qiáng)大的認(rèn)知和理解能力,能夠比動(dòng)物更高一等。

相當(dāng)于,VLA 的核心任務(wù),就是讓系統(tǒng)具備長「思維鏈」,這落實(shí)到性能體驗(yàn)上,會帶來三方面提升。

其一,更全維度的「路牌」理解。

這里的「路牌」不再局限于平面的交通標(biāo)識,而是擴(kuò)展到紅綠燈變化、交警手勢、施工錐桶等動(dòng)態(tài)三維信息。比如,系統(tǒng)能夠識別潮汐車道標(biāo)志,在擁堵路段也能順暢變道。

其二,更自然的語音交互。

用戶可以直接通過語音控制跟車距離、車速等,還能告知系統(tǒng)駕駛偏好。理想的「司機(jī) Agent」甚至能記憶用戶習(xí)慣,用戶曾提示某路段應(yīng)以特定車速行駛,系統(tǒng)在下次經(jīng)過時(shí)會主動(dòng)沿用,不用再重復(fù)指令,以此實(shí)現(xiàn)人車共駕。

其三,更前瞻的風(fēng)險(xiǎn)預(yù)判。

系統(tǒng)不再是遇到風(fēng)險(xiǎn)才被動(dòng)響應(yīng),而是能通過視覺識別、語言推理提前感知潛在危險(xiǎn)。比如看到前方路面有積水痕跡,會預(yù)判「可能存在涉水風(fēng)險(xiǎn)」并主動(dòng)減速等。

VLA 玩家們都相信,VLA 是端到端的 2.0 形態(tài),一個(gè)形象比喻是:

  • 端到端像猴子開車,會模仿人類動(dòng)作,卻缺乏對物理世界的理解;

  • VLA 則像司機(jī),甚至教練開車,既能理解規(guī)則,又能推理和靈活決策,從「學(xué)行為」進(jìn)化為「懂意圖」。

只不過,現(xiàn)在的 VLA 優(yōu)勢還并不明顯。

郎咸朋強(qiáng)調(diào),當(dāng)前智駕任務(wù)還比較簡單,在 L3、L4 階段,智駕作為 Agent 要獨(dú)立完成復(fù)雜任務(wù)時(shí),VLA 才會獲得碾壓性勝利。

但也正因如此,在「VLA 是否為行業(yè)終局答案」這一問題上,始終得打個(gè)問號。

02、VLA 可能還不在神壇上

當(dāng)理想、元戎啟行高舉 VLA 大旗時(shí),迎接它的并不是像「端到端」一般的技術(shù)光環(huán),而是多重質(zhì)疑。

這場由 VLA 引發(fā)的輿論漩渦,一共有三層。

第一層是真假 VLA 之辯。關(guān)鍵角色是小鵬,有意思的是,小鵬早期并未高調(diào)舉起 VLA 大旗,它這張 VLA 玩家的身份牌還是元戎啟行翻開的,此前元戎啟行創(chuàng)始人周光表示,任何投入大算力、大參數(shù)模型研發(fā)的玩家,都大概率是 VLA 路線的潛在參與者。這就指向了小鵬。

直到小鵬 G7 Ultra 發(fā)布會上,小鵬才明確表態(tài),基于 3 顆圖靈芯片與雙激光雷達(dá),小鵬 G7 Ultra 支持全場景 VLA,包括復(fù)雜路口決策、無車位泊車等功能,并在人機(jī)共駕模式下可以實(shí)現(xiàn)協(xié)同控制。

然而,盡管隸屬于 VLA 陣營,但小鵬把刀口對準(zhǔn)的卻是「隊(duì)友」。

何小鵬聲稱,「只有我們做成了真正的 VLA,部分公司做成的是一個(gè)嫁接的 VLA?!?/p>

他對此解釋為,VLA 的落地需要數(shù)十億資金投入。相比端到端,VLA 要處理的是更高維度、非結(jié)構(gòu)化的多模態(tài)信息,再將其轉(zhuǎn)化為駕駛動(dòng)作決策,復(fù)雜度指數(shù)級提升。用幾個(gè)億只能堆出一個(gè)「微型 VLA」,本質(zhì)上仍停留在端到端邏輯。

一句話,VLA 玩家都必須是資源稟賦型選手,需要技術(shù)先進(jìn),更需要大量資金。

某種程度上,小鵬用「純血 VLA」的角度,揭開了 VLA 水面之下的暗角。

這就來到第二層,VLA 的落地挑戰(zhàn)。博世智能駕控中國區(qū)總裁吳永橋解釋得很清楚,即 VLA 落地需面臨三大障礙:

  • 多模態(tài)大模型的特征對齊存在挑戰(zhàn);

  • 多模態(tài)的數(shù)據(jù)獲取和訓(xùn)練十分困難;

  • 當(dāng)前所有的智駕芯片實(shí)際都不支持 VLA 模型。

尤其是第三點(diǎn),吳永橋舉例,VLA 理想化部署需達(dá)到 7B-10B 參數(shù)規(guī)模,但現(xiàn)有智駕芯片帶寬有限。即便是一個(gè) 3B 模型,部署在英偉達(dá) Thor 芯片上,頻率也難以穩(wěn)定維持在 10Hz。

10Hz 意味著系統(tǒng)每秒僅能完成 10 次感知與決策,放在駕駛場景中,就像一個(gè)「時(shí)??◣臋C(jī)器人」。即使決策邏輯正確,但因?yàn)閹挷蛔?、反?yīng)滯后,行車過程中仍會頻繁出現(xiàn)延遲和卡頓,無法帶來流暢、可靠的駕駛體驗(yàn)。

吳永橋并不否認(rèn) VLA 是個(gè)好方向,包括卓馭副總裁馬陸也認(rèn)同 VLA 可以走通,但難度很大。

馬陸強(qiáng)調(diào),VLA 中的「L」并不是簡單的語言大模型,不可能直接套用類似「通義千問」這樣餓現(xiàn)成模型,而是要從頭開始,練成一個(gè)理解智能駕駛的司機(jī)大模型,它需要完整理解物理世界的真實(shí)尺度,這需要資源,也需要時(shí)間。

種種論斷都構(gòu)成一個(gè)基本事實(shí):實(shí)現(xiàn) VLA 并不容易。

而在此基礎(chǔ)上,Momenta 與華為對這一技術(shù)路徑的審視已經(jīng)來到第三層,VLA 對于智駕的真?zhèn)涡浴?/p>

關(guān)于智駕是否有必要走 VLA 這條路,雙方都予以否定。

在 Momenta 創(chuàng)始人曹旭東眼里,VLA 只能算是錦上添花,還不足以扛起 L4、L5 的大任。最直接一點(diǎn),VLA 對于安全性的提升或許能達(dá)到 5-10 倍,但 L4 規(guī)?;涞匦枰氖?100-1000 倍安全提升,顯然杯水車薪。

華為則堅(jiān)定認(rèn)為,VLA 這一從機(jī)器人領(lǐng)域引入的技術(shù)路徑,并不是為智駕而生。并且,由于 VLA 在空間感知與推理能力上存在天然短板,語言模型與動(dòng)作決策本就難以對齊。

簡單而言,VLA 更像是一個(gè)偽命題。

相較之下,華為已經(jīng)找到了新解法,在華為乾崑 ADS 4 上,打造出 WEWA 世界模型架構(gòu),通過端云結(jié)合的系統(tǒng)訓(xùn)練,行為模型可以直接控制車輛,時(shí)延更低。

華為認(rèn)為,世界模型才是通往智駕終局的正確路徑。

某種程度上,從小鵬、博世、卓馭再到 Momenta、華為,關(guān)于 VLA 的爭論,其實(shí)反應(yīng)出各家差異化的技術(shù)邏輯,大多時(shí)候,技術(shù)路徑無關(guān)對錯(cuò),關(guān)乎選擇和資源博弈。

03、把雞蛋放進(jìn)最近的籃子里

過去一年,端到端熱潮無疑讓智能駕駛的步子邁得更大,尤其是「車位到車位」的功能落地,不僅重新劃分了「第一梯隊(duì)」入場標(biāo)準(zhǔn),也讓用戶清晰感知到智駕進(jìn)步帶來的先進(jìn)體驗(yàn)。

然而,「車位到車位」之后,整個(gè)智駕行業(yè)進(jìn)入了「功能停滯」的瓶頸期。

一方面,監(jiān)管給激進(jìn)的智駕宣傳按下暫停鍵,四月份開始,工信部、市場監(jiān)管總局出臺《關(guān)于進(jìn)一步加強(qiáng)智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入、召回及軟件在線升級管理的通知》等系列新規(guī),對「自動(dòng)駕駛」、「高階智駕」等用語予以禁止,把智駕安全提到絕對優(yōu)先層面,并規(guī)定車企每一次 OTA 更新,都需經(jīng)過備案才能上線。

另一方面,L3 級智能駕駛政策還未放開,相當(dāng)于,各車企、供應(yīng)商還是停留在智駕體驗(yàn)優(yōu)化層面,給 L2 后綴繼續(xù)添加「+」,用戶能感知到的「利己效益」并不明顯。

這也是 Momenta、卓馭等玩家目前并不看好 VLA 的主要原因,VLA 的確能在用戶體驗(yàn)上「整花活」,比如語音控車、人機(jī)共駕,但大概率不能給智駕帶來成倍級的體驗(yàn)革命。

站在 L2+的起點(diǎn)上,智駕行業(yè)每向前走一步,都會面臨更棘手的難題。越是到攻堅(jiān)期,選擇哪條路就越發(fā)重要,畢竟,任何一條技術(shù)路線背后,都是對算力、數(shù)據(jù)的巨額消耗。

這也意味著,大家更愿意把雞蛋放進(jìn)最近的籃子里。

一是押注確定性,幾乎所有玩家都堅(jiān)定選擇了強(qiáng)化學(xué)習(xí)、世界模型的技術(shù)路徑,VLA 本質(zhì)上與這兩者也并不沖突,在理想關(guān)于 VLA 的規(guī)劃版圖中,第四階段就是基于世界模型進(jìn)行強(qiáng)化訓(xùn)練,將系統(tǒng)打造成職業(yè)司機(jī)。

二是降低不確定性。智能駕駛的下半場,將是一場拼資金、拼技術(shù)、拼成本的拉鋸戰(zhàn)。因此,從有圖,到無圖,再到端到端路線,大家都是穩(wěn)扎穩(wěn)打走向下一階段,基于各自既定的技術(shù)價(jià)值觀,或者說,復(fù)用已有的數(shù)據(jù)和算法積累,確定下一步落子位置。

目前位列智駕第一梯隊(duì)的玩家們,可以看出打法各異:

理想、元戎啟行、小鵬選擇押注 VLA。強(qiáng)調(diào)高投入、算力密集型路線,追求 VLA 大模型的上限。

三家也的確通過資源配置為 VLA 鋪路,像小鵬通過自研圖靈芯片,算力超過 750TOPS,并打造出 72B 參數(shù)的基座大模型,為 VLA 大模型提供充裕算力支持;元戎啟行早期就研究 GPT 大語言模型,探索 VLA 方向,并聚焦英偉達(dá) Thor 芯片的上車應(yīng)用;而理想在端到端時(shí)期就乘上了「端到端+VLM」的列車,朝向 VLA 的方向。

另外,理想、小鵬都有自研人形機(jī)器人計(jì)劃,而 VLA 在具身智能與智能駕駛的通用性,也指向了二者對于 VLA 的長遠(yuǎn)戰(zhàn)略布局。

而未選擇 VLA 路線的玩家們也是基于自身技術(shù)價(jià)值觀,錨定最優(yōu)解。

華為、地平線強(qiáng)調(diào)結(jié)構(gòu)性解法,走體系化路線。華為憑借云端算力和 AI 大模型基礎(chǔ),構(gòu)建出 WEWA 世界模型,主打「無弱點(diǎn)」的原生架構(gòu);地平線基于自研高性能計(jì)算平臺征程 6P,強(qiáng)調(diào)軟硬一體優(yōu)勢,打造出「中國版 FSD」。

  • 博世主打工程化落地能力,依托全產(chǎn)業(yè)鏈協(xié)同與車規(guī)級品控經(jīng)驗(yàn),繼續(xù)強(qiáng)化一段式端到端,強(qiáng)調(diào)快速量產(chǎn)能力;

  • 卓馭則是「性價(jià)比」標(biāo)簽,聚焦主流車型需求,通過精簡傳感器配置與算法輕量化優(yōu)化,打造高適配性的入門級方案。

  • Momenta 繼續(xù)強(qiáng)調(diào)數(shù)據(jù)飛輪,強(qiáng)調(diào)商業(yè)可擴(kuò)展性、成本可控。在「飛輪模式」驅(qū)動(dòng)下,Momenta 將通過強(qiáng)化學(xué)習(xí)打造出新一代 R6 飛輪大模型。

在技術(shù)演進(jìn)的道路上,每一項(xiàng)決策,都是取自于邊際成本與邊際效益的最優(yōu)計(jì)算結(jié)果。

話說回來,智駕行業(yè)上一次這么熱鬧,還是為「純視覺還是激光雷達(dá)路線」?fàn)幷摬恍?,而爭論歸于平靜后,大家得到得共識是,純視覺也好,激光雷達(dá)也罷,只要能保證絲滑、可靠的智能駕駛,都是可行路線。

VLA 之爭同理,具體用哪種技術(shù)路徑,本就不是行業(yè)該糾結(jié)的落腳點(diǎn)。用戶在真實(shí)道路上能否感受到更平順的行駛質(zhì)感、更可靠的安全保障,遠(yuǎn)比選擇哪種大模型更重要。

今天,能把智駕體驗(yàn)做到極致的玩家,才有機(jī)會在 L3 起跑時(shí)真正領(lǐng)先。

來源:第一電動(dòng)網(wǎng)

作者:汽車之心

本文地址:http://www.medic-health.cn/kol/274646

返回第一電動(dòng)網(wǎng)首頁 >

收藏
65
  • 分享到:
發(fā)表評論
新聞推薦
大牛作者

汽車之心

微信公號Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識服務(wù)平臺,定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號autobitxyz給我們提意見。

  • 1026
    文章
  • 50941
    獲贊
閱讀更多文章
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->