VLA：有人喊“最強(qiáng)解法”，有人說“跑不動(dòng)”

第一電動(dòng)大牛作者汽車之心 2025-09-11 18:24

L3 拐點(diǎn)將至，智能駕駛走向 VLA 分水嶺。

原本統(tǒng)一的「智駕第一陣營」分化出兩條道：

理想、小鵬、元戎是一隊(duì)，高舉 VLA 大旗，把 VLA 拼命推向前臺；
華為、Momenta、博世、卓馭等玩家卻站在對立面，給 VLA 毫不留情的潑冷水。

有人將 VLA 視為指路燈的同時(shí)，有人也在質(zhì)疑 VLA 能否「發(fā)光」。

從以下三個(gè)問題，我們試圖把關(guān)于 VLA 的爭論點(diǎn)還原清晰：

VLA 能為智駕解決什么問題？
VLA 落地還面臨什么挑戰(zhàn)？
VLA 是否是智駕終局的最優(yōu)解？

智能駕駛早已過了「抄作業(yè)」的時(shí)代。沒有所謂的標(biāo)準(zhǔn)答案，大家都是在摸著石頭過河。

智駕當(dāng)下比拼的，已經(jīng)不是單純的技術(shù)路徑分野，而是技術(shù)路徑選擇背后，一場對于資源分配的策略和定力，比的是技術(shù)價(jià)值觀。

就像理想和元戎堅(jiān)信，VLA 盡管進(jìn)展慢，但上限一定會比端到端更高。

大家都在押注長期主義，但誰的長期主義會先顯驗(yàn)，還要時(shí)間給出答案。

01、僅靠端到端，智駕進(jìn)度條只能到 90%

端到端固然是條捷徑，它改寫了底層邏輯，從傳統(tǒng)規(guī)則驅(qū)動(dòng)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)。

但當(dāng)幾乎所有玩家都上了端到端這艘大船后，才發(fā)現(xiàn)，大船還不一定靠得了岸。

端到端兩大缺陷橫亙眼前：

一是車為什么這樣動(dòng)，說不清楚。

傳統(tǒng)端到端是一個(gè)黑箱，傳感器信號如何轉(zhuǎn)化為駕駛動(dòng)作難以追溯，無法給出清晰的決策邏輯。例如車輛突然急剎，原因可能是探測到行人，也可能是把陰影誤判為障礙物，但系統(tǒng)并不會告訴你「為什么」。

二是沒見過的場景，就不會了。

端到端完全依賴數(shù)據(jù)驅(qū)動(dòng)，沒見過的場景往往就不會處理。尤其在動(dòng)態(tài)突發(fā)情況下，如行人突然橫穿馬路，系統(tǒng)只能依賴過往類似案例被動(dòng)應(yīng)對，反應(yīng)滯后。此外，模型只能識別像素級特征（如紅燈形狀），卻無法理解語義級規(guī)則，比如紅燈等于禁止通行。

端到端可以解決智駕 90% 的難題，但剩下的 10%，卻怎么也跨不過去。

智駕安全顯然不能停留在 90% 的基準(zhǔn)線，要向前推進(jìn)，業(yè)內(nèi)普遍的共識是用規(guī)則兜底，在端到端網(wǎng)絡(luò)之外寫入規(guī)則代碼，教會系統(tǒng)基本的交通法則，保證合理行駛。

但兜底更像是最后一道防線，面對錯(cuò)綜復(fù)雜的極端情況，需要更加「治本」的方式。

于是，VLA（視覺-語言-動(dòng)作大模型）躍入技術(shù)前臺。

這項(xiàng)技術(shù)最早由谷歌旗下的 DeepMind 提出，其標(biāo)志性成果為機(jī)器人領(lǐng)域的 RT-2 模型，通過整合視覺感知、語言推理和動(dòng)作控制，首次實(shí)現(xiàn)了從圖像觀察和文本指令到物理動(dòng)作的端到端控制。

理想、元戎啟行將其引入智駕領(lǐng)域，目的也是借 VLA 能力突破端到端的瓶頸。

VLA 的關(guān)鍵點(diǎn)在于，在「VA（視覺-動(dòng)作）模式」中間加入了「Language（語言）」這一關(guān)鍵橋梁。

理想智駕負(fù)責(zé)人郎咸朋強(qiáng)調(diào)，「L」指代語言學(xué)習(xí)能力，它并不是簡單的用語言做顯示的文字推理，而是用語言提供的數(shù)據(jù)學(xué)習(xí)做隱式的邏輯推理。

這就好比人與動(dòng)物的區(qū)別，人的視覺能力、行動(dòng)速度都不如動(dòng)物，但憑借強(qiáng)大的認(rèn)知和理解能力，能夠比動(dòng)物更高一等。

相當(dāng)于，VLA 的核心任務(wù)，就是讓系統(tǒng)具備長「思維鏈」，這落實(shí)到性能體驗(yàn)上，會帶來三方面提升。

其一，更全維度的「路牌」理解。

這里的「路牌」不再局限于平面的交通標(biāo)識，而是擴(kuò)展到紅綠燈變化、交警手勢、施工錐桶等動(dòng)態(tài)三維信息。比如，系統(tǒng)能夠識別潮汐車道標(biāo)志，在擁堵路段也能順暢變道。

其二，更自然的語音交互。

用戶可以直接通過語音控制跟車距離、車速等，還能告知系統(tǒng)駕駛偏好。理想的「司機(jī) Agent」甚至能記憶用戶習(xí)慣，用戶曾提示某路段應(yīng)以特定車速行駛，系統(tǒng)在下次經(jīng)過時(shí)會主動(dòng)沿用，不用再重復(fù)指令，以此實(shí)現(xiàn)人車共駕。

其三，更前瞻的風(fēng)險(xiǎn)預(yù)判。

系統(tǒng)不再是遇到風(fēng)險(xiǎn)才被動(dòng)響應(yīng)，而是能通過視覺識別、語言推理提前感知潛在危險(xiǎn)。比如看到前方路面有積水痕跡，會預(yù)判「可能存在涉水風(fēng)險(xiǎn)」并主動(dòng)減速等。

VLA 玩家們都相信，VLA 是端到端的 2.0 形態(tài)，一個(gè)形象比喻是：

端到端像猴子開車，會模仿人類動(dòng)作，卻缺乏對物理世界的理解；
VLA 則像司機(jī)，甚至教練開車，既能理解規(guī)則，又能推理和靈活決策，從「學(xué)行為」進(jìn)化為「懂意圖」。

只不過，現(xiàn)在的 VLA 優(yōu)勢還并不明顯。

郎咸朋強(qiáng)調(diào)，當(dāng)前智駕任務(wù)還比較簡單，在 L3、L4 階段，智駕作為 Agent 要獨(dú)立完成復(fù)雜任務(wù)時(shí)，VLA 才會獲得碾壓性勝利。

但也正因如此，在「VLA 是否為行業(yè)終局答案」這一問題上，始終得打個(gè)問號。

02、VLA 可能還不在神壇上

當(dāng)理想、元戎啟行高舉 VLA 大旗時(shí)，迎接它的并不是像「端到端」一般的技術(shù)光環(huán)，而是多重質(zhì)疑。

這場由 VLA 引發(fā)的輿論漩渦，一共有三層。

第一層是真假 VLA 之辯。關(guān)鍵角色是小鵬，有意思的是，小鵬早期并未高調(diào)舉起 VLA 大旗，它這張 VLA 玩家的身份牌還是元戎啟行翻開的，此前元戎啟行創(chuàng)始人周光表示，任何投入大算力、大參數(shù)模型研發(fā)的玩家，都大概率是 VLA 路線的潛在參與者。這就指向了小鵬。

直到小鵬 G7 Ultra 發(fā)布會上，小鵬才明確表態(tài)，基于 3 顆圖靈芯片與雙激光雷達(dá)，小鵬 G7 Ultra 支持全場景 VLA，包括復(fù)雜路口決策、無車位泊車等功能，并在人機(jī)共駕模式下可以實(shí)現(xiàn)協(xié)同控制。

然而，盡管隸屬于 VLA 陣營，但小鵬把刀口對準(zhǔn)的卻是「隊(duì)友」。

何小鵬聲稱，「只有我們做成了真正的 VLA，部分公司做成的是一個(gè)嫁接的 VLA?！?/p>

他對此解釋為，VLA 的落地需要數(shù)十億資金投入。相比端到端，VLA 要處理的是更高維度、非結(jié)構(gòu)化的多模態(tài)信息，再將其轉(zhuǎn)化為駕駛動(dòng)作決策，復(fù)雜度指數(shù)級提升。用幾個(gè)億只能堆出一個(gè)「微型 VLA」，本質(zhì)上仍停留在端到端邏輯。

一句話，VLA 玩家都必須是資源稟賦型選手，需要技術(shù)先進(jìn)，更需要大量資金。

某種程度上，小鵬用「純血 VLA」的角度，揭開了 VLA 水面之下的暗角。

這就來到第二層，VLA 的落地挑戰(zhàn)。博世智能駕控中國區(qū)總裁吳永橋解釋得很清楚，即 VLA 落地需面臨三大障礙：

多模態(tài)大模型的特征對齊存在挑戰(zhàn)；
多模態(tài)的數(shù)據(jù)獲取和訓(xùn)練十分困難；
當(dāng)前所有的智駕芯片實(shí)際都不支持 VLA 模型。

尤其是第三點(diǎn)，吳永橋舉例，VLA 理想化部署需達(dá)到 7B-10B 參數(shù)規(guī)模，但現(xiàn)有智駕芯片帶寬有限。即便是一個(gè) 3B 模型，部署在英偉達(dá) Thor 芯片上，頻率也難以穩(wěn)定維持在 10Hz。

10Hz 意味著系統(tǒng)每秒僅能完成 10 次感知與決策，放在駕駛場景中，就像一個(gè)「時(shí)?？◣臋C(jī)器人」。即使決策邏輯正確，但因?yàn)閹挷蛔?、反?yīng)滯后，行車過程中仍會頻繁出現(xiàn)延遲和卡頓，無法帶來流暢、可靠的駕駛體驗(yàn)。

吳永橋并不否認(rèn) VLA 是個(gè)好方向，包括卓馭副總裁馬陸也認(rèn)同 VLA 可以走通，但難度很大。

馬陸強(qiáng)調(diào)，VLA 中的「L」并不是簡單的語言大模型，不可能直接套用類似「通義千問」這樣餓現(xiàn)成模型，而是要從頭開始，練成一個(gè)理解智能駕駛的司機(jī)大模型，它需要完整理解物理世界的真實(shí)尺度，這需要資源，也需要時(shí)間。

種種論斷都構(gòu)成一個(gè)基本事實(shí)：實(shí)現(xiàn) VLA 并不容易。

而在此基礎(chǔ)上，Momenta 與華為對這一技術(shù)路徑的審視已經(jīng)來到第三層，VLA 對于智駕的真?zhèn)涡浴?/p>

關(guān)于智駕是否有必要走 VLA 這條路，雙方都予以否定。

在 Momenta 創(chuàng)始人曹旭東眼里，VLA 只能算是錦上添花，還不足以扛起 L4、L5 的大任。最直接一點(diǎn)，VLA 對于安全性的提升或許能達(dá)到 5-10 倍，但 L4 規(guī)?；涞匦枰氖?100-1000 倍安全提升，顯然杯水車薪。

華為則堅(jiān)定認(rèn)為，VLA 這一從機(jī)器人領(lǐng)域引入的技術(shù)路徑，并不是為智駕而生。并且，由于 VLA 在空間感知與推理能力上存在天然短板，語言模型與動(dòng)作決策本就難以對齊。

簡單而言，VLA 更像是一個(gè)偽命題。

相較之下，華為已經(jīng)找到了新解法，在華為乾崑 ADS 4 上，打造出 WEWA 世界模型架構(gòu)，通過端云結(jié)合的系統(tǒng)訓(xùn)練，行為模型可以直接控制車輛，時(shí)延更低。

華為認(rèn)為，世界模型才是通往智駕終局的正確路徑。

某種程度上，從小鵬、博世、卓馭再到 Momenta、華為，關(guān)于 VLA 的爭論，其實(shí)反應(yīng)出各家差異化的技術(shù)邏輯，大多時(shí)候，技術(shù)路徑無關(guān)對錯(cuò)，關(guān)乎選擇和資源博弈。

03、把雞蛋放進(jìn)最近的籃子里

過去一年，端到端熱潮無疑讓智能駕駛的步子邁得更大，尤其是「車位到車位」的功能落地，不僅重新劃分了「第一梯隊(duì)」入場標(biāo)準(zhǔn)，也讓用戶清晰感知到智駕進(jìn)步帶來的先進(jìn)體驗(yàn)。

然而，「車位到車位」之后，整個(gè)智駕行業(yè)進(jìn)入了「功能停滯」的瓶頸期。

一方面，監(jiān)管給激進(jìn)的智駕宣傳按下暫停鍵，四月份開始，工信部、市場監(jiān)管總局出臺《關(guān)于進(jìn)一步加強(qiáng)智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入、召回及軟件在線升級管理的通知》等系列新規(guī)，對「自動(dòng)駕駛」、「高階智駕」等用語予以禁止，把智駕安全提到絕對優(yōu)先層面，并規(guī)定車企每一次 OTA 更新，都需經(jīng)過備案才能上線。

另一方面，L3 級智能駕駛政策還未放開，相當(dāng)于，各車企、供應(yīng)商還是停留在智駕體驗(yàn)優(yōu)化層面，給 L2 后綴繼續(xù)添加「+」，用戶能感知到的「利己效益」并不明顯。

這也是 Momenta、卓馭等玩家目前并不看好 VLA 的主要原因，VLA 的確能在用戶體驗(yàn)上「整花活」，比如語音控車、人機(jī)共駕，但大概率不能給智駕帶來成倍級的體驗(yàn)革命。

站在 L2+的起點(diǎn)上，智駕行業(yè)每向前走一步，都會面臨更棘手的難題。越是到攻堅(jiān)期，選擇哪條路就越發(fā)重要，畢竟，任何一條技術(shù)路線背后，都是對算力、數(shù)據(jù)的巨額消耗。

這也意味著，大家更愿意把雞蛋放進(jìn)最近的籃子里。

一是押注確定性，幾乎所有玩家都堅(jiān)定選擇了強(qiáng)化學(xué)習(xí)、世界模型的技術(shù)路徑，VLA 本質(zhì)上與這兩者也并不沖突，在理想關(guān)于 VLA 的規(guī)劃版圖中，第四階段就是基于世界模型進(jìn)行強(qiáng)化訓(xùn)練，將系統(tǒng)打造成職業(yè)司機(jī)。

二是降低不確定性。智能駕駛的下半場，將是一場拼資金、拼技術(shù)、拼成本的拉鋸戰(zhàn)。因此，從有圖，到無圖，再到端到端路線，大家都是穩(wěn)扎穩(wěn)打走向下一階段，基于各自既定的技術(shù)價(jià)值觀，或者說，復(fù)用已有的數(shù)據(jù)和算法積累，確定下一步落子位置。

目前位列智駕第一梯隊(duì)的玩家們，可以看出打法各異：

理想、元戎啟行、小鵬選擇押注 VLA。強(qiáng)調(diào)高投入、算力密集型路線，追求 VLA 大模型的上限。

三家也的確通過資源配置為 VLA 鋪路，像小鵬通過自研圖靈芯片，算力超過 750TOPS，并打造出 72B 參數(shù)的基座大模型，為 VLA 大模型提供充裕算力支持；元戎啟行早期就研究 GPT 大語言模型，探索 VLA 方向，并聚焦英偉達(dá) Thor 芯片的上車應(yīng)用；而理想在端到端時(shí)期就乘上了「端到端+VLM」的列車，朝向 VLA 的方向。

另外，理想、小鵬都有自研人形機(jī)器人計(jì)劃，而 VLA 在具身智能與智能駕駛的通用性，也指向了二者對于 VLA 的長遠(yuǎn)戰(zhàn)略布局。

而未選擇 VLA 路線的玩家們也是基于自身技術(shù)價(jià)值觀，錨定最優(yōu)解。

華為、地平線強(qiáng)調(diào)結(jié)構(gòu)性解法，走體系化路線。華為憑借云端算力和 AI 大模型基礎(chǔ)，構(gòu)建出 WEWA 世界模型，主打「無弱點(diǎn)」的原生架構(gòu)；地平線基于自研高性能計(jì)算平臺征程 6P，強(qiáng)調(diào)軟硬一體優(yōu)勢，打造出「中國版 FSD」。

博世主打工程化落地能力，依托全產(chǎn)業(yè)鏈協(xié)同與車規(guī)級品控經(jīng)驗(yàn)，繼續(xù)強(qiáng)化一段式端到端，強(qiáng)調(diào)快速量產(chǎn)能力；
卓馭則是「性價(jià)比」標(biāo)簽，聚焦主流車型需求，通過精簡傳感器配置與算法輕量化優(yōu)化，打造高適配性的入門級方案。
Momenta 繼續(xù)強(qiáng)調(diào)數(shù)據(jù)飛輪，強(qiáng)調(diào)商業(yè)可擴(kuò)展性、成本可控。在「飛輪模式」驅(qū)動(dòng)下，Momenta 將通過強(qiáng)化學(xué)習(xí)打造出新一代 R6 飛輪大模型。

在技術(shù)演進(jìn)的道路上，每一項(xiàng)決策，都是取自于邊際成本與邊際效益的最優(yōu)計(jì)算結(jié)果。

話說回來，智駕行業(yè)上一次這么熱鬧，還是為「純視覺還是激光雷達(dá)路線」?fàn)幷摬恍?，而爭論歸于平靜后，大家得到得共識是，純視覺也好，激光雷達(dá)也罷，只要能保證絲滑、可靠的智能駕駛，都是可行路線。

VLA 之爭同理，具體用哪種技術(shù)路徑，本就不是行業(yè)該糾結(jié)的落腳點(diǎn)。用戶在真實(shí)道路上能否感受到更平順的行駛質(zhì)感、更可靠的安全保障，遠(yuǎn)比選擇哪種大模型更重要。

今天，能把智駕體驗(yàn)做到極致的玩家，才有機(jī)會在 L3 起跑時(shí)真正領(lǐng)先。

來源：第一電動(dòng)網(wǎng)

作者：汽車之心

本文地址：http://www.medic-health.cn/kol/274646

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊65

分享到：

發(fā)表評論

新聞推薦

大牛作者

汽車之心

微信公號Auto-Bit。汽車之心是一家專注智能汽車與自動(dòng)駕駛的媒體和知識服務(wù)平臺，定位于推動(dòng)汽車與科技的融合。我們的團(tuán)隊(duì)由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動(dòng)駕駛行業(yè)從業(yè)者組成。歡迎添加微信號autobitxyz給我們提意見。