智能駕駛,足夠成熟可靠了嗎?|尋路2025

隨著滲透率快速上升,2025年智能駕駛隻講“端到端”可能不夠用了
編者按:
回望2024年,展望2025年,汽車業此刻正站在一個新的節點上:汽車的樣子會變,造車的企業會變。
為此,《財經》展望這一行業的關鍵變革之年,提出並分析2025年的八大懸念,期待與你一起見證並驗證這一切,和汽車產業一起尋路未來。
本文是“尋路2025”係列的第5篇,第一篇是《新能源汽車增速遭遇天花板?》,第二篇是《價格戰到底要打到什麽時候?》,第三篇是《合資品牌能留下幾家?》,第四篇是《汽車出海還能維持高增長嗎?》……
文|包校千
編輯 |王靜儀 施智梁
2025年是不少預言的揭盅之年。
技術創新迎來了躍變。有人預測,智能駕駛將全麵進化普及,司機在未來會逐漸消失。
自動駕駛正在加速落地。工信部相關人士曾披露,2024年上半年,中國乘用車L2級及以上自動駕駛的滲透率達55.7%。中國電動汽車百人會副理事長兼秘書長張永偉預計,這一數字到2025年可能會接近65%。
全自動無人駕駛是智能駕駛技術演進的終局。2024年,車企和供應商集體卷入了“端到端”智駕狂熱賽,仿佛“端味兒”的濃和淡代表了技術領先與否。相當一部分人認為,這是通往高階自動駕駛的一條必經之路。
超越人類是智駕價值躍升的拐點。地平線創始人兼CEO餘凱認為,高階智駕本質的比較對象是人類:“比不過人的時候,它就是高科技的玩具;當它有一天表現得比人好的時候,價值立刻就會跳上去。”
不過,僅憑 “傳感器數據” 與 “人類駕駛軌跡” 的海量對照,不足以讓智駕向更高階跨越。而“端到端”就是讓所有傳感器的數據以及動力學或地圖信息等,輸入到車端模型,然後輸出合理的駕駛軌跡。但人類司機的駕駛意圖和一些潛移默化的習慣模式,是“端到端”模仿不來的。
最終,一切都指向了智駕安全性的問題上。

靠模仿,當不了老司機
波士頓谘詢曾在一份報告中評價,智能駕駛是“自汽車發明以來影響最為深遠的技術”。之所以如此重要,不僅在於它解放了駕駛員的雙手,更在於能降低交通事故的風險。
雖然該機構指出,智能汽車和Robotaxi未來可以減少90%的道路交通事故,但就目前來說,智駕並非完全如想象中那麽可靠。
比如某新勢力品牌的輔助駕駛係統,曾錯誤地將廣告牌上的小貨車圖片識別為障礙物,導致急刹車和後車的追尾;還有某品牌的車主遭遇了智駕係統在事故發生前退出的情況。部分用戶對此表示擔憂,認為不能完全依賴廠商推出的“智能駕駛”功能。
在“端到端”席卷之下,L2+輔助駕駛技術得到了更快普及。滲透率方麵,的入局是2025年國內智駕行業最大變量,有望推動L2+級別銷量基盤快速從100萬輛提升至1000萬輛級別,帶動L2+滲透率從14%提升到30%,實現翻倍以上增長。

圖源:
特別是以理想、小鵬為代表的新勢力品牌,都推送了“車位到車位”的智駕方案(該方案是指從起點車位到終點車位,智駕係統全程可以激活無斷點,包括上下匝道、環島、停車場閘機等一係列難點場景),讓智駕體驗更加好用,但小馬智行副總裁張寧指出,當監管頻次越降越低,越容易讓人產生“虛假的安全感”。
要知道,每個智駕係統迭代的版本之間都有不同程度的差異。也許上一個版本在這個路口能順利通過,下一個版本就回退了。司機在開小差的過程當中,可能就會釀成交通事故。最終牽扯車輛失控後複雜的責任認定問題。
以“車位到車位”功能為例,這一功能雖已具備L3自動駕駛的核心能力,然而車企將其推向市場的過程中,為了避免提及L3後麵臨監管壓力和潛在的責任風險,仍以L2+、L2++等命名方式來強調其智能化水平。這種回避L3的宣傳口徑,反映了目前技術落地和商業化過程中存在的謹慎態度。
2024年,是頭部品牌全量推進“端到端”的一年。年初,特斯拉FSD V12上線,實現了從感知到決策的一體化,成為各路玩家競相學習的對象。
對於大多數車企和智駕供應商來說,好的智駕方案應該更像一個老司機,因此各家都在借用“端到端”來模仿、學習人類司機是怎麽開車的。
基於“端到端”大模型的智駕係統,各個AI模塊通過transformer鏈接,信息傳遞更加隱秘,減少了信息傳輸過程中的丟失,具有上限很高的優勢,但“端到端”的下限也很低。在常規場景下,它能夠從容駕駛,提供更加舒適的駕駛體驗,但在非常規場景下,這種從容很可能轉成急躁冒進,帶來安全風險。
2024年末,理想、華為、小鵬、蔚來、小米、極氪、智己、長安、長城等公司都加入了“端到端”的競速中。大部分主流車企已實現了無高精度地圖全國都能開,並從以規則為主的算法框架,向神經網絡模型為主的新架構切換,也就是端到端。
小馬智行聯合創始人兼CTO(首席技術官)樓天城透露,當前大部分L2係統的MPCI(Miles Per Critical Intervention,指每幹預一次行駛的英裏數)最高在300公裏左右,駕駛員如果不接管很可能發生危險。
以前,智能駕駛的行駛跟車能力通常是從ACC自適應巡航到高速NOA,再到城市NOA,由易到難逐步培養的。現在,AI去掉準則模型後,很難知道它的下限在哪兒。這就導致智駕係統麵對非常複雜的場景也有處理應對的能力,但同時很可能連旁邊的垃圾桶都識別不到。
比如采用“端到端”的特斯拉FSD V12版本,泛化能力提升了不少,不再嚴格按照之前的“準則”進行,智駕係統開起來更像老司機了。但出現的問題也不少,比如之前就有撞到一名摩托車手,這種情況在上一個版本是很難出現的。
餘承東此前去美國體驗FSD時就發現,“路上停著靜止不動的白色貨車,特斯拉減都不減速直接撞過去,綠色的貨車不減速也去撞,可能是識別成白雲和樹木了,一旦出問題就是車毀人亡。”

端到端2.0如何升級
麵對複雜罕見的駕駛場景,“端到端”無法擺脫局限性。2025年,智駕隻講“端到端”可能不夠了。
相較而言,“大家開始研究多模態大模型,行業裏都在討論VLM、VLA。”餘凱表示,視覺語言多模態大模型(Large Vision-Language Models,LVLM)能很好地與端到端模型互為補充,充當駕駛決策的“大腦”,讓智駕“越來越類人”“越來越從感知到認知”。
此前基於大模型的自動駕駛方案,往往將大模型直接作為“端到端”模型,即直接用大模型預測規劃軌跡或者控製信號,但是大模型並不擅長預測精準的數值,因此這種方案並不一定是最優解。
為了彌補“端到端”模型魯棒性差,泛化性弱的問題,VLM(視覺語言模型)、VLA(視覺語言動作模型)、世界模型等概念不斷湧現,代表智駕玩家的技術路線和投入重心。
比如理想采用的“端到端+VLM”雙係統,官方稱VLM具備複雜場景的理解能力、讀懂導航地圖能力,以及交通規則的理解能力。接下來,VLM還將用於識別交警手勢、施工改道等更複雜的場景。

圖源:IC
如果說VLM是端到端的1.0版本,那麽VLA則是“端到端2.0”的技術方向。二者最大的不同,在於時間層麵的推理能力。“前者在7秒鍾左右,後者能達到幾十秒。”元戎啟行CEO周光表示。
元戎啟行技術副總裁劉軒提到,之前做泛化測試時,團隊遇到過一個特別離譜的路口。直行等紅燈,下麵豎了一塊牌子:保持安全的情況下紅燈可以直行。“就算是人類駕駛員,尤其外地人,看到這個路口肯定也懵。這些和駕駛相關的信息,需要世界模型進行理解。”
2024年11月,Waymo推出了基於多模態大語言模型Gemini的EMMA模型,被業內人士稱為VLA模型。該模型在多個關鍵的自動駕駛任務中展現出良好的任務遷移能力,與為每個任務訓練單獨模型相比,EMMA 在路徑預測、物體檢測和道路圖理解等方麵的表現顯著提升。
以上,是部分玩家基於“端到端”智駕的探索。李想認為,掌握VLA基礎模型能力是在技術上真正實現L4級智能駕駛的基礎條件之一。樓天城則認為,通過搭建訓練模型的虛擬環境,即 “世界模型”,能確保車輛不再發生由係統錯誤產生的問題和事故。
餘凱在前不久的地平線智駕科技暢想日上感慨:“前幾年大家嘴上在喊‘拐點拐點’,實際上大家在找‘賣點’。嘴上說著‘拐了拐了’,心裏想其實是‘趕緊賣了趕緊賣了’。”但隨著算法、算力和數據三大要素兼備,他認為2025年是智駕“真拐點”。
從2004年美國國防部高等研究計劃局(DARPA)組織首屆無人駕駛挑戰賽,掀起自動駕駛江湖的波瀾開始,這一領域在過去20年經曆了深度學習技術的大爆發,從而讓汽車行業正在經曆一場深刻的變革。
但作為一套極其複雜的係統,自動駕駛的技術切換並不立竿見影,挑戰難度大到足以讓從業者痛苦絕望。樓天城坦言,“這兩年別說對外,對內都很難展示進展。但我不斷告訴他們,這是正確的,我們應該這麽做。”
無獨有偶,前華為智能駕駛負責人蘇箐,前不久首次以地平線副總裁兼首席架構師的身份亮相。他認為,自動駕駛代表了物理世界與人類交互的第一個半規則、半非規則的場景,蘊含著極高的研究與發展價值。但“全世界最聰明的人花了這麽多錢幹這件事情,到目前為止還沒有一個係統真正達到‘超越人類駕駛水平’的拐點”。
“但是絕望歸絕望,幹了這麽多年還是能看到希望,因為整個內核技術演進了5-6代以後,你會發現整個係統能看到曙光在前麵了,整套數據驅動範式起來以後能看到這點,我覺得這是我們能看到的東西。”蘇箐感歎。
責編:張生婷