剛剛結束的廣州車展,有可能被看作是中國端到端智能駕駛技術的分水嶺。
小鵬汽車宣布要向用戶推送了基于端到端大模型的XNGP智能駕駛系統(tǒng),實現(xiàn)了從高速到城市道路的全場景覆蓋;
小米汽車也展示了其端到端智能駕駛測試實況,并宣布即將于12月推出“車位到車位”全場景智駕先鋒版;
長城汽車則是基于端到端智駕大模型SEE,在廣州車展期間宣布長城汽車全場景NOA的全國開放……
隨著家公司紛紛發(fā)布關于端到端智能駕駛的新聞,我們可以看出,端到端智能駕駛開始成為智能駕駛賽道公認的解決思路,并被各大汽車公司高度重視,且投入重金研發(fā)。
原因就在于,人們意識到人工智能迫切需要一個實際應用的途徑。而汽車配備了眾傳感器,擁有龐大的用戶群體和豐富的運行數(shù)據(jù)。
經(jīng)過年的演進,汽車已被越來越的人認為是人工智能落地的最佳平臺,同時也是大型模型介入現(xiàn)實世界的理想媒介。
一般來說,人工智能的下一步發(fā)展將聚焦于具身智能,即機器人領域,而實際上,汽車本身就是一種具身智能的體現(xiàn)。
現(xiàn)在業(yè)內大家都公認的智能駕駛第一梯隊,除了華為、特斯拉,F(xiàn)SD在美國驚艷的表現(xiàn)也讓人看到了其中潛力。但讓人意外的是,理想汽車現(xiàn)在也已經(jīng)躋身到智能駕駛的第一梯隊。
廣州車展期間,理想展示了全新一代智能駕駛技術架構——端到端+VLM雙系統(tǒng),并宣布OTA 6.5版本車機系統(tǒng)將于11月底正式推送,新增“車位到車位”智能駕駛、全國高速收費站ETC通行功能、后向自動緊急制動等功能。
關鍵,理想發(fā)布最新端到端+VLM智駕技術的效果驚艷,成為行業(yè)首個全量推送車位到車位的智能駕駛,這引發(fā)整個智能駕駛行業(yè)的全面關注。
通過端到端的智能駕駛系統(tǒng),車輛能夠在復雜的交通環(huán)境中實現(xiàn)自主駕駛,從起點的車位出發(fā),一直到終點的車位,全程無需人工干預。
而VLM技術的加入,使得理想汽車的智駕系統(tǒng)更加智能和高效。通過視覺和語言模型的結合,車輛能夠更好地理解和處理復雜的交通場景,從而做出更加準確和及時的駕駛決策。
很人認為理想這個智駕能力很像人,而且一發(fā)布就能實現(xiàn)車位到車位的智能駕駛,讓人感到不可思議。
實際上,這個現(xiàn)象背后深層次原因,在于理想采用了一套端到端+VLM的智駕思路,而這套思路,可能是智能駕駛現(xiàn)在最合適的解決辦法,也讓理想快速實現(xiàn)了在技術和應用效果方面的超越。
有意思的是,理想這一次在智能駕駛領域后來居上,其實恰恰是第一性創(chuàng)新原理的實際應用。而認真分析理想的這個案例,可能對所有企業(yè)在創(chuàng)新領域的投入與發(fā)展有非常大的借鑒意義。
一、后來居上的理想找到智能駕駛第一性
想要分析理想是如何實現(xiàn)在智能駕駛領域后來居上的,就要理解智能駕駛真正的第一性或者發(fā)展的第一因是什么,從而探尋事物的最初根源,洞察事物的本質屬性。
第一性原理的思維方式要求我們從最基本的事實出發(fā),摒棄所有先入為主的假設和偏見,通過邏輯推理和實證分析,逐步構建起對某一問題的全面理解。
找到第一因,看到第一性,意味著我們需要深入剖析事物的本質,追溯其最初的起因和動力,而不是僅僅停留在表面的現(xiàn)象和結果上。
盡管華為ADS3.0的推出標志著智能駕駛技術逐漸從概念走向實際應用,并開始在市場中普及,但許用戶在車輛啟動后才能激活智能駕駛功能。
在實際駕駛過程中,尤其是在復雜的交通場景下,如路口變道、高速公路收費站的選擇等,智能駕駛系統(tǒng)仍需要頻繁的人工干預。
這種情況不僅影響了駕駛體驗,還限制了智能駕駛模型的進一步訓練和優(yōu)化。因此,原本被廣泛宣傳的無圖NOA(導航駕駛輔助)場景,實際上已經(jīng)逐漸淪為一個“偽命題”。
為了實現(xiàn)真正的自動駕駛,讓汽車完全交由智能駕駛系統(tǒng)來控制,這個系統(tǒng)必須具備與人類相似甚至超越人類的能力,能夠應對各種未曾遇到的復雜場景。
此外,系統(tǒng)還應具備在緊急情況下做出快速反應的能力,以確保行車安全。
因此,端到端自動駕駛系統(tǒng)的終極目標是成為一個像人類一樣的智能實體,能夠對路況以及所有可能發(fā)生的狀況做出及時且準確的反應。

它不僅需要具備高度的感知能力,還應具備強大的決策和執(zhí)行能力,甚至在某些情況下能夠超越人類的判斷能力,以應對各種突發(fā)狀況。只有這樣,我們才能真正實現(xiàn)完全自動駕駛,讓駕駛變得更加安全、高效和便捷。
這正是智能駕駛技術真正需要實現(xiàn)的理想狀態(tài),而這個狀態(tài)也正是智能駕駛技術需要解決的核心問題。
在深入分析整個智能駕駛過程后,理想公司發(fā)現(xiàn),智能駕駛系統(tǒng)需要滿足兩個基本條件:首先是確保安全,這是用戶能夠放心信任智能駕駛能力的前提條件;其次是提供便利性和減少人為干預。
基于這兩個條件,理想公司進一步認識到,智能駕駛能力發(fā)展的首要任務是如何為智能駕駛系統(tǒng)配備一個能夠確保安全并能夠迅速根據(jù)用戶意圖做出決策的大腦,并利用這個大腦來指揮和協(xié)調智能駕駛系統(tǒng)中的各個子系統(tǒng),以實現(xiàn)最佳的駕駛體驗和效率。
因為只有這樣,才可能真正實現(xiàn)用戶對于智駕能力最核心的要求。
二、找到第一性后的理想
理想后面的動作核心邏輯,其實都是在解決智能駕駛真正實現(xiàn)的第一性問題。
在理想汽車的工程師們看來,要想讓智能駕駛技術達到類似于人類思維的水平,從而做出決策并操控車輛,就必須讓機器學習模型盡可能地模擬人類的思維過程。正是在這種追求下,他們偶然發(fā)現(xiàn)了雙系統(tǒng)理論。
這一理論認為人類的思維可以分為兩個不同的系統(tǒng):一個是快速反應的系統(tǒng),另一個則是緩慢思考的系統(tǒng)。
這種理論為人類的認知機制提供了一個非常清晰的解釋。快速系統(tǒng)能夠迅速做出反應,處理緊急情況,而慢速系統(tǒng)則負責處理更為復雜的思考和邏輯判斷。這兩個系統(tǒng)共同協(xié)作,構成了人類認知和思維的整體機制。
理想汽車的工程師們意識到,他們之前通過系統(tǒng)化的培訓和訓練,所逐漸實現(xiàn)的端到端駕駛能力,如果能夠與大規(guī)模模型的分析和決策能力相結合,就能形成一種更為強大的智能駕駛解決方案。
這種結合不僅能夠提升車輛的自主駕駛能力,還能在面對復雜路況時做出更為精準和合理的決策。因此,他們致力于將這兩種技術融合,以期找到解決智能駕駛問題的最佳途徑。
在這樣的認知指導下,理想其實做了三件事:
首先,理想精心設計了一套端到端的智能駕駛模型和能力。
這套模型通過大量的數(shù)據(jù)訓練和學習,逐步替代了傳統(tǒng)的規(guī)則指定和人工標注方法。
通過這種方式,人工智能系統(tǒng)能夠自主地理解和學習真實世界的各種情況,從而逐漸成為智能駕駛動作的執(zhí)行者。這種用端到端模型進行類似人類思考的方式,可以稱之為“快系統(tǒng)”。
有了這樣的系統(tǒng),理想開始摒棄以往分段實現(xiàn)端到端的無圖導航輔助駕駛(NOA)方法。
取而代之的,是一種一體化的思維和執(zhí)行模式。這種模式通過端到端的模擬,盡可能地模擬人類駕駛的過程,同時增加了對安全性的判定和制約機制。
通過這種方式,理想能夠顯著提升智能駕駛系統(tǒng)的可行性和可靠性。

其次,理想汽車在業(yè)內率先提出了一個創(chuàng)新的解決方案,即在端到端模型的基礎上增加一個視覺語言模型(VLM)的匹配。這個VLM模型被用作整個智能駕駛系統(tǒng)的核心思維中樞,類似于人類大腦中的“慢系統(tǒng)”。
在智能駕駛過程中,任何需要做出決策的場景,端到端系統(tǒng)都會向VLM提出相關問題,然后根據(jù)VLM提供的答案來執(zhí)行相應的操作。
例如,在高速路口是否選擇走ETC通道,或者在前方發(fā)現(xiàn)事故車輛時是否需要進行變道操作,這些決策都會通過VLM模型來進行。理想汽車的核心目標是讓這個VLM模型的思維盡可能地貼近用戶的需求,使得駕駛體驗變得越來越順暢和自然。
這種創(chuàng)新實際上是理想的首創(chuàng),它模擬了人類的思維過程,通過技術迭代,將VLM模型的參數(shù)提升至22億,并部署在端側設備上。這一舉措大大增強了核心大模型的能力,賦予了整個智能駕駛系統(tǒng)更加強大和靈活的思維邏輯。

最后,理想還為了對端到端+VLM進行測試和訓練,構建一個世界模型,這個模型能夠盡可能真實地模擬現(xiàn)實世界的各種情況。
通過這種方式,端到端的智能駕駛模型以及結合視覺語言模型(VLM)的智駕系統(tǒng),可以在一個虛擬環(huán)境中接受各種復雜場景的訓練。
這樣的模擬環(huán)境能夠極大地加速整個系統(tǒng)的成熟過程,提高學習和迭代的頻率。通過不斷在虛擬世界中進行訓練和優(yōu)化,智能駕駛技術能夠實現(xiàn)持續(xù)的進步,確保每天都有新的提升和發(fā)展。

實際上,找到第一性原理帶給理想很變化。這三件事,其實就是實現(xiàn)了端到端+類人大腦思考+虛擬世界考試的三個智能駕駛節(jié)點。
在整個智駕模式升級后,這套系統(tǒng)的優(yōu)勢,它是當前在物理世界實現(xiàn)人工智能的最優(yōu)方案。
因為它非常好的模擬了人類認知和思考機制,真正的讓系統(tǒng)擁有了像人類思考和理解世界的能力,這就是雙系統(tǒng)的優(yōu)勢。
三、創(chuàng)造創(chuàng)新,讓進步成為常態(tài)
理想能找到智能駕駛第一性,進而實現(xiàn)在這個領域的后來居上,與他們重視創(chuàng)新,堅持不懈的研發(fā)投入有很大關系。
理想汽車董事長兼CEO李想,在接受媒體采訪時表示,“未來三到五年,我認為最大的變量來自人工智能,包含基于真正的人工智能的智能駕駛和基于人工智能的智能助手,它將給消費者帶來和今天完全不同的體驗,這也是真正質變的開始。”
因為他們對于AI所能帶來的變革有深刻的認知,并結合自身對于整個行業(yè)的理解,找到了智能駕駛的第一性。也才開始堅持不懈地進行大規(guī)模的投入和研發(fā),進而帶動理想汽車智能駕駛能力的快速攀升。
三季報顯示,2024年前三季度,理想汽車的研發(fā)費用累計86.6億元,同比增長22.1%,近一年,理想汽車累計研發(fā)投入超120億元。在這樣的情況下,理想智能駕駛能力提升非常快。
找到智能駕駛真正的第一性后,理想為了推動自身技術落地,還從數(shù)據(jù)、算力、算法上做了自己的設計和優(yōu)化、投入。
一方面,自7月份以來,全棧自研的“端到端+VLM(視覺語言模型)”的新一代智駕方案以每周2至3個版本的速度快速迭代,從7月底開啟千人測試,到11月14日,模型訓練數(shù)據(jù)規(guī)模從100萬clips(有效視頻片段)提升至500萬clips,平均接管里程(MPI)翻了約3.5倍。

截至目前,理想汽車智能駕駛訓練里程已經(jīng)達到26.7億公里。理想汽車用戶NOA總里程達到14.4億公里,累計使用智能泊車功能超過6417萬次。理想汽車主動安全累計為用戶避免潛在事故360萬次,其中包括超600次烈性潛在事故。
另一方面,理想部署的算力現(xiàn)在6.83EFLOPS的算力,到今年年底預計10EFLOPS,這已經(jīng)不是10億人民幣,而是20億人民幣的花銷,一年就要消耗20億人民幣。未來進入到L4階段,每年數(shù)據(jù)的增長和算力的增長,都是呈指數(shù)級的增長。
另外,涉及算法,即理想地運用人工智能技術實現(xiàn)自動駕駛。傳統(tǒng)自動駕駛的研發(fā)流程包括需求分析、產(chǎn)品設計、功能開發(fā)、功能驗證和產(chǎn)品迭代,所有這些環(huán)節(jié)都融入了設計元素。
設計決定了車輛能夠應對哪些特定場景,而未被設計覆蓋的場景可能無法實現(xiàn)。然而,采用人工智能的方法,從端到端的模型視角來看,理想無需過度設計場景。
只需指示系統(tǒng)模仿“老司機”的駕駛體驗,并輸入理想車主中“老司機”的駕駛數(shù)據(jù)。這些數(shù)據(jù)的篩選極為嚴格,從80萬車主中僅3%的數(shù)據(jù)被認為是真正的“老司機”數(shù)據(jù)。將這些精選數(shù)據(jù)提供給模型,模型將根據(jù)這些數(shù)據(jù)進行訓練,其輸出結果將與輸入數(shù)據(jù)相匹配。
這正是人工智能的精髓所在:你提供什么樣的數(shù)據(jù),它就產(chǎn)生什么樣的結果,而不是僅僅設計場景就能保證場景的實現(xiàn)。
這其實正好體現(xiàn)了,理想對于智能駕駛第一性原理的追求,對第一因的追求,從中去發(fā)展,去創(chuàng)造,去逐步滲透。
而有了這樣的決策,理想在智能駕駛領域崛起就是一個大概率的事件。這種技術的投入帶來客戶的認知改變,進而推動理想汽車的銷量和利潤率雙雙上升,使得理想汽車獲得了穩(wěn)定發(fā)展的基礎。
寫在最后
創(chuàng)新創(chuàng)造的第一性原理,看起來非常簡單,但對于任何一個想突破關鍵領域技術障礙的企業(yè)來說都是,可以選擇的必然突破口。
其實,第一性原理就是演繹法的體現(xiàn),它提供了一種從最基本的前提出發(fā),逐步推導出復雜現(xiàn)象的方法。
這種方法強調從物質和世界的最本源出發(fā)思考問題,不依賴經(jīng)驗或其它假設,直接從最基本的原則出發(fā)進行推理。
埃隆·馬斯克將第一性原理應用于特斯拉和SpaceX等企業(yè)的創(chuàng)辦和管理中,強調回歸事物的本質,從最基本的物理和經(jīng)濟學規(guī)律出發(fā)進行創(chuàng)新和決策。同樣理想在智能駕駛領域后發(fā)先至,依然是第一性原理的成功例子。
現(xiàn)在看,對于這個原理的深刻認知,真正決定了企業(yè)在創(chuàng)新領域能走遠。