理想 i8 上線,隨即又對配置和價格進行了調整。這一系列的操作,圍繞它的爭議著實不少,不管是造型、價格或是小桌板,大家對這臺車的評價褒貶不一。
但也有不少人認為,大家其實并沒有真正認識到理想 i8 的殺手锏。理想的 VLA 司機大模型與 i8 同步發布,按照計劃也會同步升級到所有 AD Max 車型上,包括了 Thor-U 平臺和 Orin-X 平臺,這意味著除了 i8 的用戶,還會有大量的理想車主能在第一時間體會到 VLA 司機大模型的智駕實力。
VLA 司機大模型到底有什么不一樣?今天,結合著上周基于 i8 的 VLA 司機大模型的上車體驗簡單來說一說。
BEV → 端到端 +VLM → VLA
應該說理想在過去幾年,每年都有在智駕上的大動作。前年是 BEV,去年是端到端 +VLM,到了今年變成了 VLA。不明所以的人難免覺得理想一年一套東西,新概念頻出,感覺都要去「考研」了。但其實,這三年一步一個臺階,其實一切都在同一個線路上穩步提升。
VLA 本身代表的就三個層面的結合,分別是:V 是 Vision(視覺),L 是 Language(語言),A 則是 Action(行動)。如果要把三代路徑打通,那么 BEV 的本質是鳥瞰試圖,對應的是視覺層面的大模型。而端到端 +VLM 則是兩段的融合,端到端結合了視覺和行動兩個層面的大模型,而 VLM 則是視覺語言大模型,簡單來說在這個階段其實 VLA 里面的三個層面都已經出現,唯一的問題是并沒有做到三個層面的一個維度里的完整結合。
所以,端到端 + VLM 的本質是模仿學習,李想自己也把這套雙系統架構比喻為「猴子開車」,雖然智駕能力提升了很多,但是還是無法達到人類頂級職業司機的水平。而在 VLA 則是強化學習,它解決了端到端的模仿學習不具備深度的邏輯思維能力的挑戰,打破了端到端和 VLM 之間的溝通壁壘,以端到端 + VLM 的上限為起點,把整個智駕表現又進行了一次提升。
思考、溝通、記憶、自我學習
在這種能力的加持下,VLA 司機大模型在思考、溝通、記憶和自我學習四項能力上都有提升,在實際路面表現中,在一些場景下展示出不同以往的一些特點。
比如說最直觀的一個感受,VLA 司機大模型在大屏上是可以看到完整的 CoT 推理過程的。對此,理想的工程師也反饋,其實如果沒有 CoT 而是直接讓模型來做決策,也是完全可行的。但理想希望在這個過程中,在決策偏復雜或是路口場景比較豐富的時候,展示模型「多兩步」的思考決策過程,同時借助這個過程和用戶建立一些溝通和信任。

另外就是,對于語義指令的理解能力的確有明顯的提升。在實際試駕中,印象比較深的其實是在根據要求完成靠邊停車之后,用戶還可以對 VLA 司機大模型提出「往前再走 XX 米」這種訴求,展現 VLA 司機大模型對于距離的準確判斷和控制。(事實上,人眼對于距離的判斷反而不那么準確,實際試駕中就出現過我希望車向前挪 30 米但其實 30 米位置上有其他的障礙車輛已經占據位置的情形)

而在 workshop 的演示中也有一個類似的場景,我們可以通過語音助手要求 VLA 司機大模型「在藍色車前面靠邊停一下」,這樣一個指令可以算是對于 VLA 三個層面的統一調度的最佳演示,不管是對于顏色還是距離還是周邊障礙的識別,VLA 都給出了比較讓人滿意的表現。

類似的,在記憶的層面上,理想是可以通過語音助手實現比如「這條路以后開 XX 速度」的指令,并且實現對這一路段的記憶。這并不是說這個功能「無可挑剔」,在 workshop 上一位媒體老師提出的問題就很有意思:這條路以后開 70 的記憶指令 VLA 的確能記住,但這條路非常非常長,路況復雜多變,這個記憶是會完整適配到這條路上,還是說只會在這一段上生效呢?

當然大家不用很擔心,在 VLA 司機大模型下,根據實際路面情況做出判斷一定是必備技能,記住喜好是一回事,而保證安全才是更重要的指標。
所以很多時候,面對 VLA 司機大模型,我們的確可以做到「動動嘴皮子」就能開車,這也符合 VLA 司機大模型打造一個更好的家庭司機的理念。但如果開口就能開車,后排或者乘客是不是也可以借助語音助手介入駕駛環節呢?在這一點上理想早早做出了預案,借助語音的定位,屏蔽了除主駕以外的其他座位發出的和駕駛相關的所有命令。
數據、算法、算力、工程能力
在 workshop 中,理想自動駕駛高級算法專家詹錕就反復強調了四點:數據、算法、算力和工程能力。這四點對于理想率先推出 VLA 有著重大意義。

在銷量增長下,理想的有效數據已經在上個月來到 12 億公里。以海量用戶行駛數據為基礎,理想還有強大的生成數據能力,可以在仿真世界里創造出無數的 Corner Case 來訓練模型,全面提升評測效率,縮減測試周期,降低測試成本。同時,13EFLOPS 的龐大算力,也為這種復雜的訓練和仿真提供了算力保障。
一個數據說明了現階段理想研發 VLA 司機大模型的效率優勢:在 2023 年時,理想對于自動駕駛的評測成本是每公里 18.4 元;這個數據在去年已經下降到 4.84 元/公里;而今年上半年,這一成本已經進一步壓縮到 0.53 元/公里。同時,今年上半年借助仿真測試,理想已經完成了超過 4000 萬公里的評測,這個數字是去年全年的 8 倍。

在這樣的基礎上,我們也很容易好奇:VLA 司機大模型的上限到底在哪里?詹錕認為,這取決于模型、芯片和數據三者的共同進化。隨著大模型推理效率的提升和芯片算力的增強,VLA 處理未知場景的 Few-shot 能力會越來越強。也許過不了很久,它就能看懂全國各地各不相同的紅綠燈信號燈,也能準確判斷大部分的交警手勢,成為一名真正的老司機。

應該說,現階段的 VLA 司機大模型肯定不是那個能讓你在后排安心睡去的完美代駕。但其實我們在理想園區內,已經體驗到了基于 VLA 司機大模型打造的 L4 級別無人小巴,也讓我們感受到了 VLA 的上限卻有更多暢想空間。VLA 已經初步具備了思考能力,這標志著智能駕駛正在進入由 AI 驅動的全新時代。這條路的終點依然遙遠,但 VLA 的出現還是讓未來更加明晰了一些。