理想汽车押注“司机大模型”,会是大杀器吗?-电动汽车观察家

理想汽车押注“司机大模型”,会是大杀器吗?

借着端到端+VLM架构,理想汽车实现了在辅助驾驶上的逆袭。

尝到新技术架构甜头的理想汽车,希望更进一步,引入更新的技术架构,来夯实自己在辅助驾驶、自动驾驶领域的优势,甚至希望成为引领者。

那就是VLA(视觉、语言、行动)大模型,理想汽车将其命名为司机大模型。

5月7日晚,理想汽车举行了“理想Al Talk第二季李想面对面”线上活动。理想汽车创始人、CEO李想再度现身讨论AI及AI在辅助驾驶、智能驾驶和汽车上的应用思路。

李想认为,“今天辅助驾驶的这些规则算法、端到端跟人类差距还是太大了。”而司机大模型能力是最强的,“是最接近人类的,甚至有机会超过人类能力的一种”。

“我自己认为VLA(司机大模型)能够解决到全自动驾驶。”

李想没有透露具体的司机大模型支持的辅助驾驶系统上车时间。只是表示,比此前预计的9月要提前。

按照理想汽车透露的信息,理想纯电SUV理想i8将于7月发布上市,并且搭载VLA(司机大模型)。

01

司机大模型有多厉害?

辅助驾驶系统发展到今天,对于行业、对于理想汽车,都可以说是一个节点。

就行业而言,由于一些饱受关注的事故影响,辅助驾驶系统的安全性受到质疑。

就理想汽车而言,尽管端到端+VLM双系统开行业先河,并且将理想智驾拉到行业前列,引起一些技术路线追随者,但是其辅助驾驶产品依旧是辅助工具。

本质上,这两个问题都可以归结为——辅助驾驶系统的能力依旧不足。

李想提及了此前规则架构、端到端架构的两个问题。

一是对复杂东西的理解,比如复杂的修路,“如果是规则算法可能就会撞上了,如果是端到端可能停下来,但它不知道该怎么干了。”

另一方面是无法跟人沟通。“今天端到端怎么做?就跟猴子一样,你影响不了它,对吧?”

但VLA架构不一样。面对复杂场景,司机大模型能轻松解决,因为它有理解能力。在训练阶段,VLA架构模型即便没有经历过真实场景的学习,也可以通过生成数据来训练。

在沟通方面,司机大模型作为Agent(智能体),可以理解语言,司机可以给出指令,比如让它一直在中间行驶,直到下一个路口,再比如靠边停车,或者“到C3区停车”。

而且,端到端架构的系统与导航配合出现问题时无法妥善处理,司机大模型却能在小区等开放空间漫游并与导航调整后汇合。

因为,司机大模型看得懂导航软件运行,具备思维链和推理能力,像人类司机一样执行驾驶行动,最终能像全职司机一样工作,实现全自动驾驶。

02

司机大模型如何训练?

司机大模型为什么理解世界,听懂司机指令,并且还能成为驾驶“专家”呢?

还要从VLA模型的架构特点和训练方式说起。

李想认为,VLA架构是逐渐进化而来的,具备了很多“像人类一样的”能力:

它能用3D的vision(视觉)和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件”。

它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。

它有它的language(语言),然后它也有它的CoT(思维链),有推理的一个能力。

它能够像人类一样的,真正地去执行这样的行动……

这些能力来自何处?

李想表示,司机大模型需要四个步骤来训练。

步骤一,训练一个VL(视觉和语言)的基座模型。“我们目前在训的,当前的这个版本,是一个32B的,就是320亿云端的一个基座模型。”

这一模型和过去的模型的差异在于,要放入更多视觉的语料,其中就包括3D上的视觉语料、高清的2D的视觉语料。而此前的多模态的开源VLM(视觉语言模型)里边,2D视觉语料的清晰度太低,所以看的距离不够。

在语言模型方面,要放入跟交通、驾驶相关的足够多的这方面的语料。

此外,还必须放入很多VL(视觉和语言)联合的语料,就是三维图像和对世界的理解语义要同时产生的。“比如我举一个例子,我要把导航的地图和车辆对导航地图的理解一起放进去。”

李想也回应了为什么要做基座模型。

他说,理想汽车的VLA模型,即便是V(vision视觉)和L(language语言)部分也和通用大模型不一样,需要涉及到更专业的车领域、交通领域、面向家庭用户的语义语料,此外还需要把VL(视觉和语言)的组合语料放进去训练。“那这些无论是OpenAI还是DeepSeek,它都没有这样的数据,它们也没有这样的场景和需求,也不去解决这样的问题,那只能我自己来做了。”

他也强调,DeepSeek的开源加速了理想基座大模型的开发进度。“好处是说VLA(视觉语言行动模型)里边的这个language(语言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。”

李想在这里透露,理想汽车把基座模型的团队从智驾系统开发团队拆开,并且加大了投入,“训练卡比团队的预期应该多买了3倍。”

这一基座模型训练出来之后,需要蒸馏成一个3.6B(即36亿)端侧(即上车)的蒸馏模型。“因为我要保证它运行速度足够得快,然后无论是两个Orin-X还是Thor-U上能够流畅地运行。”

步骤二是做后训练,要把action(行动)放进来,从VL模型变成VLA模型,仍然是一种模仿学习。“特别像你去驾校学开车……这个时候大概模型规模就会从3.2B大概扩大到接近4B,大概这么一个规模。”

步骤三是强化训练,“比较像人到社会上开车了”。强化学习一部分先做RLHF(基于人类反馈的强化学习),包括人类接管的反馈。强化学习另一个部分是纯粹的RL(强化学习),“是(拿RL模型放到)我们的世界模型来做训练。这块儿的目的什么呢?就是开得比人类更好。”

当这三个步骤完成了以后,VLA(司机大模型)能够跑在车端的模型其实就产生了。

步骤四,搭建一个司机的Agent(智能体),能够听懂司机的语音指令。“如果是一些短指令,通用的短指令VLA(司机大模型)直接就处理了,不需要再经过云端。如果是一些复杂的指令,其实先要到云端的32B那里,VL(视觉和语言)处理完以后,(因为它理解交通的一切),整个交给VLA(司机大模型)来进行处理,大概这么运行的一个过程。”

最终,李想认为,“说白了它最后的一个好处是说它能够像人类司机一样去理解物理世界,能够像人类司机一样去开车,去处理复杂的问题,也能像人类司机一样跟其他人类进行沟通。这是最后我们交付到用户那里的产品。”

03

还有没有更强的架构?

自特斯拉引入端到端技术架构之后,探索智能驾驶辅助系统的企业,纷纷模仿。

但是,特斯拉不再举办AI DAY之后,业界无法再跟随。此后,理想汽车提出了端到端+VLM的双系统架构,被一些企业学习模仿。

再往后呢?

在机器人领域,VLA架构被广泛讨论。和智能驾驶辅助领域,理想汽车和元戎启行都提出VLA作为下一代架构。

李想认为,交通领域应该是VLA最早实现应用的。

第一,因为交通规则清楚,虽然复杂但具备确定性。

第二,车有三个方向的自由度需要控制,而机器人的上来就是40多个自由度,那个挑战就更大了。

第三,在交通领域还能做特别好的强化,“大家在使用的过程中不满意的时候就接管了”。

理想汽车自从自研智能驾驶辅助系统以来,已经迭代了数个技术架构。会不会明年又换一个?

李想表示,司机大模型是能力最强的架构,能解决到全自动驾驶,但是,不一定是效率最高的架构。VLA基于Transformer,而Transformer架构不一定是效率最高的,未来大概率会出现更高效的架构,因为当前VLA对算力要求较高。

未来还没来,当前社会和行业对于辅助驾驶有不少负面评价,李想说,“比较像黎明前的黑暗吧。我觉得黎明马上就要来了。”

本文由 电动汽车观察家 作者:邱, 锴俊 发表,其版权均为 电动汽车观察家 所有,文章内容系作者个人观点,不代表 电动汽车观察家 对观点赞同或支持。如需转载,请注明文章来源。
5