智驾网 | 2024-07-05 22:26 作者:智驾网编一号机 0

理想汽车发布基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构

自动驾驶端到端

理想汽车的VLM视觉语言模型参数量达到22亿，对物理世界的复杂交通环境具有强大的理解能力，即使面对首次经历的未知场景也能自如应对。

2024年7月5日，理想汽车发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构，并开启新架构的早鸟计划。

VLM视觉语言模型具备强大的逻辑思考能力，可以理解复杂路况、导航地图和交通规则，应对高难度的未知场景。同时，自动驾驶系统将在基于世界模型构建的虚拟环境中进行能力学习和测试。世界模型结合重建和生成两种路径，构建的测试场景既符合真实规律，也兼具优秀的泛化能力。

理想汽车的自动驾驶全新技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发，在自动驾驶领域模拟人类的思考和决策过程，形成更智能、更拟人的驾驶解决方案。

快系统，即系统1，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时95%的常规场景。慢系统，即系统2，是人类通过更深入的理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约5%。系统1和系统2相互配合，分别确保大部分场景下的高效率和少数场景下的高上限，成为人类认知、理解世界并做出决策的基础。

理想汽车基于快慢系统系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现，具备高效、快速响应的能力。端到端模型接收传感器输入，并直接输出行驶轨迹用于控制车辆。

系统2由VLM视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1。双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证。

端到端模型的输入主要由摄像头和激光雷达构成，多传感器特征经过CNN主干网络的提取、融合，投影至BEV空间。

为提升模型的表征能力，理想汽车还设计了记忆模块，兼具时间和空间维度的记忆能力。在模型的输入中，理想汽车还加入了车辆状态信息和导航信息，经过Transformer模型的编码，与BEV特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

多任务输出在一体化的模型中得以实现，中间没有规则介入，因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。在实际驾驶中，端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力，以及更拟人的路径规划能力。

VLM视觉语言模型的算法架构由一个统一的Transformer模型组成，将Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。

理想汽车的VLM视觉语言模型参数量达到22亿，对物理世界的复杂交通环境具有强大的理解能力，即使面对首次经历的未知场景也能自如应对。

VLM模型可以识别路面平整度、光线等环境信息，提示系统1控制车速，确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力，可以配合车机系统修正导航，预防驾驶时走错路线。

同时，VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则，在驾驶中作出合理决策。

理想汽车的世界模型结合了重建和生成两种技术路径，将真实数据通过3DGS（3D高斯溅射）技术进行重建，并使用生成模型补充新视角。

在场景重建时，其中的动静态要素将被分离，静态环境得到重建，动态物体则进行重建和新视角生成。再经过对场景的重新渲染，形成3D的物理世界，其中的动态资产可以被任意编辑和调整，实现场景的部分泛化。相比重建，生成模型具有更强的泛化能力，天气、光照、车流等条件均可被自定义改变，生成符合真实规律的新场景，用于评价自动驾驶系统在各种条件下的适应能力。

重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境，使系统具备了高效闭环的迭代能力，确保系统的安全可靠。

智驾注：本文转载来源为智驾网，由AutoR智驾转载。

收藏 1 分享：

自动驾驶，当梦想照进现实

韩国计划2020年让自动驾驶汽车上路

阿里达摩院首发自动驾驶仿真路测平台：可日测超800万公里