从ChauffeurNet到PLUTO:模仿学习做自动驾驶规划,这5年我们踩了哪些坑?

张开发
2026/4/13 6:46:38 15 分钟阅读

分享文章

从ChauffeurNet到PLUTO:模仿学习做自动驾驶规划,这5年我们踩了哪些坑?
模仿学习在自动驾驶规划中的五年进化从ChauffeurNet到PLUTO的技术跃迁当Waymo在2018年开源ChauffeurNet框架时基于模仿学习的自动驾驶规划还停留在栅格地图和简单行为克隆阶段。五年后的今天PLUTO框架在nuPlan基准测试中首次超越了人类专家设计的规则系统标志着这一技术路线迈入成熟期。这场静悄悄的革命背后是模型架构、训练范式和评估体系的全面重构。1. 模仿学习规划的范式转移自动驾驶规划系统的进化史本质上是一部如何处理分布偏移问题的技术史。早期系统如ChauffeurNet采用行为克隆栅格化BEV的架构其核心假设是只要训练数据足够丰富神经网络就能通过端到端学习掌握所有驾驶场景。但现实很快给出否定答案——在开环测试中表现完美的模型一旦进入真实路测就会因误差累积而失效。关键突破点出现在三个维度输入表征从栅格图到向量化表示的转变模型架构从单一模态输出到纵横分离查询机制训练策略从纯模仿损失到多任务协同优化| 技术代际 | 代表框架 | 输入表征 | 核心局限 | |---------------|---------------|------------|-----------------------| | 第一代(2018) | ChauffeurNet | 栅格BEV | 分辨率受限计算成本高 | | 第二代(2020) | UrbanDriver | 混合表征 | 模态间交互不足 | | 第三代(2023) | PLUTO | 纯向量化 | 长尾场景覆盖不足 |2. 架构革命向量化与纵横解耦PLUTO的突破性设计在于其参考线感知的查询机制。传统方法如PlanTF使用无锚点查询容易导致模式崩溃。PLUTO的创新体现在class LongitudinalLateralDecoder(nn.Module): def __init__(self): self.lat_queries ReferenceLineEncoder() # 基于高精地图生成 self.lon_queries nn.Parameter() # 可学习参数 self.factorized_attention MultiScaleAttention() def forward(self, scene_embedding): # 横向查询与纵向查询的笛卡尔积 combined_queries self._combine_queries() # 分解式自注意力计算 trajectories self.factorized_attention(combined_queries) return trajectories这种设计带来两个显著优势行为解耦纵向查询专注跟车、加减速等时间维度行为横向查询处理变道、绕障等空间决策可解释性每个查询对应特定驾驶语义可通过注意力权重分析决策依据3. 训练策略的三大创新3.1 可微分辅助损失传统方法如SafetyNet需要渲染整个轨迹到图像空间计算碰撞损失效率低下。PLUTO引入的插值式辅助损失实现了实时计算数千个轨迹点的ESDF欧式符号距离场支持批量处理单卡可达200FPS兼容任意向量化输出模型关键技术将车辆形状建模为覆盖圆通过双线性插值查询SDF值当距离小于安全阈值时施加二次惩罚3.2 对比模仿学习(CIL)PLUTO的CIL框架通过构造正负样本对解决了模仿学习中的因果混淆问题。其数据增强策略包括正向增强状态扰动、非交互车辆丢弃负向增强前车删除、交通灯反转、交互车辆丢弃正样本保留因果结构的场景修改 负样本破坏因果关系的场景修改3.3 动态课程学习训练过程采用三阶段课程纯模仿损失快速收敛到合理策略引入辅助损失强化安全性约束加入CIL框架提升交互能力4. 闭环评估的实践智慧nuPlan基准揭示了一个反直觉现象开环指标与闭环性能的相关性仅为0.23。PLUTO的解决方案包含双层评估体系学习置信度基于轨迹似然和场景匹配度规则评分考虑舒适性、交规遵守等硬约束graph TD A[原始轨迹] -- B{安全校验} B --|通过| C[执行] B --|拒绝| D[紧急停止] C -- E[在线重规划]实际部署中这种混合架构将碰撞率降低了83%同时保持95%以上的场景不需要人工接管。5. 尚未解决的技术挑战尽管取得突破现有系统仍面临多模态预测整合单Agent预测难以处理博弈场景长尾场景覆盖极端天气、非常规交规等案例实时性瓶颈全栈模型在复杂路口延迟仍达120ms行业正在向大模型具身智能方向演进未来的自动驾驶规划系统可能需要引入世界模型进行想象推理结合强化学习进行策略微调建立可解释的决策树辅助验证从ChauffeurNet到PLUTO的五年历程证明模仿学习的天花板远比想象中更高。当算法能够真正理解为什么这样驾驶而不只是复制人类行为时自动驾驶的黎明才会真正到来。

更多文章