51c自动驾驶~合集58

张开发
2026/4/10 11:14:17 15 分钟阅读

分享文章

51c自动驾驶~合集58
我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107#CCA-Attention全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。在 128K 超长序列上下文建模任务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache)显存占用减少 93%,性能全面优于现有高效注意力方法。论文标题:Core Context Aware Transformers for Long Context Language Modeling论文链接:https://arxiv.org/pdf/2412.12465代码链接:https://github.com/chenyaofo/CCA-Attention发布时间:2024年12月17日该成果已被 ICML 2025 接收,最早于 2024 年 12 月 17 日提交至 ArXiv,早于 DeepSeek NSA 和 Kimi MoBA 公开。CCA-Attention 不仅速度快、资源占用低,更在上下文建模的精准度和效率上树立了新标杆,为长文本处理注入全新动力。引言近期研究 [1, 2, 3] 发现,LLMs 中的大多数层的注意力权重主要集中在少数 token 上,表现出显著的稀疏性(见图 1)。这一发现启示我们可以借助这种稀疏特性,降低注意力机制的计算复杂度。图 1:LLaMA2-7B 模型中注意力权重的可视化,阴影越深表示注意力权重越高。最后一个 token 仅对上下文少数几个 token 有着较高的注意力权重,即注意力权重具有显著的稀疏性。现有稀疏注意力方法 [5, 6, 7] 通常通过预定义的稀疏模式来降低计算成本。然而,在问答任务中,关键信息可能分布在上下文的不同位置,模型需要能够访问任意位置的信息,作者称这一特性为「可达性」。已有方法往往忽视了保持 token 之间可达性的重要性,可能导致信息传递受限,从而影响模型在长序列和复杂任务中的表现。为解决这一问题,作者提出了一种即插即用的高效长文本上下文建模方法——关键上下文感知注意力机制(CCA-Attention),其特点如下:高效长文本建模:通过全局池化注意力与局部保留注意力的协同设计,在显著降低计算量的同时保持对长距离依赖的建模能力。线性计算复杂度: 通过引入 core token 聚焦关键上下文,大幅提高计算效率。可即插即用集成:无需修改模型结构和从头训练,可以轻松集成到预训练的 LLM 中,仅需少量微调即可实现性能优化。对比 DeepSeek 发布的 NSA [8] 需引入额外的压缩模块并从头训练 LLMs,CCA-Attention 无需引入额外参数和修改模型结构,可以无缝替换现有 LLMs 中的标准自注意力模块。对比月之暗面发布的 MoBA [9] 通过门控机制丢弃不相关块,CCA-Attention 通过动态聚合关键上下文为核心 token 的方式,在降低计算量的同时,确保所有 token 的信息交互,保留了完整的全局建模能力。CCA-Attention:革新性的解决方案图 2:CCA-Attention 示意图全局感知池化:降低计算维度的智慧之举标准自注意力计算量随序列长度呈平方级增长,长序列处理计算开销极大。大量研究发现注意力权重的分布并不均匀,绝大部分注意力权重被分配给了少数重要 token,其余部分贡献有限,属于冗余上下文。受此启发,作者提出全局感知池化模块。具体而言,将输入序列,分成互不重叠的个组,g 为分组大小。对于第i组,使用该组最后一个 token的 query 向量与组内所有 token 的 key 向量计算重要性分数,并获得该组核心:其中,是第i组的最后一个 token 对应的 query 向量,是第i组的 key 矩阵,和是可学习的参数。将各组 core token 拼接起来得到 core token 序列。为减少冗余,作者使用 core token 序列代替原始 token 进行注意力计算,将维度从降至,从而降低了计算和存储复杂度。通过 core token 序列计算得到的键值矩阵表示为:其中和是可学习参数。局部保留模块:捕捉局部依赖的关键尽管全局感知池化模块能有效捕捉长距离依赖,但由于其压缩特性,可能会忽略细粒度的局部上下文,而这些局部语义对于语言建模同样至关重要。为此,作者进一步提出局部保留模块(Locality-preserving Module),为全局模块提供有效互补信息。具体来说,该模块会确保每个 token 都能至少关注前面w个原始 token,以此来捕捉局部上下文信息,保留连续性语义信息:为了应对生成过程中标记数量难以维持为组大小 g 的整数倍的问题,作者将局部窗口大小设置为,确保注意力窗口与组大小对齐,避免信息遗漏;是原始 token 序列经过线性变换后的键值矩阵。局部保留模块与全局池化模块共享线性变换参数,不会引入额外参数开销。在实际推理中,局部模块提供精细语义支持,弥补全局压缩带来的信息损失,共同构成完整的上下文建模体系。全局-局部模块可微融合:打造全面可达性的桥梁全局感知池化模块和局部保留模块在计算时都只涉及部分 token,导致注意力的可达性有限。为解决这个问题,作者采用全局-局部模块可微融合策略。具体而言,该策略将两种注意力模块中的键值矩阵进行组合,形成统一的键矩阵和值矩阵。由此,CCA-Attention 的最终输出表示为:其中,每个位置的输出计算表达式如下:基于 Triton 的底层加速:提升效率的强大动力为了在训练、预填充、解码期间实现 FlashAttention 级别的加速,作者基于 Triton 实现了硬件对齐的 CCA-Attention 内核。作者借鉴 FlashAttention 的设计思路,利用 Triton 进行底层算子融合,将全局池化注意力和局部保留注意力整合为一个独立且缓存友好的算子,有效消除冗余计算,并原生支持 KV 缓存技术,进一步提升训练、预填充、解码阶段的计算效率。相比标准自注意力机制,CCA-Attention 在计算复杂度和 KV 缓存内存占用方面具有显著优势,从而在整体上实现了更快的运行速度与更高的内存利用效率。实验结果实验设置作者将 CCA-Attention 应用于 LLaMA2-7B-32K 和 LLaMA2-7B-80K 模型,并在 SlimPajama 数据集上微调 1,000 步。对比方法包括 StreamingLLM、LM-Infinite 和 MInference 等高效注意力方法。评估指标涵盖 LongBench 基准测试和多文档问答准确匹配得分(EM Score)等,全面衡量模型在长文本任务中的性能表现。长序列语言建模在 LongBench-E 基准测试中,CCA-LLM 取得了最高的平均得分。以 LLaMA2-7B-32K 模型为例,其得分显著优于 LM-Infinite 和 MInference;在 LLaMA2-7B-80K 模型上,CCA-Attention 依然表现出色,平均分数与标准自注意力相当,同时推理延迟和显存占用大幅降低,展现出更强的长序列处理效率优势。表 1:长序列语言建模实验长文档问答任务在多文档问答任务的 EM Score 评估中,CCA-LLM 在不同序列长度下均展现出优异的表现,且其性能优势随着上下文长度的增加而愈加明显。在处理超长上下文(如 64K 和 128K)任务时,CCA-LLM 的 EM 得分超越了标准自注意力机制,同时推理速度也显著提升——在 128K 上下文长度下,推理速度达到标准自注意力方法的 7.9 倍,展现出其在高效长文本建模方面的突出优势。表 2:长文档问答实验计算和存储效率对比相比标准自注意力及其他高效注意力方法(如 MInference),CCA-Attention 在推理速度与内存占用方面展现出显著优势。不同于 MInference 等仅关注预填充(prefilling)阶段加速的方法,CCA-Attention 能够同时优化预填充和解码(decoding)两个阶段,实现端到端的全流程高效推理。在 64K 上下文长度下,CCA-Attention 的推理速度达到标准自注意力的 5.7 倍,KV Cache 显存占用也大幅降低;在 128K 上下文任务中,推理速度提升更是达到 7.9 倍,同时 KV Cache 显存使用减少高达 93%,充分体现了其在长序列建模中的高效性与实用性。图 3:内存与计算效率对比总结作者提出了一种面向长序列建模的关键上下文感知注意力机制(CCA-Attention)。相比标准自注意力,在保持模型性能的前提下,CCA-Attention 显著降低了计算开销。该方法由两个互补模块构成:全局感知池化模块:基于输入 token 的重要性提取核心 token(core token),用于后续注意力计算,从而高效捕捉全局粗粒度的信息;局部保留模块:聚焦于邻近 token 的细粒度上下文信息,作为对全局池化模块的有效补充。实验结果表明,CCA-Attention 在多种长文本任务中表现出色,同时显著提升了计算效率,具备良好的实用性与可集成性。....#xxx....#ColaVLA自动驾驶大模型,不一定非要把「思考过程」写成文字过去两年,自动驾驶和大模型的结合越来越热。一个很自然的方向是:既然视觉语言模型已经具备很强的场景理解和推理能力,那能不能让它像人类司机一样,先理解环境、再做判断、最后输出轨迹?这条路线听起来很合理,但真正落到自动驾驶上,很快就会遇到一个问题:很多方法虽然引入了大模型,却仍然把「推理」做成了文本链式推理。也就是说,模型要先生成中间解释,再把这些解释一步步转成动作或轨迹。这样做的优点是看起来 「更会思考」,但代价也非常明显:文本是离散 token,而轨迹是连续控制;文本推理还依赖自回归解码,速度慢、链路长,不太适合实时驾驶。来自清华大学与香港中文大学 MMLab 的研究团队提出了全新的隐空间推理与层次化轨迹规划的 VLA 框架 --ColaVLA,论文已经被 CVPR2026 主会接收。论文标题:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving论文链接: https://arxiv.org/abs/2512.22939代码链接: https://github.com/pqh22/ColaVLA这篇论文给出的答案很直接:自动驾驶中的推理,不一定要写成文字。与其让模型「边说边想」,不如让它在统一潜空间里完成推理,再把结果直接交给动作规划器。这样既能保留 VLM 的语义先验和知识能力,又能绕开显式文本生成带来的延迟和表示错位。整篇论文最重要的贡献,其实可以概括成两句话:第一,把推理从文本空间搬到潜空间;第二,把轨迹生成从串行过程改成分层并行过程。一、核心思路:先「想清楚」,再「开出来」ColaVLA 的整体框架由两个核心部分组成:Cognitive Latent Reasoner:负责完成高层驾驶认知Hierarchical Parallel Planner:负责把高层策略展开成连续轨迹作者的目标不是简单把一个大模型接到规划器前面,而是重新定义「推理」和「动作」之间的接口,让二者真正对齐。先看前半部分,也就是潜空间推理器。作者把它设计成一个很像人类司机的四步过程:UnderstandRecognizeRethinkDecide这四步看上去很直观,但真正巧妙的地方在于,它们都不是通过自然语言完成的,而是在统一潜空间中隐式完成。第一步 Understand,是先整体看懂场景。模型会把多视角视觉信息、固定驾驶提示和 ego 车状态一起送入共享 VLM,先建立一个全局场景理解,而不是一上来就直接回归轨迹。第二步 Recognize,是从大量视觉信息里筛出真正和当前驾驶动作相关的关键实体。这里论文设计了一个 ego-adaptive router,根据当前自车状态动态选择最重要的视觉 token,保留的通常是车道、邻近车辆、行人、交通灯这些安全关键线索,而不是无差别地处理整张图。第三步 Rethink,则是在压缩后的关键信息上再做一次 “复核式推理”,并借助一组可学习的 meta-query 来表示不同高层驾驶策略。最后一步 Decide,输出的也不是一句解释文本,而是一组面向动作生成的高层驾驶先验。这样一来,模型就不再需要把推理结果先翻译成自然语言,再从语言翻译回动作空间,而是直接完成从认知到策略的内部闭合。二、真正落到动作层面,它的规划器为什么更合理?很多自动驾驶方法的问题,不只是上游推理方式不合适,下游轨迹生成方式也未必真正符合驾驶动作的结构。有些方法一次性直接回归整条轨迹,虽然简单,但缺少层次;有些方法依赖复杂生成过程,虽然表达能力强,但效率和部署稳定性不一定理想。ColaVLA 这里的思路很清晰:驾驶轨迹本来就是分层的,所以生成过程也应该分层。论文提出的Hierarchical Parallel Planner有三个关键词:先粗后细保持因果并行解码它不是把未来轨迹当作一个扁平输出,而是先确定粗粒度意图,再逐步补足中间细节。这更像真实驾驶员的决策方式:先想清楚「往哪去」,再决定「具体怎么走」。同时,作者还设计了一个 causality-preserving 的注意力机制,保证不同尺度之间的信息流是从粗到细、逐层细化的,而不是相互泄漏。这样一来,多尺度结构就不只是形式上的分解,而是真正具有因果约束的轨迹生成过程。更重要的是,这个 planner 可以在单次前向传播中并行完成多尺度、多模式轨迹解码,不用再像文本 CoT 那样一步一步串行生成。三、实验结果说明了什么?从结果上看,ColaVLA 最打动人的地方,不只是「指标更高」,而是它同时兼顾了精度、安全和效率。1. Open-loop:不只是预测更准,而且更安全在 nuScenes 的开环评测中,ColaVLA 在动作类方法里取得了最优综合表现,平均 L2 误差为0.30 m,平均碰撞率为0.23%。相比强基线 SOLVE-E2E,L2 进一步下降,碰撞率也明显降低。这说明它输出的轨迹并不只是数值上更接近真值,而是在安全性层面也更优。2. Closed-loop:真正体现方法价值的部分在更关键的闭环评测 NeuroNCAP 中,ColaVLA 的平均得分达到3.48,平均碰撞率降到36.8%,明显优于多种前序方法。论文特别指出,相比依赖文本推理、并使用额外数据的 ImpromptuVLA,ColaVLA 在不显式生成文本思维链的情况下,依然取得了更好的闭环表现。这个结果很有说服力,因为它说明:对自动驾驶来说,更长、更复杂的文字推理链,并不一定能带来更好的真实驾驶行为;真正关键的,还是内部决策表征是否适合动作生成,以及规划器是否具有合理的因果结构。3. 推理效率:它把「落地可能性」往前推了一步效率上,ColaVLA 也给出了非常亮眼的结果。在扎实的工程优化后,它的在 H200 上的端到端推理延迟为228 ms/frame,而对比的文本式方法整体快了5 倍到 10 倍左右。这意味着,把推理从文本搬到潜空间,并不只是概念上更优雅,而是真的换来了实打实的速度收益。对于强调闭环和实时性的自动驾驶来说,这一点尤其关键。四、消融实验最值得记住的几点这篇论文的消融实验也比较完整,但最值得记住的其实只有四点。第一,潜空间推理本身确实有效。只要加入 latent reasoning,模型的轨迹误差就会下降;再加入 rethink 阶段,效果还会进一步提升。这说明「先抓关键、再做复核」的认知链条不是叙事包装,而是真正有助于决策质量。第二,分层并行规划器本身也很重要。即便把 reasoning 模块去掉,作者的 planner 在闭环上依然明显优于普通 MLP 头和 diffusion 头,说明它确实更符合真实驾驶动作的生成逻辑。第三,关键 token 不是越多越好,而是平衡最好最重要。保留太少会丢信息,保留太多又会引入冗余,论文最终选择了一个在表达能力和效率之间更均衡的配置。第四,最优的轨迹生成方式不是一次性回归整条轨迹,而是先确定关键点,再逐层补齐中间细节,这和驾驶动作本身的因果结构是对得上的。五、这篇论文真正有价值的地方是什么?如果只把 ColaVLA 看成「又一个自动驾驶模型」,其实低估了它。我觉得这篇工作的更大意义在于,它提出了一个非常明确的判断:自动驾驶中的推理,不一定需要显式写成文字。过去很多工作默认认为,大模型的优势来自「会解释」「会说话」「能输出思维链」。但 ColaVLA 给出的答案是:在自动驾驶这种连续控制任务里,更重要的也许不是「让模型把思考说出来」,而是「让模型在内部真正想清楚,并用更适合动作生成的方式表达出来」。从这个角度看,它代表的是一种很值得重视的范式变化:从text reasoning转向latent reasoning从sequential decoding转向parallel decoding从「展示推理过程」转向「兼顾安全、效率和闭环表现」论文最后的结论也很清楚:把推理从文本迁移到潜空间,为自动驾驶中的知识驱动决策提供了一条更可扩展、也更现实的路径。六、总结如果要用一句话总结 ColaVLA,我会这样说:它不是让自动驾驶大模型「更会说」,而是让它「更会在内部想清楚,再更快地开出来」。这篇论文最核心的贡献,不只是提出了一个新模块,也不只是刷新了几项指标,而是它证明了下面几件事:自动驾驶里的推理,可以不依赖显式文本思维链;潜空间推理同样可以保留高层驾驶决策能力;分层并行、因果一致的规划器,更适合真实驾驶动作生成;当推理形式和动作生成真正对齐时,系统才能同时获得更好的安全性、效率和闭环表现。....#FlowAD隐空间时空世界模型构建自车场景交互新范式(上交百度)一句话总结:通用场景建模增强,同时提升自驾场景感知模型(检测,跟踪,occ),端到端,VLM模型论文标题:FLOWAD: EGO-SCENE INTERACTIVE MODELING FOR AUTONOMOUS DRIVING论文链接:https://openreview.net/pdf?id=m4JpoJRgAr代码链接:https://github.com/AutoLab-SAI-SJTU/FlowAD当前端到端自动驾驶常陷入“反应式规划”的误区,忽略了自车动作对环境反馈的闭环影响。针对这一难题,上海交大与百度联合提出FlowAD框架。该框架的核心在于显式建模相对场景流(Scene Flow),让模型在特征层面上理解“动作如何重塑观测”。FlowAD 在 nuScenes 上实现了 19% 的碰撞率降低和 60% 的响应速度提升。这一突破标志着端到端模型正从“被动观察者”向具备“交互认知能力”的智能体演进一、引言自动驾驶正从模块化设计向端到端(E2E)架构转变。然而,现有的架构通常将规划模块作为最后的计算步骤:每个推理周期以自车规划结束,然后重置管道进行下一个时间戳的计算(如图 1a)。这种架构在很大程度上忽略了自车执行的运动对其后续感知和决策的影响。图1 朴素自驾系统、时序自驾系统、自车场景交互式自驾系统架构图一个完整的驾驶过程应包含两部分:基于当前观测进行规划;执行控制输出,从而塑造未来的感知输入。缺少第二部分(即自车运动的反馈)本质上是一种开环训练。开环训练切断了动作与后续观测之间的联系,阻碍了模型内化自车与场景交互中复杂的动态关系。即便是引入历史状态的时序架构(如图 1b),作者也通过以下消融实验发现,其往往无法充分捕捉从自车动作到未来状态的细微反馈。表1 UniAD时序融合的影响具体来说,作者对经典的端到端模型 UniAD 进行了消融实验。结果揭示了一个反直觉的现象:当移除时序融合模块后,依赖时间连续性的任务(如跟踪)性能大幅下降(AMOTA 跌幅达 16%),但最终的规划性能却几乎不受影响。这说明现有的时序建模更多是在平滑感知结果,而未能真正建立起“自车动作 - 环境反馈”的闭环来有效指导规划。为了突破这一局限,本文提出了一种全新的自车-场景交互建模(Ego-Scene Interactive Modeling)范式。其核心直觉源于人类的感知-运动过程:当我们移动时,环境会产生相对于我们的“流动”。FlowAD 将这种交互显式地建模为潜空间中的“场景流”(Scene Flow)。这一设计的最大优势在于,它允许模型在特征学习阶段就捕捉自车运动的反馈,从而无需昂贵的闭环仿真,仅利用现有的 Log-replay 数据集即可训练出具备闭环特性的模型。具体而言,FlowAD 提出了一个通用的流式框架,包含三个关键步骤:自车引导的场景划分(Ego-guided Scene Partition):不再机械地切分图像,而是根据自车的前进方向和转向速度,动态地将视觉输入分解为“流单元(Flow Units)”,直接反映自车运动意图。时空流预测(Spatial and Temporal Flow Prediction):基于流单元,利用世界模型(World Model)的机制,分别预测场景在空间上的位移和时间上的演变,捕捉动态交互过程。任务感知增强(Task-aware Enhancement):将学习到的时空流动力学注入到对象级(如检测)和区域级(如规划)任务中,显著提升下游任务的性能。通过这种方式,FlowAD 成功地在开环训练数据中“模拟”了闭环交互体验,为自动驾驶系统注入了更深层的场景理解能力。二、方法图2 FlowAD框架图FlowAD 框架由三个核心组件构成:自车引导的场景划分、时空流预测、以及任务感知增强。2.1 自车引导的场景划分为了量化整体场景流,作者首先将视觉输入切分为“流单元(Flow Units)”(如图3)。由于相对运动主要反映在水平方向,划分是沿着多视图图像的宽度进行的。2.1.1 划分的起始点自车的前进方向决定了驾驶场景通过相对运动“流出”的起点。假设时刻自车位于坐标系原点。利用和时刻的自车位置构建前进向量。前进向量与多视图平面的交点作为划分的起点,将场景分为自车左侧(Ego-Left)和自车右侧(Ego-Right)。图3 自车引导的场景划分2.1.2 划分大小的动态调整在转向过程中,自车左/右场景的流速因横向运动速度不同而变化。如果使用相同的划分大小,则不符合运动学特征。为了抵消这种非线性的视觉畸变,FlowAD 根据转向半径动态调整划分宽度。设自车宽度为,则左/右侧的划分大小和分别调整为:这种设计确保了每个“流单元”在物理空间上代表了相似的运动量,而非仅仅是像素上的等分。2.1.3 多级划分与局部聚合为了处理不同感受野并防止物体被切碎,采用多级特征和局部聚合策略。每个流单元与相邻单元拼接,通过 Self-Attention 融合,以保持语义的连贯性:2.2 时空流预测在将场景切分为“流单元”后,FlowAD 的核心任务就是理解这些单元是如何运动的。作者认为,自车与场景的交互主要体现在两个维度:空间的位移(景物从前向后退)和时间的演变(景物随时间变化)。图4 时空流预测模块2.2.1 空间流预测:从前向后的推演模型引入了一组可学习的空间流 Query。这些 Query 就像是一组观察者,它们按照自车前进的方向,从视野的最前方开始,依次向后扫描。模型利用前方流单元的信息,通过 GRU(门控循环单元)更新内部状态,去预测后方流单元的状态。直觉:这就像我们在开车时,看到路边的树木在前方出现,就能预判它下一秒会出现在侧后方的视野中。这种“前因后果”的空间关联被模型显式地学习了下来。2.2.2 时间流预测:从过去到未来的预判模型引入了时间流 Query,用于处理多帧图像序列。它利用上一时刻()的流单元特征作为先验知识,通过 Cross-Attention(交叉注意力机制)来预测当前时刻()甚至未来的流单元状态。直觉:这模拟了人类的短时记忆——我们记得上一秒周围车辆的位置和速度,因此能自然地推断出它们这一秒应该在哪里。2.2.3 引入“世界模型”的监督为了确保模型预测的“流”是符合物理规律的,作者巧妙地借鉴了世界模型(World Model)的训练策略:潜空间对齐:模型不仅要输出预测结果,还要将“预测的流单元状态”与“真实观测到的流单元状态(Ground Truth)”映射到同一个潜空间分布中。学习目标:通过最小化两者分布之间的差异(KL 散度),迫使模型去理解场景的真实动态。最终,通过将空间流特征和时间流特征进行融合,FlowAD 获得了一个完整的、包含自车运动反馈的场景流特征,为后续的感知和规划任务提供了极其丰富的动态信息。2.3 下游任务增强构建好包含自车-场景交互动力学的时空流特征后,FlowAD设计了一个通用的框架,将其注入到下游任务中。根据任务特性的不同,作者提出了两种针对性的增强策略,分别服务于物体感知和全局规划:对象级增强(Object-level Enhancement):主要针对 3D 目标检测和运动预测等任务。该策略将对象查询(Object Queries)回归出的采样点投影到图像平面,找到对应的流单元。随后,利用 Cross-Attention 机制,将流单元中包含的时空动力学信息注入到对象查询中。这使得感知模型不再仅依赖静态图像特征,而是能利用流特征来理解物体的运动趋势,显著提升跟踪稳定性。区域级增强(Region-level Enhancement):主要服务于端到端规划和 VLM 场景分析。该策略关注整体环境语义,直接将区域特征(Region Features)与对应的流单元特征进行拼接(Concatenation),并通过卷积层融合。这种方式让规划器能够直观地“感知”自车运动对环境产生的反馈(即相对运动流),从而帮助模型理解驾驶过程中的动态交互,做出更鲁棒的决策。三、实验3.1 实验设置基线方法 (Baselines)为了全方位评估 FlowAD,作者选择了各个领域的代表性方法作为基线:感知任务:采用 SparseBEV 作为基础架构,这是一种基于稀疏对象查询(Sparse Object Queries)的感知方法。端到端规划:选取了 SparseDrive 和 DiffusionDrive。VLM 分析:采用了 Senna。3.2 与 SOTA 方法的对比1. 感知更强(3D Detection):在 nuScenes 上,FlowAD 助力 SparseBEV 基线实现了显著提升。mAP:提升 3.0% (44.5% → 47.5%)NDS:提升 2.1% (55.3% → 57.4%)这意味着引入“流”的概念让模型看这世界更清晰和精准了。2. 规划更稳:更安全:在 nuScenes 开环测试中,FlowAD 相比 SparseDrive 降低了 19% 的碰撞率。反应更快:作者提出的 FCP (Frames before Correct Planning) 指标衡量模型对指令的响应速度。FlowAD 的 FCP 仅为 0.91 帧,比基线快了 60%(基线需 2.30 帧)。闭环能力:在 Bench2Drive 闭环榜单中,FlowAD 取得了 51.77 的高分,显著优于 SparseDrive (44.54) 和 UniAD (45.81)。3. 理解更深:在结合大语言模型的规划任务中,FlowAD 尤其擅长处理复杂的转向指令。左转场景 F1 Score:提升至 60.71%(基线 30.53%)右转场景 F1 Score:提升至 68.17%(基线 46.94%)3.4 可视化分析感知可视化:对比结果显示,FlowAD 在处理部分遮挡物体(如前左侧摄像头视角)时,比 baseline SparseBEV 更稳健。这得益于学习到的流动力学补充了缺失的视觉信息。规划可视化:在复杂的转向场景中,FlowAD 生成的轨迹更平滑且符合指令。VLM 描述:FlowAD 生成的场景描述能准确捕捉周围要素,并据此做出可靠的规划元动作。(注:更多可视化结果请参考原论文附录)四、总结本文指出了当前自动驾驶模型忽视自车运动反馈的局限性,并提出了 FlowAD 框架。通过自车引导的场景划分和时空流预测,FlowAD 在潜空间中显式地建模了自车与场景的交互动力学。这种设计不仅符合人类驾驶的直觉,而且无需昂贵的仿真即可利用现有数据学习闭环反馈。实验证明,FlowAD在感知、规划和VLM任务上均取得了 SOTA 性能,为构建更类人的自动驾驶系统提供了新的思路。....#WeatherEdit把自动驾驶天气仿真推进到 4D 高斯场利兹卡耐基梅隆团队WeatherEdit:把自动驾驶天气仿真推进到 4D 高斯场 在自动驾驶进入“仿真驱动迭代”的阶段后,真正拉开差距的往往不是白天晴空下的 Benchmark,而是那些雨夜反光、暴雪遮挡、浓雾失距的长尾场景:采集难、复现难、覆盖更难。更棘手的是,如果仿真中的天气只是“看起来像”,却缺乏一致性、可控性和可复用性,那么基于它训练出来的系统,也很难在现实中经得住考验。最近这篇 WeatherEdit: Controllable Weather Editing with 4D Gaussian Field从工程落地的视角,给出了一个足够学术、也足够务实的答案。它并未试图用更大的模型去模拟天气的复杂性,而是把雨雪重新纳入可建模的世界状态:不再只做 2D 的风格化增强,也不止于 3D 的静态积雪,而是将天气编辑拆解为背景氛围(2D)与动态粒子(4D)两条互补路径,并在同一 3D 场景中统一合成,从而同时解决自动驾驶仿真中最棘手的三件事——真实感、可控性,以及跨时间与多视角的一致性,并为后续的 world model、长期闭环评测以及跨天气泛化,提供了干净且可扩展的接口。WeatherEdit驾驶天气编辑效果论文链接:https://arxiv.org/abs/2505.20471v3为什么这件事难?——天气仿真的“三角困境”在自动驾驶仿真里,天气不是滤镜,而是物理与观测共同作用的复杂退化。长期以来,天气编辑通常卡在三个矛盾点:真实感:通用图像编辑模型容更改背景内容,比如把路牌改形、把车“画没了”,以及整出油画质感;一致性:单帧图像模型在处理多相机(左/前/右)输入时容易帧间及视角编辑结果不一致;动态性:雨滴雪花要“在动”,雾要“在空气里”,而不是贴图或后期叠加。很多方法能做到其中一两项,但很难三者兼得。WeatherEdit 的思路很明确:分而治之——先把“全局氛围”做对,再把“局部粒子”做真,然后用 3D 场景把它们严丝合缝地合到一起。WeatherEdit 关键想法:2D → 3D → 4D 的渐进式天气编辑链路论文把系统拆成两步(对应 Figure 2):Weather Background Editing(背景编辑) + Weather Particle Construction(粒子构建)。WeatherEdit编辑框架① 背景编辑:一个模型搞定雨雪雾,还要“多帧多视角不崩”A. All-in-one Adapter:不再“一个天气一个 LoRA”过去做多风格化往往需要多个 LoRA/多个分支,训练与维护都麻烦。WeatherEdit 提出 All-in-one Adapter:把雪/雨/雾多种风格融合进一个适配器里,用文本提示选择天气类型,效率更高、部署更轻。更关键的是,它把语义分割图作为条件输入:天气不再“平均撒到整张图”,而是更语义一致比如雪更贴合树木与路面结构,雾更影响远处可见度。论文也用消融展示了语义条件能改善注意力响应与 FID。语义分割图输入对编辑结果和FID影响B. Temporal-View Attention:专为自动驾驶多相机序列设计的一致性对齐很多扩散编辑最大的问题就是“随机性”:一帧好看,下一帧就漂;左视角像下雪,右视角像阴天。WeatherEdit 给出一个非常“对症”的机制:Temporal-View (TV) Attention。视角对齐:利用驾驶数据常见的“左-前-右”布局,让左右视角去“查询”中心前视角的信息,借助重叠内容稳定风格;时间对齐:每帧与前后帧(t−1 / t+1)交互,减少闪烁与漂移;推理阶段、无参数:不额外训练一个大模块,工程实现更友好。TV注意力机制(左) 编辑效果对比(右)论文用两个指标量化一致性:warp error 衡量时间一致和Bhattacharyya distance 衡量跨视角颜色分布一致性,并在消融中展示 TV-Attention 的收益。② 粒子构建:真正“会动”的雨雪雾,用 4D Gaussian Field 来做如果说背景编辑解决“氛围”,那粒子构建解决的就是自动驾驶仿真最在意的“细节真实”:雨滴雪花的遮挡与动态、雾的体积感、强度可调的颗粒密度。WeatherEdit 的做法是构建 4D Gaussian Field:把粒子表示为带属性的 3D Gaussians,并随时间演化。4D高斯天气场建模过程4D高斯天气场建模不同模块影响A. Attribute Modelling:用可控属性刻画不同粒子为不同天气粒子定义属性集合(颜色、位置、旋转、尺度、不透明度),并用分布采样引入自然随机性,确保雨/雪/雾“长得不一样”。B. Dynamic Simulation:轻量物理,追求“够真且高效”它不走复杂流体模拟,而用恒定方向速度来近似重力/风的效果,并对出界粒子做 recycle,形成持续降雨/飘雪效果。C. Local Field Alignment:大场景也能“持续下雨”,但不需要无限粒子为了避免过多资源消耗,只在相机附近建一个局部粒子场,并随着相机位姿做相对变换,让天气看起来始终存在于视野中,同时避免粒子数随场景尺度爆炸。这套系统到底“可控”在哪?WeatherEdit 把可控性明确拆成三类,直接对齐仿真需求:类型:雨 / 雪 / 雾事件形式:只改背景(比如湿路/雪后静态)或叠加动态粒子(正在下雨/下雪)强度:轻 / 中 / 重(通过粒子数量、透明度、速度等参数调节)换句话说:同一段轨迹,几分钟内就能生成一套“天气压力测试组合拳”。不止“好看”:对下游任务确实能加鲁棒性很多生成类工作最大的质疑是“看着不错,但训练有没有用?”WeatherEdit 在下游语义分割上做了验证:用其合成的天气数据做增强,在 ACDC 与 MUSE 上训练 HRDA / MIC,mIoU 提升最高可达 +14.9%。这点对于自动驾驶很关键, 它说明 WeatherEdit 不只是视觉展示,而是能为鲁棒感知带来可量化收益。结语WeatherEdit 最“抓人”的地方不是某个炫技模块,而是它把自动驾驶仿真真正需要的三件事——背景氛围真实、序列多视角一致、粒子动态可控——放进同一个可用的系统里,并且用 4D Gaussian Field 把“下雨下雪”这件事从后期特效拉回到可控建模层面。WeatherEdit没有试图用一个更大的模型去压服复杂性,而是把雨雪重新放回到可建模、可控制、可复用的世界状态中,用 4D Gaussian Field 把感知、物理和渲染连成一条完整链路。这种取向或许不那么“炫”,却非常踏实:它尊重自动驾驶仿真对一致性、可解释性和可扩展性的底层需求,也为后续的 world model、长期闭环评测和跨天气泛化留下了干净的接口。从这个意义上讲,WeatherEdit 的价值不只在于“把雨下得更真”,而在于让天气第一次成为一个可以被系统性研究和工程化利用的变量。这一步,可能比任何单点性能提升都更重要。....#MeanFuser极速单步多模态轨迹生成,纯规划434FPS在端到端自动驾驶(End-to-End Autonomous Driving)领域,生成模型在轨迹规划任务中展现出了巨大的潜力。近日,中科院自动化所深度强化学习团队和小米智驾团队联合发表名为MeanFuser的最新研究成果,打破了现有生成范式的局限,首次将MeanFlow引入端到端规划,实现了极速的单步多模态轨迹生成。论文:https://arxiv.org/abs/2602.20060代码:https://github.com/wjl2244/MeanFuser痛点与挑战:多步采样与离散锚点的局限性受扩散模型和基于流的生成模型成功的启发,研究人员开始探索将这些框架应用于端到端自动驾驶中。然而,原始的扩散模型通常会遭受模式崩溃的困扰,导致生成的轨迹多样性受限。现有方法通过采用基于锚点引导的方法解决这一问题。然而,这类方法仍然存在显著的局限性:(1)需要多个采样步骤,这导致在推理速度和模型性能之间产生权衡;(2)依赖离散的锚点词表,这种离散化限制了对更广阔轨迹空间的探索,损害在超出预定义锚点分布的测试场景上的性能,如图2。这引出了一个关键问题:我们如何在不依赖固定、离散的锚点词表的情况下,有效地对驾驶行为的多模态特性进行建模,同时保持强大的轨迹规划性能?核心创新:MeanFuser 的三大关键设计为了实现上述目标,MeanFuser创新性地引入了MeanFlow范式,其网络架构主要由以下三个关键模块构成:1. 高斯混合噪声(GMN)引导的连续采样为了消除对固定离散词表的依赖,并解决标准高斯噪声采样引起的模式崩溃问题,MeanFuser引入了高斯混合噪声来引导生成式采样。GMN实现了轨迹空间的连续表示。每个高斯分量捕捉一种独特的驾驶模式,有效增强了模型表达多模态行为的能力,同时保留子模式下的局部不确定性建模能力。2. 引入MeanFlow Identity实现单步极速生成传统的流匹配技术通常依赖瞬时速度场,在推理时极易受到常微分方程(ODE)求解器数值误差的干扰,导致轨迹质量下降且耗时较长。MeanFuser突破性地将MeanFlow Identity引入规划任务。直接建模GMN与真实轨迹分布之间的平均速度场,从数学根源上消除了ODE求解带来的数值误差。大幅提升生成轨迹的平滑度与质量,更实现Fast One-Step(单步)生成,将推理延迟降至最低。3. 轻量级自适应重构模块(ARM)兜底安全为了在多模态输出中确保最终执行轨迹的安全性,MeanFuser设计了一个轻量级的自适应重构模块(AdaptiveReconstructionModule,ARM)。在常规情况下,ARM通过注意力权重隐式地从所有单步采样的候选轨迹中评估并挑选出最优解;而在所有采样候选均存在风险的极端长尾场景下,ARM能够自适应地重构出一条全新的安全轨迹。SOTA性能对比如表所示,在相同的ResNet-34视觉主干网络下,MeanFuser仅使用RGB图像(未用激光雷达),就在NAVSIM-v1上取得了89.0的PDM分数,超越了所有使用了多模态(摄像头+激光雷达)输入的竞争对手。相比基于扩散的DiffusionDrive,性能高出+0.9;相比基于流模型的GoalFlow,高出+3.3。更重要的是,它在无碰撞、舒适性、进度等所有子指标上都取得了最高分。在更复杂、强调反应控制的NAVSIM-v2上,MeanFuser同样以EPDMS=89.5的成绩位居榜首,尤其在车道保持和扩展舒适度指标上提升显著。推理效率提升得益于其单步采样的设计,MeanFuser展现出了极高的推理效率,模型的整体推理速度达到了59帧每秒(FPS)。推理速度分别是GoalFlow的5.20倍、Hydra-MDP的2.65倍、以及DiffusionDrive的1.55倍,纯规划模块(排除感知编码器)的推理速度更是高达434 FPS。消融实验(Baseline+MeanFlow):相比直接用MLP回归轨迹的TransFuser,引入MeanFlow解码器后,PDMS提升了+3.3。这证明了平均流范式本身的有效性。(+GMN):加入高斯混合噪声引导后,性能再提升+0.9。分析发现,GMN显著减少了所有候选轨迹都偏离可行驶区域的失败案例,证明其覆盖能力更强。

更多文章