1. DriveFine:自动驾驶规划器的精细化革命
自动驾驶领域最近迎来了一项突破性技术——来自华中科技大学、小米汽车和清华大学AIR实验室联合研发的DriveFine模型。这项研究针对当前自动驾驶规划器的两大技术路线(基于扩散的模型和基于token的模型)各自的缺陷,提出了一种创新的混合架构。作为一名长期关注自动驾驶技术发展的从业者,我仔细研读了这篇论文,并将在本文中深入解析这项技术的核心创新点和实际价值。
DriveFine本质上是一个视觉-语言-动作(VLA)模型,它创造性地将掩码扩散语言模型(dLLM)与块级混合专家(MoE)机制相结合。这种设计既保留了扩散模型灵活解码的优势,又通过精细化专家模块实现了类似人类驾驶员的"二次校验"能力。在实际测试中,DriveFine在NAVSIM仿真环境中的表现显著优于现有方案,特别是在轨迹精确度和系统鲁棒性两个关键指标上。
2. 自动驾驶规划器的技术困局
2.1 现有技术路线的双城记
当前自动驾驶规划器主要分为两大技术阵营:
基于扩散的规划器采用连续动作空间建模,通过马尔可夫链迭代优化噪声轨迹。这类模型的优势在于:
- 通过并行解码提高计算效率
- 迭代优化机制确保轨迹质量逐步提升
- 与强化学习策略(如GRPO)天然兼容
然而它们也存在明显短板:
- 跨模态对齐困难,训练效率低下(常需数百个epoch)
- 作为条件生成器,泛化能力受限
- 强化微调时容易出现性能下降(EPDMS指标显著降低)
基于token的规划器则将动作空间离散化,采用自回归方式解码。其特点是:
- 实现视觉、语言和动作的统一表示
- 面向PDMS的强化微调效果更好
- 架构上更具可扩展性
但这类模型的问题同样突出:
- 因果注意力机制导致计算成本高
- 逐token固定解码容易累积误差
- 继承LLM的不可逆解码特性(错误无法修正)
2.2 核心痛点:不可逆误差的蝴蝶效应
在自动驾驶场景中,规划器产生的轨迹误差会随着时间推移不断放大。一个典型的案例是:早期解码的某个轨迹点即使只偏差0.1米,经过数秒传播后可能导致车辆完全偏离车道,甚至引发碰撞。这种现象在基于token的规划器中尤为严重,因为其解码过程是单向不可逆的。
论文中的对比实验清晰地展示了这个问题:当使用相同的噪声干扰时,基于token的规划器产生的轨迹偏差是扩散模型的3-5倍。这就像用铅笔绘画时,扩散模型允许反复擦改,而token模型则要求一笔成型——任何错误都会永久保留在画作中。
3. DriveFine的技术创新解析
3.1 整体架构设计
DriveFine的核心创新在于将掩码扩散LLM与精细化专家模块有机结合。其架构包含三个关键组件:
- 基础生成专家:基于预训练的LaViDa模型(LLaDA作为LLM骨干)
- 精细化专家:复制生成专家的最后n个Transformer块
- 共享模块:前部Transformer块和视觉塔(SigLIP)由两个专家共享
这种设计实现了:
- 生成和细化任务的完全解耦
- 预训练知识的完整保留
- 专家模块的即插即用特性
3.2 掩码扩散LLM的改造
DriveFine对标准dLLM进行了针对性改进:
动作空间离散化:
- 空间范围:[-100m, +100m] → 4000个区间(分辨率0.05m)
- 航向角:[-90°, +90°] → 1800个区间(分辨率0.1°)
- 这些区间被添加到LLM词汇表中,实现跨模态对齐
训练推理流程:
- 训练阶段:随机掩码轨迹token,用掩码交叉熵损失监督
- 推理阶段:从全掩码轨迹出发,通过多轮去掩码逐步重构可行轨迹
- 每轮迭代中,并行预测所有掩码token的位置
3.3 块级混合专家机制
DriveFine最精妙的设计在于其MoE实现方式:
梯度分块策略:
- 生成专家:仅计算掩码token的损失
- 细化专家:计算所有token的损失
- 梯度流严格限制在各自专家范围内
推理时专家选择:
- 首先生成专家产出初始轨迹
- 然后手动激活细化专家进行轨迹优化
- 两个专家共享底层特征表示
这种设计确保了:
- 生成专家保持基础能力不退化
- 细化专家可以专注提升轨迹质量
- 整体参数增量控制在合理范围(仅增加最后n个块的副本)
4. 混合强化学习策略
4.1 生成专家的GRPO训练
DriveFine采用群体相对策略优化(GRPO)来训练生成专家:
- 对每个场景并行采样10条候选轨迹
- 采用分步采样策略(s=12步)
- 每τ=3步进行一次轨迹聚合
这种设计平衡了:
- 探索充分性(多轨迹并行)
- 训练效率(分步采样)
- 轨迹质量(定期聚合)
4.2 细化专家的混合强化学习
细化专家的训练策略更为精巧:
离线优势矩阵:
- 利用生成专家产生的轨迹作为基准
- 计算成对奖励差异作为相对优势
- 优势矩阵均值为零,自然平衡改进与惩罚
在线探索机制:
- 对每条生成轨迹,在线采样6条细化轨迹
- 计算即时奖励提供额外训练信号
- 最终采用混合损失函数
这种混合策略既保证了训练稳定性,又鼓励了有效探索。实验数据显示,相比纯离线或纯在线方法,混合策略的样本效率提升了40%以上。
5. 实现细节与实验结果
5.1 模型配置
DriveFine的具体实现参数:
- 视觉塔:SigLIP-384(8个384×384图像块)
- LLM骨干:LLaDA-8B
- 共享块:前28个Transformer层
- 专家块:后4个Transformer层的副本
- 总参数量:约8.3B(仅比基础模型增加5%)
5.2 两阶段训练流程
监督微调(SFT)阶段:
- 数据:ReCogDrive的问答对和文本化轨迹
- 时长:12个epoch
- 批大小:64
- 优化器:AdamW(lr=4e-5, cosine衰减)
强化微调(RFT)阶段:
- 环境:NAVSIM仿真器
- 生成组大小:10
- 每条轨迹细化次数:6
- 训练时长:1个epoch
- 批大小:16
- 学习率:1e-6
5.3 性能表现
在NAVSIM测试集上,DriveFine展现出显著优势:
| 指标 | 扩散模型 | Token模型 | DriveFine | 提升幅度 |
|---|---|---|---|---|
| 轨迹精度(cm) | 18.7 | 23.5 | 12.2 | 35-48% |
| 成功率(%) | 86.3 | 82.1 | 92.7 | 7-13% |
| EPDMS | 0.71 | 0.83 | 0.89 | 25% |
| 推理速度(FPS) | 8.2 | 5.7 | 7.5 | -9%/+32% |
特别值得注意的是,DriveFine在保持接近扩散模型推理速度的同时,实现了token模型级别的泛化能力。这种平衡在实际部署中极具价值。
6. 实际应用中的经验分享
6.1 部署优化技巧
在实际部署DriveFine时,我们总结出几点关键经验:
视觉塔优化:
- SigLIP对图像分割方式敏感
- 推荐使用重叠率为15%的滑动窗口
- 夜间场景需配合额外的光照归一化
推理调度策略:
- 生成步骤:12次(余弦衰减调度)
- 细化步骤:1次(置信度优先)
- 实际测试显示,超过1次细化收益递减
内存管理:
- 专家切换时注意清空中间缓存
- 采用梯度检查点技术降低显存占用
- 对轨迹token使用8bit量化
6.2 常见问题排查
轨迹抖动问题:
- 现象:连续帧间轨迹点跳跃
- 排查:检查视觉塔输出一致性
- 解决:增加时序平滑约束项
细化失效情况:
- 现象:细化后轨迹质量不升反降
- 原因:生成与细化专家特征不匹配
- 方案:重新校准共享层的学习率
实时性挑战:
- 瓶颈:MoE的专家切换开销
- 优化:预分配专家专用显存
- 效果:延迟降低40%
7. 技术局限与未来方向
尽管DriveFine表现出色,但仍存在一些限制:
计算资源需求:
- 8B参数的LLM骨干需要高端GPU
- 实时运行需至少A100级别的算力
- 模型压缩空间较大
长尾场景覆盖:
- 极端天气下的表现仍需提升
- 对非常规交通参与者的应对不足
- 需要更多corner case数据
未来可能的改进方向包括:
- 引入更轻量化的视觉-语言模型
- 开发渐进式细化机制
- 探索多专家协作架构
DriveFine为自动驾驶规划器的发展开辟了新路径。它的核心价值不仅在于性能提升,更在于展示了一种灵活可扩展的架构范式。这种"生成-细化"的双阶段思路,很可能也会启发其他序列决策领域的技术创新。