DriveFine：自动驾驶规划器的混合架构创新-AI智能范式网

DriveFine：自动驾驶规划器的混合架构创新

插座学院

1. DriveFine：自动驾驶规划器的精细化革命

自动驾驶领域最近迎来了一项突破性技术——来自华中科技大学、小米汽车和清华大学AIR实验室联合研发的DriveFine模型。这项研究针对当前自动驾驶规划器的两大技术路线（基于扩散的模型和基于token的模型）各自的缺陷，提出了一种创新的混合架构。作为一名长期关注自动驾驶技术发展的从业者，我仔细研读了这篇论文，并将在本文中深入解析这项技术的核心创新点和实际价值。

DriveFine本质上是一个视觉-语言-动作(VLA)模型，它创造性地将掩码扩散语言模型(dLLM)与块级混合专家(MoE)机制相结合。这种设计既保留了扩散模型灵活解码的优势，又通过精细化专家模块实现了类似人类驾驶员的"二次校验"能力。在实际测试中，DriveFine在NAVSIM仿真环境中的表现显著优于现有方案，特别是在轨迹精确度和系统鲁棒性两个关键指标上。

2. 自动驾驶规划器的技术困局

2.1 现有技术路线的双城记

当前自动驾驶规划器主要分为两大技术阵营：

基于扩散的规划器采用连续动作空间建模，通过马尔可夫链迭代优化噪声轨迹。这类模型的优势在于：

通过并行解码提高计算效率
迭代优化机制确保轨迹质量逐步提升
与强化学习策略(如GRPO)天然兼容

然而它们也存在明显短板：

跨模态对齐困难，训练效率低下(常需数百个epoch)
作为条件生成器，泛化能力受限
强化微调时容易出现性能下降(EPDMS指标显著降低)

基于token的规划器则将动作空间离散化，采用自回归方式解码。其特点是：

实现视觉、语言和动作的统一表示
面向PDMS的强化微调效果更好
架构上更具可扩展性

但这类模型的问题同样突出：

因果注意力机制导致计算成本高
逐token固定解码容易累积误差
继承LLM的不可逆解码特性(错误无法修正)

2.2 核心痛点：不可逆误差的蝴蝶效应

在自动驾驶场景中，规划器产生的轨迹误差会随着时间推移不断放大。一个典型的案例是：早期解码的某个轨迹点即使只偏差0.1米，经过数秒传播后可能导致车辆完全偏离车道，甚至引发碰撞。这种现象在基于token的规划器中尤为严重，因为其解码过程是单向不可逆的。

论文中的对比实验清晰地展示了这个问题：当使用相同的噪声干扰时，基于token的规划器产生的轨迹偏差是扩散模型的3-5倍。这就像用铅笔绘画时，扩散模型允许反复擦改，而token模型则要求一笔成型——任何错误都会永久保留在画作中。

3. DriveFine的技术创新解析

3.1 整体架构设计

DriveFine的核心创新在于将掩码扩散LLM与精细化专家模块有机结合。其架构包含三个关键组件：

基础生成专家：基于预训练的LaViDa模型(LLaDA作为LLM骨干)
精细化专家：复制生成专家的最后n个Transformer块
共享模块：前部Transformer块和视觉塔(SigLIP)由两个专家共享

这种设计实现了：

生成和细化任务的完全解耦
预训练知识的完整保留
专家模块的即插即用特性

3.2 掩码扩散LLM的改造

DriveFine对标准dLLM进行了针对性改进：

动作空间离散化：

空间范围：[-100m, +100m] → 4000个区间(分辨率0.05m)
航向角：[-90°, +90°] → 1800个区间(分辨率0.1°)
这些区间被添加到LLM词汇表中，实现跨模态对齐

训练推理流程：

训练阶段：随机掩码轨迹token，用掩码交叉熵损失监督
推理阶段：从全掩码轨迹出发，通过多轮去掩码逐步重构可行轨迹
每轮迭代中，并行预测所有掩码token的位置

3.3 块级混合专家机制

DriveFine最精妙的设计在于其MoE实现方式：

梯度分块策略：

生成专家：仅计算掩码token的损失
细化专家：计算所有token的损失
梯度流严格限制在各自专家范围内

推理时专家选择：

首先生成专家产出初始轨迹
然后手动激活细化专家进行轨迹优化
两个专家共享底层特征表示

这种设计确保了：

生成专家保持基础能力不退化
细化专家可以专注提升轨迹质量
整体参数增量控制在合理范围(仅增加最后n个块的副本)

4. 混合强化学习策略

4.1 生成专家的GRPO训练

DriveFine采用群体相对策略优化(GRPO)来训练生成专家：

对每个场景并行采样10条候选轨迹
采用分步采样策略(s=12步)
每τ=3步进行一次轨迹聚合

这种设计平衡了：

探索充分性(多轨迹并行)
训练效率(分步采样)
轨迹质量(定期聚合)

4.2 细化专家的混合强化学习

细化专家的训练策略更为精巧：

离线优势矩阵：

利用生成专家产生的轨迹作为基准
计算成对奖励差异作为相对优势
优势矩阵均值为零，自然平衡改进与惩罚

在线探索机制：

对每条生成轨迹，在线采样6条细化轨迹
计算即时奖励提供额外训练信号
最终采用混合损失函数

这种混合策略既保证了训练稳定性，又鼓励了有效探索。实验数据显示，相比纯离线或纯在线方法，混合策略的样本效率提升了40%以上。

5. 实现细节与实验结果

5.1 模型配置

DriveFine的具体实现参数：

视觉塔：SigLIP-384(8个384×384图像块)
LLM骨干：LLaDA-8B
共享块：前28个Transformer层
专家块：后4个Transformer层的副本
总参数量：约8.3B(仅比基础模型增加5%)

5.2 两阶段训练流程

监督微调(SFT)阶段：

数据：ReCogDrive的问答对和文本化轨迹
时长：12个epoch
批大小：64
优化器：AdamW(lr=4e-5, cosine衰减)

强化微调(RFT)阶段：

环境：NAVSIM仿真器
生成组大小：10
每条轨迹细化次数：6
训练时长：1个epoch
批大小：16
学习率：1e-6

5.3 性能表现

在NAVSIM测试集上，DriveFine展现出显著优势：

指标	扩散模型	Token模型	DriveFine	提升幅度
轨迹精度(cm)	18.7	23.5	12.2	35-48%
成功率(%)	86.3	82.1	92.7	7-13%
EPDMS	0.71	0.83	0.89	25%
推理速度(FPS)	8.2	5.7	7.5	-9%/+32%

特别值得注意的是，DriveFine在保持接近扩散模型推理速度的同时，实现了token模型级别的泛化能力。这种平衡在实际部署中极具价值。

6. 实际应用中的经验分享

6.1 部署优化技巧

在实际部署DriveFine时，我们总结出几点关键经验：

视觉塔优化：

SigLIP对图像分割方式敏感
推荐使用重叠率为15%的滑动窗口
夜间场景需配合额外的光照归一化

推理调度策略：

生成步骤：12次(余弦衰减调度)
细化步骤：1次(置信度优先)
实际测试显示，超过1次细化收益递减

内存管理：

专家切换时注意清空中间缓存
采用梯度检查点技术降低显存占用
对轨迹token使用8bit量化

6.2 常见问题排查

轨迹抖动问题：

现象：连续帧间轨迹点跳跃
排查：检查视觉塔输出一致性
解决：增加时序平滑约束项

细化失效情况：

现象：细化后轨迹质量不升反降
原因：生成与细化专家特征不匹配
方案：重新校准共享层的学习率

实时性挑战：

瓶颈：MoE的专家切换开销
优化：预分配专家专用显存
效果：延迟降低40%

7. 技术局限与未来方向

尽管DriveFine表现出色，但仍存在一些限制：

计算资源需求：

8B参数的LLM骨干需要高端GPU
实时运行需至少A100级别的算力
模型压缩空间较大

长尾场景覆盖：

极端天气下的表现仍需提升
对非常规交通参与者的应对不足
需要更多corner case数据

未来可能的改进方向包括：

引入更轻量化的视觉-语言模型
开发渐进式细化机制
探索多专家协作架构

DriveFine为自动驾驶规划器的发展开辟了新路径。它的核心价值不仅在于性能提升，更在于展示了一种灵活可扩展的架构范式。这种"生成-细化"的双阶段思路，很可能也会启发其他序列决策领域的技术创新。