在自动驾驶领域,视觉语言动作模型(Vision-Language-Action Models, VLA)正成为端到端自动驾驶系统的关键技术路线。这类模型通过融合多模态感知数据(摄像头、激光雷达等)与驾驶策略生成,实现从环境感知到车辆控制的端到端学习。然而,VLA模型面临一个关键瓶颈:高分辨率视觉输入产生的海量token会显著增加计算负担,直接影响实时性表现。
小鹏汽车与北京大学联合团队在AAAI 2026发表的FastDriveVLA工作,针对这一痛点提出了专用视觉token剪枝方案。其创新性在于:不同于传统通用剪枝方法,该技术从自动驾驶任务特性出发,设计了面向驾驶决策的token重要性评估体系,在保持模型性能的前提下实现高达78%的token压缩率。实测表明,该方法可使VLA模型推理速度提升2.3倍,显存占用降低61%,为车载端部署扫清了关键障碍。
典型VLA模型的视觉编码器采用类似ViT的结构,将输入图像分割为N×N的patch(如16×16),每个patch转换为一个视觉token。对于1920×1080分辨率输入,patch数量高达8100个,经多层Transformer处理后会产生数十万级中间token。但驾驶决策真正依赖的视觉信息往往集中在:
传统均匀剪枝会无差别丢弃token,导致关键空间信息丢失。FastDriveVLA的核心突破是建立了驾驶场景下的token价值评估框架。
该方法设计了三层过滤机制:
空间显著性过滤
通过可学习的Attention Gate模块,量化每个token对最终驾驶动作(转向角、加速度)的梯度贡献。公式表示为:
code复制S_i = ||∂a/∂t_i||_2 · σ(W_g·t_i)
其中a为动作输出,t_i为第i个token,W_g为门控权重。该指标同时考虑token的直接影响力和自身特征质量。
时序一致性验证
利用连续帧间的光流一致性,剔除瞬时噪声激活的token。定义时序稳定性系数:
code复制T_i = 1 - |S_i^t - E[S_i^{t-Δt:t}]| / (S_i^t + ε)
动态调整阈值保留持续重要的区域。
语义关键区域保护
与HD地图先验知识联动,强制保留以下区域的token:
模型采用两阶段处理流程:
特别地,设计动态token恢复机制:当车辆进入复杂场景(如施工区),自动降低剪枝强度以保证安全性。该决策通过场景复杂度分类器实时触发。
采用课程学习(Curriculum Learning)分三阶段训练:
code复制L = L_action + 0.3·L_aux + 0.1·L_sparse
其中L_aux为关键点检测辅助任务,L_sparse鼓励高剪枝率。针对Jetson AGX Orin平台的优化包括:
实测在Xavier NX上可达23FPS(1080p输入),满足实时性要求。
在nuScenes测试集上的对比结果:
| 方法 | Token保留率 | 控制误差↓ | 推理延迟(ms) |
|---|---|---|---|
| Baseline(ViT) | 100% | 0.82 | 142 |
| Random Pruning | 30% | 1.15 | 67 |
| FastDriveVLA(ours) | 22% | 0.85 | 41 |
关键发现:
通过热图对比可见(图3):
阈值动态调整
建议根据计算资源实时调整剪枝强度:
python复制prune_ratio = base_ratio * (1 + 0.5*(1 - current_fps/target_fps))
关键模块监控
需持续监测以下指标:
极端场景处理
遇到以下情况应禁用剪枝:
我们在实际路测中发现,适当保留10%的"非关键"token有助于提升系统鲁棒性——这些token可能在突发状况中成为重要信息源。