Drive-JEPA：端到端自动驾驶框架的技术突破-AI智能范式网

Drive-JEPA：端到端自动驾驶框架的技术突破

飞翔的十号

1. Drive-JEPA：端到端自动驾驶框架的技术解析

自动驾驶领域近年来迎来了一次重大范式转变——从传统的模块化流水线转向端到端学习系统。这种转变的核心在于让神经网络直接从原始传感器数据中学习驾驶策略，而非依赖人工设计的中间表示。小鹏汽车最新发布的Drive-JEPA框架，正是这一技术路线上的重要突破。

Drive-JEPA的创新之处在于巧妙结合了两种关键技术：基于V-JEPA的视频预训练和多模态轨迹蒸馏。前者通过自监督学习从海量驾驶视频中提取高效的时空表示，后者则通过模拟器生成的多样化轨迹解决模仿学习中常见的模式崩溃问题。这种组合不仅提升了规划性能，还显著增强了系统的安全性和适应性。

2. 技术架构与核心组件

2.1 V-JEPA预训练模块

V-JEPA（Video Joint Embedding Predictive Architecture）是一种自监督学习框架，其核心思想是通过预测视频中被掩码部分的潜在表示来学习时空特征。与传统的像素级重建方法不同，V-JEPA在潜在空间进行操作，大大降低了计算成本。

在Drive-JEPA中，研究人员构建了一个包含208小时驾驶视频的大规模数据集，覆盖多种驾驶场景和条件。这些视频被处理为512×256分辨率、2Hz帧率的8帧片段，作为V-JEPA的输入。模型采用ViT（Vision Transformer）架构作为编码器，通过以下目标函数进行优化：

L = ||fθ(X_masked) - sg(fθ'(X_target))||²

其中fθ是主编码器，fθ'是通过EMA（指数移动平均）更新的目标编码器，sg表示停止梯度操作。这种设计既避免了表示崩溃，又保证了训练的稳定性。

2.2 多模态轨迹蒸馏

传统端到端驾驶系统面临的一个关键挑战是监督信号的稀疏性——每个场景通常只有一条人类驾驶轨迹作为参考。这导致模型难以学习多样化的驾驶行为，在面对复杂场景时缺乏灵活性。

Drive-JEPA通过多模态轨迹蒸馏（MTD）解决了这一问题。具体实现包括三个步骤：

构建轨迹词汇表：从训练数据中收集超过10万条轨迹，使用K-means聚类选取8192个中心点作为基础词汇表
模拟器评分：基于规则模拟器为词汇表中的每条轨迹计算EPDMS分数（考虑安全性、合规性和舒适性）
轨迹选择：为每个训练场景选择一组高分多样化轨迹作为监督信号

训练时，模型不仅学习模仿人类驾驶轨迹，还通过以下损失函数学习模拟器提供的高质量备选轨迹：

L_traj = Σ_i γ^i min_{k,j} (||P^i_k - Y_j||²)

其中P^i_k是第i次迭代的第k个proposal，Y_j是第j个伪教师轨迹，γ是衰减因子。

2.3 动量感知轨迹选择

多模态轨迹虽然增加了行为多样性，但也可能引入时序不一致问题。为解决这一问题，Drive-JEPA设计了动量感知选择机制：

s'k = s_k + λ·exp(-||T - P_k||²/σ)

其中s_k是原始评分，T_{t-1}是上一帧选择的轨迹，P_k是当前候选轨迹，λ和σ是超参数。这一项惩罚与前一帧差异过大的轨迹，显著提升了驾驶舒适性。

3. 实现细节与训练策略

3.1 网络架构设计

Drive-JEPA采用分阶段训练策略：

预训练阶段：在大规模驾驶视频上训练ViT编码器
微调阶段：在特定驾驶数据集上端到端优化整个系统

模型主干采用ViT-Large架构，包含24个Transformer层，隐藏维度为1024。为降低计算成本，研究人员设计了高效的航点锚定可变形注意力（WADA）机制：

WADA(Q,K,V) = Σ_{i=1}^H A_i·V(p_i + Δp_i)

其中A_i是注意力权重，Δp_i是学习的位置偏移量。这种设计允许模型高效地聚合航点周围的特征。

3.2 辅助任务设计

除了主任务外，Drive-JEPA还引入两个轻量级辅助任务增强环境理解：

Proposal-centric地图预测：预测每个航点的在路/在路线概率
碰撞预测：估计航点的碰撞风险

这些任务通过以下辅助损失进行监督：

L_aux = L_map + L_collision

实验表明，这种设计在不显著增加计算负担的情况下，有效提升了系统性能。

3.3 训练优化技巧

在实际训练中，团队发现并解决了几个关键问题：

模式崩溃：通过调整V-JEPA的掩码比例（最终采用30%-50%），平衡学习难度和特征完整性
训练不稳定：采用梯度裁剪（阈值1.0）和学习率热身（1000步）
过拟合：使用强数据增强，包括随机裁剪、颜色抖动和帧丢弃

4. 实验结果与分析

4.1 基准测试表现

在NAVSIM v1测试集上，Drive-JEPA取得了93.3 PDMS（预测驾驶模型分数），创下新纪录。特别值得注意的是以下优势指标：

自车进度（EP）：0.92（反映驾驶效率）
无碰撞率（NC）：0.98（反映安全性）
交通规则合规性（TRC）：0.95

在更具挑战性的NAVSIM v2上，系统仍保持87.8 EPDMS的优异表现，特别是在扩展舒适性（EC）指标上显著优于基线方法。

4.2 消融实验发现

通过系统的消融研究，团队验证了各组件的重要性：

V-JEPA预训练：使PDMS提升4.2分
多模态轨迹蒸馏：多样性指标提升37%
动量感知选择：舒适性得分提升15%

特别有趣的是，伪教师轨迹数量的影响并非单调递增——5-7条轨迹达到最佳平衡点，过多反而会引入噪声。

4.3 实际驾驶表现

在闭环仿真测试（Bench2Drive）中，Drive-JEPA展现出以下特点：

复杂路口：能够生成3-5种合理轨迹并动态选择最优解
突发状况：对突然出现的障碍物反应时间缩短40%
长尾场景：在少见场景（如施工区域）的通过率提升25%

5. 技术优势与创新点

Drive-JEPA的核心突破在于将自监督学习的世界模型与多样化的行为蒸馏有机结合。相比传统方法，它具有以下显著优势：

数据效率：V-JEPA预训练使模型只需1/10的标注数据就能达到相当性能
安全性：多模态规划使系统始终保有多个备选方案，危险场景下的安全边际提升2-3倍
舒适性：动量感知机制使方向盘转角变化率降低35%，大幅提升乘坐体验

在实际部署中，团队还发现了一些有趣的现象。例如，系统会自主发展出类似人类驾驶员的防御性策略，如在与大型车辆并行时主动保持更大横向距离。这些行为并非显式编程，而是从数据中自然涌现的。

6. 应用前景与扩展方向

Drive-JEPA的技术路线为自动驾驶系统开发提供了新思路。基于当前成果，可能的扩展方向包括：

多模态感知：融合激光雷达和毫米波雷达数据，提升恶劣天气下的鲁棒性
终身学习：建立持续学习机制，使系统能够从实际驾驶中不断改进
人机共驾：开发基于该框架的共享控制算法，实现更自然的人车交互

特别值得注意的是，Drive-JEPA的预训练-微调范式具有很好的可扩展性。当应用于新的地理区域时，只需在本地数据上进行轻量级微调，就能快速适应新的驾驶习惯和交通环境。