Any2Full：单阶段深度补全的尺度提示框架解析

洛裳

1. Any2Full：单阶段深度补全的尺度提示框架解析

深度补全技术是计算机视觉和机器人感知领域的关键基础，它能够从稀疏的深度测量数据中恢复出完整的密集深度图。这项技术在自动驾驶、增强现实、机器人导航等应用中扮演着重要角色。然而，传统深度补全方法面临着两个主要挑战：一是对特定训练域的过度依赖导致泛化能力不足；二是对输入深度模式的敏感性，当遇到不同传感器采集的深度数据时性能会显著下降。

1.1 深度补全的核心挑战

当前主流的深度补全方法通常采用两阶段处理流程：第一阶段通过融合RGB和稀疏深度信息生成粗略的深度图，第二阶段再对这个粗略结果进行细化。这种架构存在几个固有缺陷：

计算效率低下：两阶段处理需要额外的计算资源，难以满足实时应用需求
结构失真风险：中间阶段的粗略深度预测可能引入噪声和误差，影响最终结果质量
域适应性问题：模型在训练数据分布外的场景中表现不佳
模式敏感性：对输入深度图的稀疏模式和分布变化缺乏鲁棒性

1.2 Any2Full的创新思路

Any2Full提出了一种革命性的单阶段框架，将深度补全重新定义为对预训练单目深度估计(MDE)模型的"尺度提示适应"。这种方法的核心优势在于：

直接利用MDE的强大几何先验：避免了从零开始学习几何理解
单阶段高效处理：省去了中间深度预测和细化步骤
尺度一致性保持：通过创新的提示机制确保全局尺度关系准确
域泛化能力：不受限于特定训练数据分布

关键突破：Any2Full不再试图直接预测深度值，而是通过"提示"预训练MDE模型调整其输出，使其与稀疏深度测量在尺度上保持一致。这种思路类似于人类利用少量线索就能推断完整场景深度的认知过程。

2. Any2Full技术架构详解

2.1 整体框架设计

Any2Full的架构可以分解为三个核心组件：

预训练MDE骨干网络：采用Depth Anything v2等先进单目深度估计模型
尺度感知提示编码器(SAPE)：从稀疏深度中提取尺度线索
特征调制机制：将尺度提示注入MDE特征空间

2.1.1 工作流程

输入归一化：对原始稀疏深度进行标准化处理，保留相对尺度关系

python复制# 伪代码示例：深度归一化处理
def normalize_depth(depth_map):
    valid_mask = depth_map > 0
    valid_depths = depth_map[valid_mask]
    mean_depth = np.mean(valid_depths)
    std_depth = np.std(valid_depths)
    normalized = (depth_map - mean_depth) / std_depth
    return normalized * valid_mask  # 保持无效区域为0

尺度提示生成：通过SAPE编码归一化深度图
MDE特征调制：利用生成的提示调整MDE特征
深度预测：输出相对深度图
度量对齐：通过全局线性变换将相对深度转换为度量深度

2.2 尺度感知提示编码器设计

SAPE是Any2Full的核心创新，它通过两个层次化模块处理稀疏深度的不规则性：

2.2.1 局部富集模块

该模块将稀疏深度中的尺度线索与MDE提供的密集几何上下文相结合，生成对稀疏变化鲁棒的局部特征。关键技术包括：

特征级线性调制(FiLM)：动态调整MDE特征

math复制\mathbf{f}_{loc,i} = \gamma (\mathbf{f}_{dep,i}, \mathbf{f}_{mde,i}) \odot \mathbf{f}_{mde,i} + \beta (\mathbf{f}_{dep,i}, \mathbf{f}_{mde,i})

其中γ和β是由轻量级MLP预测的调制参数。

多尺度深度嵌入：处理不同稀疏密度
有效性掩码：标识可靠深度测量区域

2.2.2 全局传播模块

该模块通过MDE几何引导的注意力机制，将局部尺度特征传播到整个场景：

使用MDE特征作为Query和Key，确保传播沿几何结构进行
采用分层注意力机制，匹配MDE的不同语义级别
实现从局部到全局的尺度一致性

实际应用技巧：在机器人仓库场景中，我们发现对前几个Transformer块使用掩码注意力（仅允许有效深度区域初始化传播）可以显著提升对极端稀疏输入的处理能力。

2.3 特征调制与预测

生成的尺度提示通过分层FiLM机制注入MDE解码器：

每个解码层级对应特定语义层次的提示
独立调制参数保持各层级特性
最终输出尺度一致的相对深度图

3. 实现细节与优化策略

3.1 训练数据与增强

为提升模型对多样深度模式的适应能力，Any2Full采用两种采样策略生成训练数据：

随机采样：随机选择深度点生成不同密度的稀疏图
空洞采样：模拟传感器因反射等问题产生的大面积缺失

3.1.1 数据集组合

数据集	场景类型	图像数量	主要特点
Hypersim	室内	60K	高质量合成，复杂光照
VKITTI2	室外	10K	驾驶场景，天气变化
TartanAir	混合	15K	运动模糊，多视角

3.2 损失函数设计

Any2Full使用多任务损失确保不同方面的预测质量：

尺度位移不变损失(L_ssi)：保证全局对齐

math复制\mathcal{L}_{\text{ssi}} = \frac{1}{|\Omega|}\sum_{i \in \Omega} |\tilde{\hat{d}}_i - \tilde{d}_i|

梯度匹配损失(L_gm)：保持边缘锐度

math复制\mathcal{L}_{\text{gm}} = \frac{1}{|\Omega|}\sum_{i \in \Omega} (|\nabla_x \tilde{\hat{d}}_i - \nabla_x \tilde{d}_i| + |\nabla_y \tilde{\hat{d}}_i - \nabla_y \tilde{d}_i|)