在计算机视觉和机器人领域,几何推理是理解三维空间结构的关键能力。2.5D深度图和点云数据作为两种主要的几何表示形式,为视觉语言模型(VLA)提供了重要的空间感知基础。
深度图是一种2.5D表示形式,它记录了场景中每个像素点到相机的距离信息。与传统的RGB图像相比,深度图具有几个显著特点:
在实际应用中,深度图最常见的获取方式包括:
提示:当使用估计得到的深度图时,建议进行双边滤波等后处理,以消除预测噪声同时保留边缘清晰度。
点云作为完整的3D几何表示,由空间中的离散点集构成,每个点包含(x,y,z)坐标信息,可能还包含RGB颜色、法向量等附加属性。其核心优势包括:
然而,点云处理也面临独特挑战:
下表对比了深度图与点云的主要特性:
| 特性 | 深度图 | 点云 |
|---|---|---|
| 维度 | 2.5D | 3D |
| 数据结构 | 规则网格 | 非结构化点集 |
| 信息完整性 | 部分遮挡 | 完整几何 |
| 处理方式 | CNN | PointNet/Transformer |
| 典型应用 | 室内导航 | 自动驾驶 |
现代VLA模型融合几何信息主要采用三种策略:
早期融合:在输入层就将不同模态转换为统一表示
中期融合:各模态先独立处理,在中间层融合
晚期融合:各模态完全独立处理,最后合并结果
由于点云的非规则性,VLA模型需要特殊设计来处理3D几何信息:
PointVLA方案:
GeoVLA的创新点:
实测发现:当处理小物体时,点云的几何精度优势明显;而对大场景,深度图的计算效率更佳。
纯几何表示缺乏高层语义,近年研究致力于将语义信息融入几何数据:
SoFar系统的三阶段方法:
LMM-3DP的创新:
真实世界是动态变化的,静态3D捕捉不足以支持长期推理:
ARM4R的4D建模:
TraceVLA的解决方案:
点云处理流程:
深度图优化:
python复制# 深度图填充空洞示例
import cv2
def fill_depth(depth_map):
mask = (depth_map == 0).astype(np.uint8)
filled = cv2.inpaint(depth_map, mask, 3, cv2.INPAINT_NS)
return filled
渐进式训练策略:
多任务损失设计:
高效推理优化:
问题1:跨模态特征不对齐
问题2:小物体识别率低
问题3:动态场景滞后
在实际部署中,几何推理系统的性能高度依赖传感器校准质量。建议建立定期校准流程,特别是对于多相机+LiDAR的异构系统,标定误差超过2mm就需要重新校准。