1. TerraFM:遥感基础模型的范式革新
遥感技术正经历从单任务专用模型向通用基础模型的范式转变。传统遥感分析通常针对特定传感器(如Sentinel-2光学影像)和特定任务(如土地分类)训练独立模型,这种模式存在三个根本性缺陷:首先,不同传感器数据分布差异导致模型难以跨模态迁移;其次,小规模训练数据限制模型泛化能力;最重要的是,分散的模型架构无法积累和迁移跨任务知识。TerraFM的提出正是为了解决这些核心痛点。
作为首个真正统一处理多模态遥感数据的基础模型,TerraFM的创新性体现在三个维度:在架构层面,通过模态特定的patch embedding和跨注意力融合模块,首次实现单一ViT主干对SAR(2通道)、多光谱(13通道)等异构数据的统一处理;在训练策略上,采用18.7M全球样本的对比学习框架,配合双中心化机制有效缓解土地覆盖长尾分布问题;在应用层面,模型展示出强大的零样本迁移能力,在GEO-Bench等基准测试中相对现有方法提升达15.3%的mIoU。
关键突破:传统方法处理多模态遥感数据时需要分别训练不同模型,而TerraFM通过统一的表示空间,使单一模型能同时理解SAR的散射特性和光学影像的光谱特征,这为构建地球观测领域的"通用智能体"奠定了基础。
2. 核心架构设计解析
2.1 模态特定Patch Embedding机制
标准ViT的patch embedding层假设输入具有固定通道数(如RGB图像的3通道),这直接阻碍了其在多模态遥感中的应用。TerraFM的创新设计包含三个关键组件:
-
独立卷积投影层:为Sentinel-1(2通道VV/VH)、Sentinel-2 L1C(13波段)、Sentinel-2 L2A(12波段)分别设计独立的卷积核。以Sentinel-1为例,使用2×16×16的卷积核(stride=16)将256×256输入图像转换为16×16的256维token序列。
-
模态标识嵌入:每个token会叠加可学习的模态特定向量$e_m∈R^d$,使后续transformer层能区分不同传感器来源。实验显示,这种设计比简单通道填充(如将SAR补零到13通道)在土地分类任务中提升约8.2%准确率。
-
共享潜在空间映射:所有模态的token通过共享的线性层投影到统一维度(默认d=1024),既保留模态特性又实现表示对齐。该设计在消融实验中证明,比完全独立的模态特定编码器节省47%参数量的同时保持相当性能。
2.2 跨模态注意力融合模块
当输入包含多模态数据时(如同时有SAR和光学影像),TerraFM激活其核心创新——跨模态注意力融合机制:
python复制class CrossModalAttention(nn.Module):
def __init__(self, d_model=1024, n_head=16):
super().__init__()
self.query = nn.Parameter(torch.randn(d_model))
self.kv_proj = nn.ModuleList([nn.Linear(d_model, d_model*2) for _ in range(n_modals)])
self.out_proj = nn.Linear(d_model, d_model)
def forward(self, x_list): # x_list: [modal1_tokens, modal2_tokens,...]
all_values = []
for x in x_list:
k, v = self.kv_proj[i](x).chunk(2, dim=-1) # 投影为key-value对
attn = (self.query @ k.transpose(-2,-1)) / sqrt(d_model)
all_values.append(attn.softmax(dim=-1) @ v)
return self.out_proj(torch.stack(all_values).mean(dim=0))
该模块通过可学习的全局查询向量,动态计算各模态特征的注意力权重,实现像素级的模态融合。在洪水监测任务中,这种设计特别有利于结合SAR对水体的敏感性和光学影像的形态信息,使F1-score比早期融合策略提升12.7%。
3. 预训练策略与长尾问题解决方案
3.1 基于DINO框架的多模态对比学习
TerraFM采用改进的DINO(自蒸馏)框架进行预训练,其核心创新在于将不同传感器数据视为同一地物的"自然增强":
-
不对称输入策略:随机为学生网络和教师网络分配不同模态组合。例如学生输入可能是[SAR+光学A],而教师处理[SAR+光学B],强制模型学习模态不变特征。
-
多尺度裁剪增强:对534×534的输入tile生成2个全局裁剪(分辨率≥256px)和8个局部裁剪(分辨率≤128px),所有裁剪都保留地理对齐特性。这种设计使模型同时学习全局场景理解和局部细节特征。
-
动量教师更新:教师网络的参数通过学生网络参数的指数移动平均(EMA)更新,动量系数按余弦调度从0.996逐渐增加到0.999,确保训练稳定性。
3.2 双中心化机制详解
遥感数据中土地覆盖类别的长尾分布(如"树木"占比28.6%,"建筑"仅1.12%)会严重扭曲表示学习。TerraFM提出双中心化策略:
-
全局中心($c_g$):在整个数据集上计算的DINO标准中心向量,反映总体数据分布。
-
平衡中心($c_b$):仅从每个类别随机采样相同数量样本计算,缓解主导类别的影响。
-
自适应融合:教师网络输出的logits调整为:
$$
\hat{z} = \frac{z - (\alpha c_g + (1-\alpha)c_b)}{\tau}
$$
其中α从1.0(初始)退火到0.7(最终),τ为温度系数。在12类土地覆盖分类中,该机制使稀有类别的召回率平均提升19.3%。
4. Major-TOM数据集构建方法论
4.1 数据采集与预处理流程
-
空间覆盖策略:从全球2.24M个10.68km×10.68km网格中,依据Köppen-Geiger气候分类和世界银行区域划分进行分层采样,确保涵盖12种气候类型和6大洲代表性区域。
-
多模态配准:使用ESA的Sen2Cor工具将Sentinel-2 L1C大气校正为L2A产品,再通过GRD-to-RTC流程处理Sentinel-1数据,最终保证三模态数据空间对齐误差<1个像素。
-
海洋样本处理:虽然海洋占地球表面71%,但直接包含所有海洋样本会导致模型偏斜。解决方案是:
- 使用MOD44W水体掩膜识别纯海洋区域
- 随机保留2%海洋样本维持模型对海岸带的理解
- 对近海区域(距岸线<50km)全部保留
4.2 智能采样与数据增强
针对土地覆盖长尾分布,采用基于WorldCover2020标签的混合采样:
-
空间分层:将每个网格划分为4个534×534子区域时,确保至少1个子区域包含稀有类别(如城市区域)。
-
光谱增强:
- 对光学波段应用随机线性扰动:$X' = AX + b$,其中A∈R^{13×13}为对角占优矩阵
- 对SAR数据模拟不同入射角效果:$VV' = VV \cdot \sqrt{\cosθ/\cosθ_0}$
-
几何增强:
- 限定旋转角度在[-15°,15°]内(避免破坏建筑物朝向特征)
- 采用地理对齐的弹性变形处理农田区域
5. 实验分析与应用实践
5.1 基准测试结果对比
在GEO-Bench的7项任务中,TerraFM展现出显著优势:
| 任务类型 | 指标 | 现有最佳 | TerraFM | 提升幅度 |
|---|---|---|---|---|
| 土地覆盖分类 | mAcc | 68.2 | 73.5 | +5.3 |
| 建筑物分割 | mIoU | 52.7 | 61.4 | +8.7 |
| 道路提取 | F1-score | 71.3 | 76.8 | +5.5 |
| 零样本洪涝检测 | AUC | 88.5 | 93.2 | +4.7 |
特别值得注意的是,在仅使用SAR数据进行建筑物检测的跨模态任务中,TerraFM相比单模态专用模型仍保持96%的性能,证明其真正掌握了跨模态的通用表示。
5.2 实际部署优化技巧
-
计算效率优化:
- 对固定区域应用时,可预计算并缓存transformer的K/V矩阵
- 使用动态token修剪技术,在推理时丢弃低注意力权重的背景区域token
-
领域自适应策略:
- 当应用于新区域时,只需微调最后的适配器层(Adapter)
- 建议收集至少50个目标区域样本进行分布校准
-
多时相分析技巧:
- 将时间维度作为额外模态处理
- 在跨注意力层引入可学习的位置编码表示时间差
遥感基础模型的发展正在重塑我们对地球观测的理解方式。在实际项目中,我们注意到两个关键经验:首先,模型对云覆盖区域的表现仍不稳定,建议配合质量控制掩膜使用;其次,在超高分辨率影像(如0.5m)应用时,需要调整patch大小以避免细节丢失。随着更多模态(如高光谱、LiDAR)的引入,这类统一架构的价值将更加凸显。