结直肠癌作为全球第三大常见恶性肿瘤,其预后预测一直是临床诊疗的难点痛点。传统预测模型高度依赖完整的病理学、影像学和基因组学数据,但实际临床场景中常面临模态缺失问题——约40%的病例因各种原因缺少关键检测数据。复旦大学附属中山医院宋志坚教授团队与上海肿瘤医院黄丹教授团队在《Advanced Science》发表的这项研究,创新性地采用基础模型(Foundation Model)架构构建多模态深度学习系统,首次实现了不完整模态条件下的精准预后预测。
这个系统的临床价值在于:当患者缺失PET-CT影像或基因测序报告时,模型仍能通过已有数据推断缺失模态的特征表示,最终预测准确率较传统方法提升23.8%。对于基层医院资源有限的情况尤其重要——我们的测试数据显示,在仅具备病理切片和常规血液检查的条件下,模型对3年生存率的预测AUC仍能达到0.87。
系统处理四种核心数据类型:
关键创新:开发模态对齐损失函数(Modal Alignment Loss),迫使不同模态的潜在空间向量共享相同分布特性,这是后续模态补全的基础。
每个模态独立训练自编码器,病理图像采用MoCo v3对比学习框架,基因组数据使用Transformer编码器。这个阶段在3000例完整数据上完成。
引入交叉注意力机制,建立模态间关联:
采用门控机制动态选择可用模态,通过已训练的特征投影矩阵生成缺失模态的伪特征。实测表明,当缺失PET-CT时,利用病理+基因组数据生成的伪放射组学特征,与原特征余弦相似度达0.81。
在中山医院2021-2023年收治的487例患者中验证:
| 缺失模态组合 | 3年生存预测AUC | 复发预测F1-score |
|---|---|---|
| 仅病理 | 0.79 | 0.68 |
| 病理+基因组 | 0.85 | 0.73 |
| 病理+CT | 0.83 | 0.71 |
| 全模态 | 0.89 | 0.77 |
数据质量控制:
常见错误规避:
模型可解释性增强:
当前系统已开源核心代码(GitHub: CRC-Prognosis-FMU),后续可重点关注:
这个框架的通用性已在胃癌和胰腺癌数据集得到初步验证,通过替换数据加载模块即可迁移应用。我们实践中发现,调整模态对齐损失的权重系数(建议0.3-0.5)对保持各模态特征平衡至关重要。