大模型几何推理突破：Socratic-Geo框架解析与应用

梁培定

1. 几何推理：大模型的下一个挑战高地

几何推理能力一直是衡量人工智能系统认知水平的重要标尺。在人类教育体系中，几何学从小学延续到大学，正是因为它融合了视觉感知、逻辑推理和空间想象等多重认知能力。当我们将这一挑战迁移到多模态大模型（MLLM）领域时，问题变得尤为复杂。

当前最先进的大模型如GPT-4o、Claude 3等在通用语言理解和图像识别上已表现出色，但面对一道典型的几何证明题时，它们的表现往往令人失望。这不是因为模型"不够聪明"，而是几何问题对多模态理解和推理提出了独特要求：

传统的数据生成方法在这里遇到了瓶颈。静态的题库扩充无法针对模型弱点进行针对性训练，而完全随机的几何图形生成又效率低下——大部分生成的题目要么太简单，要么无解，难以形成有效的学习梯度。

Socratic-Geo框架的命名直接体现了其设计理念。如同古希腊哲学家苏格拉底通过提问引导学生发现真理一样，这个框架通过三个智能体的互动，实现了"教学相长"的良性循环：

这种设计突破了传统"预训练-微调"范式的局限，形成了一个动态进化的生态系统。框架的巧妙之处在于，它不依赖海量标注数据，而是通过智能体间的交互持续产生高质量的训练材料。

Teacher是整个框架的质量控制中心。与传统数据增强方法不同，它不是简单地变换已有题目，而是基于Solver的实际表现进行针对性出题。其核心工作流程包括：

例如，当发现Solver经常忽略圆幂定理的应用时，Teacher会生成一系列需要该定理的题目，并在图中添加可能提示该定理应用的视觉线索。

Solver的训练采用了纯强化学习(RL)范式，这与人类学习几何的过程惊人地相似：

这种设置迫使Solver发展出真正的推理能力，而非简单地记忆解题模式。实验证明，这种RL训练比传统的监督学习(SFT)效果更好，即使在相同数据量下也能获得约2%的性能提升。

Generator解决了一个关键问题：如何将Teacher程序化生成的精确几何图形，转化为神经网络可以理解的视觉概念。其创新点在于：

这种设计使Generator最终能够脱离Python代码的限制，直接根据文字描述生成符合几何约束的图形。

Teacher智能体的核心创新是Reflect-RePI（反思性编程干预）机制。这个机制确保了每个新生成的问题都具有教学价值：

错误模式分析：当Solver多次解答失败时，Teacher会：
- 解析Solver的错误推理链条
- 识别缺失或错误应用的几何定理
- 评估题目表述是否存在歧义
针对性修改：基于分析结果，Teacher会：
- 调整图形中的关键元素（如添加辅助线）
- 强化问题描述中的关键约束条件
- 确保修改后的题目针对原弱点
双重验证：新题目必须通过：
- 形式化验证：符合几何公理体系
- 实证验证：Teacher自己能正确解答