几何定理自动证明一直是人工智能领域最具挑战性的任务之一。在数学奥林匹克竞赛(IMO)中,几何题目往往需要创造性的辅助构造和复杂的多步证明,这对AI系统提出了极高的要求。传统方法如AlphaGeometry系列依赖专家模型和大规模合成数据(通常需要数亿训练样本),通过穷举搜索可能的证明路径来解决问题。这种范式虽然取得了不错的效果,但存在三个根本性局限:
关键观察:人类选手解决几何问题的核心能力在于通过"试探-验证-反思"的迭代过程逐步构建证明思路,而非依赖预设的构造规则。
InternGeometry的创新之处在于将大语言模型(LLM)的推理能力与符号引擎的精确性相结合,构建了一个动态交互的证明系统。其核心工作流程分为四个阶段:
python复制# 典型交互流程示例
def geometric_reasoning(problem):
memory = DynamicMemory()
for step in range(MAX_STEPS):
thought, action = llm_generate(problem, memory)
feedback, engine_state = symbol_engine.execute(action)
memory.update(thought, action, feedback)
if problem_solved(engine_state):
return construct_proof(memory)
return None
长程推理面临的核心挑战是上下文窗口限制。InternGeometry通过动态记忆模块实现历史信息的智能压缩:
这种设计使得系统能在200+轮交互中保持高效推理,相比固定窗口的Transformer模型有显著优势。
传统强化学习在数学推理中面临稀疏奖励问题。CBRL通过渐进式难度提升解决了这一挑战:
技术细节:优势函数计算采用标准化后的步级奖励,确保不同复杂度问题的可比性。
高质量训练数据的合成是CBRL成功的关键:
实验表明,这种数据合成方法仅需13K样本就能达到超越人类金牌选手的水平,数据效率是AlphaGeometry2的25,000倍。
为避免长程推理中的动作退化问题(如重复输出),系统实现了多条件检查机制:
在开源Newclid系统基础上进行了三项关键改进:
这些改进使单次交互延迟控制在200ms内,保障了长程推理的可行性。
在2000-2024年50道IMO几何题测试中:
| 模型 | 训练数据量 | 解题数量 | 超越金牌选手 |
|---|---|---|---|
| AlphaGeometry2 | 300M | 42 | No |
| SeedGeometry | 230M | 43 | No |
| InternGeometry(本) | 13K | 44 | Yes |
特别地,在2018年第6题中,系统发现了人类解答中未出现的创新构造:
消融实验证明交互步数直接影响性能:
| 最大步数 | Pass@16 | Pass@64 | Pass@256 |
|---|---|---|---|
| 64 | 31% | 52% | 68% |
| 128 | 38% | 61% | 79% |
| 200 | 44% | 67% | 88% |
在部署InternGeometry过程中,我们积累了以下关键经验:
一个典型的失败案例是2006年第1题,因涉及非纯几何计算超出DDAR表达能力。这提示我们未来需要增强符号引擎的代数处理能力。
该方法论可推广至其他需要长程推理的领域:
当前限制主要来自符号引擎的表达能力,未来结合更强大的形式化验证工具可进一步扩展应用边界。