去年在给哲学系研究生批改论文时,我注意到一个现象:即使是专业学习者,面对复杂论证时也常陷入"看得懂字面意思,理不清逻辑脉络"的困境。这促使我启动了Argunauts项目——通过Argdown标记语言训练大语言模型(LLMs),使其具备专业级的论证分析能力。
Argdown是一种专门用于结构化复杂论证的标记语言,它就像给混乱的辩论现场安装了一个逻辑GPS。举个例子,当我们在讨论"是否应该推行碳税政策"时,Argdown能清晰标注出每个论点、子论点、反驳和证据之间的支持关系,形成可视化的论证地图。这种能力在当前主流LLMs中几乎不存在,因为预训练数据中极少包含规范的逻辑分析案例。
关键突破点:让LLMs不仅理解自然语言表面含义,还能像专业哲学家那样识别论证结构、评估推理有效性,并用标准化格式输出分析结果。
在Github上搜索各标记语言的代码存量时,我们发现:
| 语言 | 搜索语法 | 文件数量 |
|---|---|---|
| YAML | ```yaml | 180万 |
| Mermaid.js | ```mermaid | 257K |
| Argdown | ```argdown | 266 |
这种数据稀缺带来两个层面的问题:
解决方案是采用"教科书合成法":
论证分析不是单一任务,而是需要协调多个认知模块的复杂工程。我们将其分解为:
这就像教AI玩俄罗斯方块时,需要同时训练图形识别、空间预测和操作决策三个子系统。我们的训练策略是:
采用三阶段混合训练框架:
python复制# 伪代码示例
for epoch in range(total_epochs):
if epoch < 10: # 语法适应期
train_on_argdown_syntax_examples()
elif epoch < 30: # 能力构建期
train_on_analysis_demonstrations()
else: # 综合应用期
train_on_full_pipelines(
text_inputs,
expected_outputs,
verification_tools=argdown_parser
)
关键参数配置:
开发了基于规则和模型的双重验证系统:
典型错误捕获示例:
code复制[原始文本] "因为吸烟导致癌症,所以应该禁止吸烟"
[模型输出]
<<<
(1) [Premise] 吸烟导致癌症
(2) [Conclusion] 应该禁止吸烟
>>>
[验证反馈] Missing warrant(缺少前提到结论的推理依据)
在哲学系课堂进行的盲测中,Argunauts展现出令人惊讶的分析能力:
案例:动物伦理辩论
argdown复制# 素食主义论证
[主张]: 应该停止食用动物
+ <支持> [前提1]: 动物能感受痛苦
+ <支持> [前提2]: 造成痛苦在道德上是错误的
- <质疑> [反驳]: 植物也可能有意识
+ <回应> 目前没有证据表明植物有痛觉神经
模型成功识别出:
经过半年迭代,当前模型在标准论证分析任务上的表现:
| 指标 | 初始版本 | 当前版本 |
|---|---|---|
| 结构识别准确率 | 58% | 89% |
| 逻辑谬误检出率 | 32% | 76% |
| Argdown语法正确率 | 41% | 93% |
这个项目最让我意外的发现是:当LLMs真正理解论证结构后,其生成的哲学评论反而比许多人类写得更严谨。或许正如维特根斯坦所说,哲学的混乱常源于语言使用的混乱,而强制性的形式化表达恰恰能根治这个问题。接下来我计划将训练数据中的经典哲学论证比例从当前的15%提升到30%,进一步测试模型在专业领域的深度分析能力。