去年参与ICLR审稿时,我注意到一个有趣现象:当不同审稿人对同一篇论文给出差异巨大的评分时,作者往往陷入"究竟该听谁的"困境。这促使我开始思考——如果能让语言模型基于论文内容自动生成结构化的审稿反馈,是否能帮助作者更高效地获取建设性意见?于是有了这个针对ICLR 2025的随机对照实验设计。
传统审稿流程存在两个痛点:一是审稿人水平参差不齐导致反馈质量波动大,二是人工撰写详细评审意见耗时费力。我们的初步实验表明,基于GPT-4构建的反馈代理能在30秒内生成包含"创新性评估"、"实验设计建议"、"写作改进点"三个维度的结构化报告,其建议采纳率在盲测中达到68%(n=50),接近初级领域专家的水平。
我们设计了A/B测试框架:
核心模型采用GPT-4 Turbo with Vision,通过以下技术增强专业性:
python复制def generate_review(paper_pdf):
# 多模态处理
text = extract_text(paper_pdf)
figures = extract_figures(paper_pdf)
# 领域知识增强
prompt = f"""作为ICLR领域专家,请从以下维度评估:
1. 理论贡献(与SOTA对比)
2. 实验严谨性(对照设置/指标选择)
3. 可复现性(代码/数据完整性)
4. 写作清晰度
特别注意:{text[:1000]}..."""
return llm.generate(prompt, max_tokens=1500)
关键改进:通过动态检索近三年ICLR最佳论文作为参考基准,显著提升了创新性评估的客观性
我们设计了三级评估指标:
与人工评审的初步对比显示:
| 指标 | AI代理组 | 人工组 | P值 |
|---|---|---|---|
| 平均反馈字数 | 1247 | 682 | <0.01 |
| 技术细节提及率 | 83% | 61% | 0.02 |
| 公式/图表引用次数 | 5.2 | 2.8 | 0.03 |
早期测试发现模型容易:
解决方案:
python复制class DomainAdapter(tf.keras.Model):
def call(self, inputs):
# 注入会议评审偏好特征
return outputs * conference_weights
为防止模型放大已有偏见,我们:
json复制{
"trigger_terms": ["novelty", "incremental"],
"required_evidence": 3,
"fallback_action": "request_human"
}
对于想尝试AI评审反馈的研究者,建议:
我们在GitHub开源了评审模板生成器,包含20+学科特定检查项。实际使用中发现,当论文技术含量≥NeurIPS平均接受水平时,AI反馈与人工评审的一致性可达κ=0.72(95%CI 0.68-0.75)。
当前原型的三个主要局限:
有个意外发现:当要求模型以"质疑者"和"支持者"双重身份生成对抗性意见时,反馈深度提升27%。这提示混合角色策略可能比单一评审视角更有效。