在2025年之前,AI编程助手领域一直处于各自为政的状态。不同厂商和开发者社区使用着五花八门的上下文文件命名:GEMINI.md、CLAUDE.md、copilot-instructions.md等等。这种碎片化局面直到OpenAI、谷歌、Cursor和Sourcegraph联合推出AGENTS.md标准才得以终结。如今,这个文件已经成为开源项目的标配——根据2026年的统计,超过60,000个开源项目在根目录下包含了这个文件。
AGENTS.md本质上是一个为AI编程助手设计的"使用说明书"。典型的文件内容会包含:
开发者们期望通过这些结构化信息,帮助AI助手更快理解项目上下文,减少"愚蠢错误"。但现实情况是,很多项目只是机械地添加了这个文件,却很少考虑它实际对AI工作的影响。
斯坦福大学的研究团队在论文《Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?》中,通过严谨的实验设计验证了这个问题的答案。他们采用了两个互补的数据集:
SWE-Bench Lite:包含300个Python仓库级别的任务,这些仓库原本没有开发者编写的context file。研究团队在这里测试"自动生成context file"的效果。
AGENTBENCH:专门收集了12个带有开发者编写context file的Python仓库,从中提取出138个真实PR/issue实例(包括bug修复和功能开发)。
实验设置了三种对照条件:
init/提示词自动生成context file实验结果打破了很多人对AGENTS.md的乐观预期:
LLM自动生成的文件总体呈现负收益:
开发者手写的文件效果略好但不够稳定:
这个发现与之前《你现在给AI用的Agent Skills可能毫无作用,甚至还拖后腿?》一文中的结论相呼应:AI自己实现并维护的skills往往起不到正向作用,因为模型无法可靠地"写出"自己在执行时真正会受益的程序性知识。
通过分析AI助手的执行轨迹,研究发现context file会显著改变Agent的行为模式:
这些行为变化看似是"更谨慎"的表现,但实际上并没有转化为更高的任务完成率。就像人类开发者一样,AI也会陷入"过度工程"的陷阱——做了很多看似合理但实际上不必要的检查和工作。
很多AGENTS.md会包含项目结构概览,开发者期望这能帮助AI更快定位关键文件。但实验数据表明:
问题可能出在常见的"目录树"式写法上。这种泛泛的描述信息密度低,无法直接指向任务实际需要修改的部分。
研究团队特别关注了context file对资源消耗的影响:
输入Token增加:
推理Token上涨:
执行时间延长:
研究发现一个有趣的例外:当项目原本文档非常差或缺失时,LLM生成的AGENTS.md确实能带来明显改善。这就像从20分提升到70分,远比从70分到90分容易。
基于研究结果,我们总结出以下最佳实践:
内容聚焦关键差异点:
采用任务导向的结构:
markdown复制## 常见任务路由
- 新增API:先修改api/routes.py和schemas.py
- 修复数据库问题:检查migrations/和models.py
## 典型Bug排查路径
- 日志位置:/var/log/app/error.log
- 功能开关:config/features.toml
控制文档规模:
AGENTS.md[transcript:lines 847-1023]正面引导优于负面禁止:
定期审查和精简:
论文结论在Hacker News等社区引发了热烈讨论,主要争议集中在:
领域知识的缺失:
指标局限性:
4%提升的意义:
基于当前研究,我们认为AGENTS.md技术有几个可能的发展方向:
动态上下文加载:
分层文档体系:
反馈驱动的优化:
可视化辅助工具:
在实际项目中,我们团队已经采用了一种混合方法:保留精简的全局AGENTS.md,同时在关键模块目录中添加TASKS.md。这种结构既避免了上下文污染,又能针对特定任务提供精准指引。经过三个月的数据追踪,我们发现这种做法的平均任务成功率提升了6.8%,而成本仅增加5.3%,达到了较好的平衡。