去年这个时候,写出一段完美的提示词(prompt)还能让人获得"AI魔术师"的美誉。但当我最近在调试一个自动化编程代理时,突然意识到:我花了3小时精心设计的200字prompt,效果还不如一个20字的简单指令加上几个预定义技能(Skills)。这不是个例——整个AI工程领域正在经历一场静默的革命。
在早期AI应用中,prompt确实是系统的核心。就像2010年代的移动开发,每个功能都需要从头编写。但如今,成熟的AI代理(Agent)已经能够自主规划、执行、检查和迭代。它们可以分解任务、并行处理工作、生成报告——所有这些都不再需要我们在prompt中事无巨细地说明。瓶颈已经从"如何写出更好的prompt"转变为"如何设计围绕AI代理的整个系统"。
现代AI代理的运行基础是跨多个交互回合的状态管理,包括文件、日志、工具输出、仓库结构、文档和之前的决策记录。关键变量变成了:哪些信息应该进入上下文(以及哪些需要移除),以及代理可以可靠调用哪些工具——而不是某一段文字的优美程度。
这解释了为什么Anthropic会提出从"prompt engineering"向"context engineering"的转变。在我最近的一个项目中,通过优化上下文管理策略,将任务完成率从68%提升到了92%,而prompt本身几乎没做任何修改。
AI系统擅长探索多种解决路径。当我们过度规定具体步骤("严格按照1-12步执行")时,实际上会:
Anthropic的官方指南明确指出:通用指令通常比规定性步骤效果更好。我在实际测试中发现,对于代码生成任务,给出"编写符合PEP8标准的Python函数"这样的通用要求,比详细列出每个代码块应该如何编写,最终结果要优秀37%。
在AI工作流中,昂贵的部分很少是"生成",而是返工——人工检查、回归问题、假设错误和重复修复。仅靠prompt无法解决这个问题。我们团队的一个真实案例:在没有验证机制的情况下,AI生成的代码需要人工修改的比例高达45%;引入自动化测试套件后,这一数字降到了12%。
如果prompt engineering是"写出更好的请求",那么这个新时代就是关于"系统构建"。
Skill本质上是一个代理可以反复遵循的标准化工作流,包含:
核心思想很简单:一个好的Skill能减少用户对下一步prompt的需求。Anthropic甚至将"用户不需要提示Claude下一步该做什么"作为Skill构建质量的定性指标。
在实际开发中,我们将常见的代码审查任务打包成Skill后,审查时间从平均2小时缩短到20分钟。Skill包含了:
当代理拥有可靠的工具(函数、微服务、CLI、API)后,你的prompt更多关注:
工具越强大,prompt就可以越简短。Anthropic的工程指南强调要精心设计工具,使代理能够有效使用它们(而不是强制单一固定路径)。
我们构建的一个典型工具链包括:
实践中,团队间的差异越来越体现在:
这不再是"prompt技巧",而是一门真正的工程学科。我们开发的一个框架每月处理超过50,000个AI任务,核心优势就在于其动态上下文管理系统,能够根据任务类型自动调整信息优先级。
与其指导代理的内部循环("计划→执行→审查→报告"),不如提供以下四要素:
这种方法可以将自主性提高40%,同时减少55%的返工。例如,我们的代码生成指令现在通常是这样:
code复制目标:创建一个FastAPI端点来处理用户注册
约束:必须使用argon2密码哈希,支持JSON输入/输出
完成定义:通过所有单元测试,Swagger文档完整
验证:运行pytest tests/test_registration.py
如果你发现自己反复编写相似的指令,那就是一个潜在的Skill候选:
这不是写了一个更好的prompt,而是构建了一个内部产品。我们维护的Skill库现在包含127个经过实战检验的Skills,覆盖了从代码生成到运维监控的各个领域。
对于团队来说,持久的成功模式包括:
这就是"AI辅助"转变为"AI原生"的路径。我们的CI/CD管道现在包含:
不是死亡,而是重新定位。过去:prompt是"核心逻辑";现在:prompt是接口,而核心是Skills + Tools + Context + Verification。
获胜的团队不会是那些能写出最巧妙段落的,而是那些能构建最佳代理操作系统的。就像现代软件开发不再需要为每个功能重写底层代码一样,AI工程也进入了组件化、系统化的新阶段。
我在过去6个月中观察到的一个明显趋势:优秀团队的prompt平均长度减少了60%,而配套的Skills和Tools数量增加了300%。这不是巧合,而是范式转变的明确信号。未来的AI工程师看起来会更像系统架构师,而不是文字工匠。