2025年下半年开始,一个名为"Harness Engineer"的新兴职位开始在AI行业崭露头角。这个角色正在重新定义AI工程师的工作边界,从OpenAI的技术博客到LangChain的开发者社区,从VC的投资报告到Twitter上的技术讨论,Harness Engineer正成为AI领域最炙手可热的职位之一。
简单来说,Harness Engineer就是为AI Agent设计和构建"操作系统"的工程师。如果把大模型比作一匹千里马,那么Harness就是它的马鞍和缰绳;如果把大模型比作CPU,那么Harness就是操作系统。没有Harness,再强大的模型也无法完成复杂的实际任务。
传统的大模型应用主要是单轮问答——用户提问,模型回答。比如你问"今天天气怎么样",模型回答"今天晴转多云,25度",交互就此结束。但随着GPT-4、Claude 3、Gemini等模型的进化,我们开始期待AI能够完成更复杂的多步骤任务。
想象这样一个场景:你对AI说"帮我写一个天气预报程序,部署到服务器上,设置每天早上8点自动发送天气提醒到我的邮箱"。这个任务涉及:
这类复杂任务不再是简单的"提问-回答"能解决的,而需要一个能够自主规划、调用工具、处理错误的完整系统——这就是AI Agent。而Harness Engineer的工作,就是为这些Agent构建可靠运行的"基础设施"。
大模型的能力突飞猛进,但它们存在一个根本性局限:虽然"很聪明",但不知道如何完成实际任务。就像一个博览群书却从未实践过的学生,理论知识丰富但缺乏实操能力。
Harness的出现解决了这个问题。根据LangChain团队的定义:
"Harness的目标是将模型那不稳定但强大的'智能'塑造成我们真正关心的任务表现。"
换句话说,Harness Engineer的工作是弥合模型能力与实际应用之间的鸿沟。这不是简单的API封装,而是构建一整套让AI能够可靠执行任务的机制,包括:
通过对行业实践的总结,Harness Engineer的职责可以归纳为五个关键领域:
与传统Prompt Engineering不同,上下文工程不是堆砌提示词,而是为Agent构建完整的认知框架。这包括:
OpenAI团队发现,直接把所有文档塞给Agent效果很差。他们最终采用的方案是:
中间件是Harness的核心组件,负责控制Agent的行为。常见中间件包括:
LangChain的实践表明,仅通过优化中间件,就能让编码Agent在Terminal Bench 2.0上的表现从Top 30提升到Top 5,分数提高13.7分。
Harness Engineer需要设计Agent可用的工具集,这包括:
Vercel团队发现一个反直觉的现象:移除80%的工具后,Agent的表现反而更好——步数更少、Token使用更少、响应更快。这说明工具设计需要精而非多。
有效的反馈机制是Agent持续改进的关键。Harness Engineer需要构建:
OpenAI采用"AI垃圾回收"机制,定期扫描代码库,识别并修复模型引入的不良模式。
这是Claude Code团队特别强调的一点:工具设计应该从模型的角度出发。Thariq提出的思考方式是:
"想象你在解决一个数学难题,你需要什么工具?这取决于你自己的能力!"
这意味着:
Harness Engineer与相关角色的区别可以用光谱模型来理解:
| 角色类型 | 特点 | 代表技术 |
|---|---|---|
| 原始代码开发 | 完全从零开始,最大灵活性 | 直接调用API |
| Agent框架开发 | 提供组件和架构,需要自行组装 | LangChain, LlamaIndex |
| Harness Engineer | 提供完整解决方案,开箱即用 | OpenClaw, Claude Code |
Harness Engineer更接近"产品工程师",他们关注的是如何将模型能力转化为可靠的终端用户体验,而不仅仅是技术实现。
LangChain团队发现,Agent有一个致命弱点:迷之自信。它们经常在完成任务后简单确认"看起来没问题"就停止了,而实际上可能存在各种错误。
解决方案是引入PreCompletionChecklistMiddleware,强制Agent在退出前完成验证:
这种机制将工作流程从"计划→执行→结束"变为"计划→执行→验证→修复",显著提高了输出质量。
LocalContextMiddleware解决了Agent的"环境感知"问题。它提供:
这相当于给Agent一张"工作地图",而不是扔给它一本厚重的说明书。OpenAI发现,过长的AGENTS.md文件反而会导致Agent"选择性忽略"重要内容。
LoopDetectionMiddleware解决了Agent的"钻牛角尖"问题。它会:
这模拟了人类"退一步思考"的能力,当一条路走不通时,及时改变策略。
LangChain在Terminal Bench 2.0上的实验发现,不同任务阶段需要不同的推理强度。他们提出的"推理三明治"策略:
全程使用最强推理反而会因耗时过长而超时,合理分配推理预算是Harness Engineer的重要技能。
OpenAI采用分层架构和自定义Linter来约束Agent行为:
这种架构设计确保了代码库的一致性和可维护性,即使所有代码都由Agent生成。
OpenAI公布了一个惊人数据:5个月内构建了100万行代码的产品,没有一行人工编写的代码。这相当于:
Agent现在可以:
通过优化Harness(不更换模型),LangChain将编码Agent的表现:
这证明Harness工程不是锦上添花,而是决定成败的关键因素。
从历史角度看,Harness Engineering是控制论的新体现:
Harness Engineer的核心工作是:
这不是在编码,而是在构建"控制系统"。
要成为Harness Engineer,需要掌握以下技能:
AI模型理解:
软件工程能力:
工具链精通:
产品思维:
基础阶段:
进阶阶段:
专业阶段:
对于想转型Harness Engineer的开发者,建议:
从改造现有项目开始:
参与开源项目:
构建自己的工具库:
Harness Engineering是一个新兴领域,最佳实践仍在形成中。现在进入,你不仅是在学习,也是在共同定义这个角色的未来。