在AI技术快速发展的今天,一个反直觉的现象正在发生:各大科技公司竞相发布更强大的AI模型,但真正决定AI编程Agent实际表现的关键因素,却逐渐从模型本身转向了另一个鲜为人知的领域——Harness(约束系统)。这种现象在2026年变得尤为明显。
过去几年,我们见证了AI模型的飞速进步:
表面上看,这些模型的性能指标都在不断提升,但仔细观察会发现一个有趣的现象:顶级模型之间的能力差距正在缩小。当所有主要玩家都达到了某个基准线后,单纯依靠模型升级带来的边际效益正在递减。
这时,一个名为Can Bölük的开发者做了一个开创性实验:他不更换任何AI模型,仅仅通过改进编辑工具的格式(从str_replace到自创的hashline),就让Grok Code Fast 1的成功率从6.7%飙升到68.3%——提升了整整十倍。这个实验揭示了一个关键事实:在模型之外,存在着巨大的优化空间。
Harness可以被理解为AI模型之外的"装备系统",它包含但不限于以下组件:
《重构》作者Martin Fowler在其最新文章《Harness Engineering for Coding Agent Users》中给出了精辟定义:Harness由两部分组成——Guides(前馈控制)和Sensors(反馈控制)。前者在Agent行动前引导其做正确决策,后者在行动后帮助其自我纠正。
用比喻来说,AI模型就像一匹千里马,而Harness则是缰绳、马鞍和马蹄铁。没有合适的Harness,再强大的模型也难以发挥其全部潜力。
AI编程Agent的核心工作流程可以简化为:读取文件→理解问题→生成修改→写回文件。其中"写回文件"这一步看似简单,实则暗藏玄机。目前主流的编辑方案各有其显著缺陷:
| 方案类型 | 代表产品 | 核心问题 |
|---|---|---|
| apply_patch | Codex | 使用自定义diff格式,其他模型难以理解,Grok 4失败率达50.7% |
| str_replace | Claude Code | 要求模型完美复现原文每个字符(包括空格缩进),容错率极低 |
| 神经网络合并 | Cursor | 需要专门训练70B参数的大模型来处理编辑合并,小文件直接全文重写 |
JetBrains的Diff-XYZ论文和EDIT-Bench基准测试证实:没有任何一种编辑格式能在所有模型和场景下都表现最优。
Can Bölük提出的Hashline方案巧妙地解决了上述问题。其核心原理是:
示例格式:
code复制11:a3|function hello() {
22:f1| return "world";
33:0e|}
这种设计带来了显著优势:
在包含16个模型、3种编辑格式、每种540个任务的大规模测试中,Hashline几乎在所有模型上都匹配或超越了str_replace的表现。特别值得注意的是,Grok 4 Fast的输出token下降了61%——因为它不再需要消耗额外token进行多次重试。
GitHub stars: 26.5k | Commits: 2470+
核心特点:
安装示例:
code复制/plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode/
plugin install oh-my-claudecode
/setup
GitHub: https://github.com/code-yeongyu/oh-my-openagent
创新设计:
GitHub stars: 2.8k | Commits: 4018
技术亮点:
Anthropic推出的Claude Managed Agents采用三层解耦设计:
| 层级 | 功能 | 特点 |
|---|---|---|
| Brain | Claude + harness循环 | 决策核心 |
| Hands | 沙箱容器、工具执行 | 安全隔离 |
| Session | 事件日志 | 状态持久化 |
性能提升:
安全机制:
灵活架构:
前馈与反馈平衡:
模块化设计:
性能监控:
编辑工具选型:
错误处理:
安全防护:
虽然Harness工程已经展现出巨大价值,但仍存在一些待解决的挑战:
认知局限:
标准化:
自适应能力:
随着这些问题的逐步解决,Harness工程有望成为AI开发领域的重要学科,其价值将不亚于模型研发本身。对于开发者而言,掌握Harness设计技能将成为在AI时代保持竞争力的关键。