当前大型语言模型(LLMs)与智能体框架的融合正在重塑人工智能的应用边界。这种技术组合已经从简单的对话场景扩展到能够处理复杂任务执行的自主代理系统。然而,现有的评估体系在衡量这些智能体在真实场景中的经济价值时,暴露出两个关键缺陷:
首先,现有基准测试普遍缺乏对长周期任务的覆盖。典型的评估场景往往只涉及10-20次工具调用和数万token的交互,这与真实世界中需要持续数小时、消耗百万级token的复杂工作流程相去甚远。例如,开发一个完整的五子棋游戏需要维护跨多个开发阶段的上下文一致性,而现有基准无法有效评估这种长期记忆和规划能力。
其次,评估过程过度依赖人工干预。在现实任务中,智能体通常需要根据多轮反馈进行自我修正,但现有方法要求人类专家持续介入评估,这不仅成本高昂,也难以实现标准化。这种"人在回路"(human-in-the-loop)的瓶颈严重限制了评估的规模和可重复性。
AGENCYBENCH采用三级分层设计来模拟真实世界的复杂性:
核心能力维度:选取6个最具经济价值的领域:
场景设计:每个能力维度下设置4-6个真实场景,共32个场景。例如在游戏开发中,包含"实现五子棋悔棋功能"、"添加游戏存档系统"等渐进式任务链。
具体任务:每个场景分解为3-5个具体任务,总计138个任务。任务间存在逻辑依赖,前序任务的输出直接影响后续任务输入,强制要求智能体维持长周期上下文。
框架包含三个关键组件:
隔离工作区:每个任务在独立的Docker容器中执行,配备完整工具链(文件操作、命令行、网络搜索等)。智能体通过多轮交互生成原始交付物。
用户模拟代理:基于Claude-4-Sonnet构建的反馈系统,当交付物评分低于阈值时自动生成改进建议。经人工验证,其反馈与人类专家的一致性评分达4.69/5。
多模态评估系统:
典型场景(如五子棋开发)包含5个阶段任务,建模为马尔可夫决策过程:
code复制τ = (τ₁, τ₂, τ₃, τ₄, τ₅)
其中每个子任务τᵢ包含:
这种设计确保智能体必须处理任务间的长期依赖,例如第五阶段"添加诊断侧边栏"需要正确读取第一阶段初始化的棋盘状态。
通过以下机制保证评估可行性:
在138个任务上的综合评分显示:
| 模型类型 | 平均得分 | 最佳表现场景 | 最弱表现场景 |
|---|---|---|---|
| 闭源模型 | 48.4% | 前端开发(Gemini-3-Pro 81.0%) | 代码生成(Claude-4.5-Opus 24.0%) |
| 开源模型 | 32.1% | 研究(GL M-4.6 49.8%) | MCP工具使用(Qwen-3 20.9%) |
特别值得注意的是GPT-5.2在反馈驱动改进方面的优势:当允许2轮反馈时,其通过率从28.1%提升至53.1%(+88.9%),而同类模型平均提升仅40-50%。
通过两个维度衡量资源使用效率:
尝试效率 = 平均得分 / 平均尝试次数
令牌效率 = 平均得分 / 百万token消耗
不同模型展现出显著的行为差异:
| 模型 | 首选工具类型 | 使用占比 |
|---|---|---|
| Claude-4.5-Opus | Shell命令 | 45.5% |
| Gemini-3-Pro | 文件操作 | 77.6% |
| Grok-4.1-Fast | 网络搜索 | 9.5% |
| Qwen-3-235B | 内存管理 | 6.9% |
基于测试结果,给出以下优化策略:
上下文窗口利用:
工具调用优化:
反馈利用:
当前框架存在两个主要限制:
通过一个具体场景展示评估流程:
任务链:
关键评估点:
典型问题: