AI Agent安全防护：三维分类法与轨迹监控技术

老爸评测

1. AI Agent安全防护的现状与挑战

在大型语言模型（LLM）技术快速发展的背景下，AI Agent已经展现出处理复杂任务规划和工具调用的强大能力。然而，这种自主性和灵活性也带来了前所未有的安全挑战。传统的基于内容过滤的安全防护方案，如LlamaGuard和Qwen3Guard等，在面对AI Agent特有的动态风险场景时显得力不从心。

1.1 传统安全方案的局限性

当前主流的内容安全过滤模型主要存在两个关键缺陷：

缺乏对智能体特有风险的认知：这些模型主要针对单轮对话中的有害内容进行过滤，无法有效识别在多步工具调用过程中产生的复合风险。例如，一个看似无害的工具调用序列，可能在执行过程中逐步积累风险，最终导致严重后果。
缺乏溯源和透明度：传统的"安全/不安全"二元分类无法提供足够的诊断信息。当AI Agent采取看似安全但实际上不合理的行动时，这种粗粒度的判断标准会遗漏潜在风险。

提示：在实际部署中，我们发现很多安全事件并非来自明显的恶意指令，而是源于工具调用链中的参数传递错误或上下文误解。这种"温水煮青蛙"式的风险积累特别危险。

1.2 AI Agent特有的安全威胁

AI Agent在运行过程中面临的安全威胁可以归纳为以下几类：

工具调用风险：包括恶意工具执行、工具描述注入、损坏的工具反馈等。例如，攻击者可能篡改API描述，诱导Agent调用带有恶意参数的合法工具。
环境观察误导：Agent通过网页、文档等环境观察获取的信息可能包含间接提示注入或不可靠信息，导致后续决策偏差。
内部逻辑缺陷：LLM固有的幻觉问题、错误推理或工具选择失误，即使在无外部干扰的情况下也可能导致不安全行为。
过程性风险：在多步执行中，Agent可能偏离预定流程，采取未经验证或过度特权的操作，如未经确认就执行高风险命令。

2. AgentDoG的三维安全分类法

针对上述挑战，AgentDoG提出了创新的三维安全分类法，从风险来源、失效模式和现实危害三个正交维度构建全面的安全评估框架。

2.1 风险来源维度

风险来源维度回答"风险从何而来"的问题，将风险源头分为四大类：

用户输入风险：
- 恶意用户指令或越狱尝试
- 直接提示注入（在看似正常的指令中嵌入恶意内容）
环境观察风险：
- 间接提示注入（通过观察的网页、文档等载体嵌入恶意指令）
- 不可靠或错误信息（环境提供的噪声或误导性数据）
外部实体风险：
- 工具描述注入（篡改工具/API的描述信息）
- 恶意工具执行（工具本身存在未公开的恶意行为）
- 损坏的工具反馈（工具返回被污染的响应）
内部逻辑风险：
- LLM固有缺陷（幻觉、错误推理等）
- 工具选择失误
- 任务意图理解偏差

2.2 失效模式维度

失效模式维度描述"风险如何表现"，分为行为失效和内容失效两大类：

行为失效模式：

未确认或过度特权的操作（如未经授权执行高风险命令）
有缺陷的规划或推理（逻辑错误的任务分解）
工具使用不当（参数错误、选择恶意工具等）
不安全交互（执行不可信代码、点击钓鱼链接等）
流程偏离或不作为（跳过关键验证步骤）

内容失效模式：

生成有害或冒犯性内容
提供非法活动指导
生成恶意可执行文件
未经授权的信息披露
提供不准确或未经核实的信息

2.3 现实危害维度

现实危害维度评估"风险会造成什么实际损害"，包括但不限于：

隐私与机密性损害
财务与经济损害
安全与系统完整性损害
物理与健康损害
心理与情感损害
声誉与人际关系损害
信息生态与社会损害
公共服务与资源损害
公平性与分配性损害
功能性与机会损害

注意：这三个维度不是简单的层级关系，而是可以自由组合的分析视角。例如，一个风险可能源自用户输入（来源维度），表现为工具参数错误（失效模式），最终导致财务损失（现实危害）。

3. AgentDoG的技术实现

3.1 轨迹级安全监控

与传统的内容安全过滤不同，AgentDoG采用轨迹级监控方法，对整个Agent执行过程进行细粒度分析。一个典型的监控流程包括：

轨迹解析：将Agent执行过程分解为离散的步骤序列，每个步骤包含动作和观察对（a_i, o_i）。
安全评估：对每个步骤应用三维分类法进行评估，判断是否存在不安全行为。
风险诊断：对于被标记为不安全的步骤，进一步分析具体的风险来源、失效模式和潜在危害。
防御响应：根据诊断结果采取相应的缓解措施，如终止危险操作、请求用户确认或切换到安全模式。

3.2 数据合成与训练

为了训练AgentDoG模型，研究团队开发了创新的数据合成流水线：

计划阶段：
- 从三维分类法中采样风险配置组合
- 设计多步任务计划，明确风险注入点
- 选择适用的工具集
轨迹合成阶段：
- 生成初始用户查询（可能是恶意的或良性的）
- 模拟工具交互，在指定点注入风险
- 根据安全/不安全设定生成Agent响应
- 组装完整的多轮交互轨迹
质量控制：
- 结构验证（完整的回合结构、可解析的工具调用）
- 语义一致性检查（轨迹内容与风险标签匹配）
- 攻击成功率验证（不安全轨迹必须展示实际危害）