LLM驱动的Agentic Search行为分析与优化实践

埃琳娜莱农

1. Agentic Search行为分析：从1400万次搜索请求中洞察LLM代理的搜索模式

在信息检索领域，我们正见证着一场由大型语言模型(LLM)驱动的范式转变。传统的单次查询-结果列表模式正在演变为更复杂的多步交互过程，我们称之为Agentic Search（代理式搜索）。这种新型搜索模式中，智能代理自主规划搜索策略，通过迭代式查询重构和上下文整合来完成复杂的信息获取任务。

最近来自卡耐基梅隆大学的研究团队基于DeepResearchGym平台的1400万次真实搜索请求，对Agentic Search行为进行了迄今为止最大规模的实证分析。这项研究揭示了LLM代理在开放环境中的搜索模式、意图分类与查询重构策略之间的关联，以及跨步骤上下文复用的关键作用。作为从业者，我认为这些发现对优化搜索系统设计具有直接指导意义。

2. Agentic Search的核心特征与技术架构

2.1 与传统搜索的本质区别

传统搜索引擎依赖用户手动调整查询语句，而Agentic Search的核心创新在于将查询重构过程自动化、智能化。在技术实现上，这通常包含三个关键组件：

意图理解模块：解析用户的初始信息需求（如"如何配置Python虚拟环境"）
策略规划模块：制定多步检索计划（先查概念，再查具体命令）
上下文管理模块：维护历史检索结果，指导后续查询重构

python复制# 简化的Agentic Search伪代码示例
def agentic_search(initial_query):
    context = []
    current_query = initial_query
    
    for step in range(MAX_STEPS):
        results = retrieve(current_query, top_k=10)
        context.append((current_query, results))
        
        if satisfaction_check(results):
            return format_output(results, context)
            
        new_query = reformulate(current_query, results, context)
        current_query = new_query

2.2 DeepResearchGym的技术栈

研究使用的DeepResearchGym平台提供了标准化的实验环境：

检索后端：基于ClueWeb22和FineWeb语料的稠密检索系统
API设计：固定参数保证实验结果可复现
日志记录：完整保存查询序列、时间戳和检索参数

重要提示：在实际系统设计中，需要特别注意检索深度(top_k)的设置。研究发现大多数代理固定使用K∈{1,5,10}，这可能导致某些场景下检索不足或资源浪费。

3. 多步搜索会话的行为模式分析

3.1 会话长度与时间特征

通过对397万次会话的分析，我们发现几个关键模式：

会话长度分布：
- 47.77%为单次查询（简单事实查找）
- 90%的多轮会话在10步内完成
- 平均会话长度：Declarative(4.03步)、Procedural(3.81步)、Reasoning(4.03步)
时间间隔特征：
- 56.12%的步骤间隔在0-10秒
- 89.21%的间隔小于1分钟
- 中位步骤延迟：Declarative(17秒)、Procedural(13秒)、Reasoning(14秒)

3.2 意图分类与行为差异

研究采用三类意图分类法，各类别表现出显著不同的搜索策略：

意图类型	占比	典型特征	查询重构模式
Declarative	88.64%	事实查找，高重复率	33.69%为重复查询
Procedural	3.96%	操作指南，深度检索	27.99%专业化重构
Reasoning	7.41%	复杂分析，广泛探索	47.57%探索性重构

4. 查询重构策略与技术实现

4.1 四种基本重构模式

研究发现查询重构主要遵循四种模式，每种模式对系统性能有不同影响：

专业化(Specialization)：添加约束条件（21.76%）
- 示例："机器学习" → "监督学习分类算法"
- 技术实现：通常通过AND连接新条件
泛化(Generalization)：放宽查询范围（9.02%）
- 示例："Python 3.8安装" → "Python安装"
- 风险：可能引入无关结果
探索(Exploration)：主题内多角度尝试（37.07%）
- 示例："神经网络架构" → "深度学习优化器"
- 特点：结果重叠率仅7.35%
重复(Repetition)：近义词重试（32.15%）
- 示例："新冠症状" → "COVID-19临床表现"
- 问题：可能陷入无效循环

4.2 上下文驱动的术语采纳率(CTAR)

研究提出的CTAR指标量化了代理如何利用历史检索结果：

code复制CTAR = (新查询词∩上下文词) / 新查询词总数

关键发现：

平均54%的新查询术语来自历史结果
早期步骤的贡献占比达28%
Reasoning任务的跨步骤复用率最高

5. 系统优化建议与实践经验

5.1 检索预算的动态分配

基于意图识别实现差异化配置：

python复制def get_retrieval_budget(intent):
    if intent == "Declarative":
        return 5  # 浅层检索
    elif intent == "Procedural":
        return 20 # 深度检索
    else:
        return 10 # 默认值

5.2 早期停止策略优化

针对重复模式的检测算法：

计算连续查询的Jaccard相似度
设置滑动窗口检测重复模式
触发后引导转向探索策略

5.3 上下文管理最佳实践

分层缓存设计：
- 短期缓存：最近3次检索结果
- 长期缓存：关键证据片段

术语权重计算：

python复制def term_weight(term, context):
    freq = sum(1 for doc in context if term in doc)
    recency = 1/(context.index(term) + 1)
    return freq * recency