在信息检索领域,我们正见证着一场由大型语言模型(LLM)驱动的范式转变。传统的单次查询-结果列表模式正在演变为更复杂的多步交互过程,我们称之为Agentic Search(代理式搜索)。这种新型搜索模式中,智能代理自主规划搜索策略,通过迭代式查询重构和上下文整合来完成复杂的信息获取任务。
最近来自卡耐基梅隆大学的研究团队基于DeepResearchGym平台的1400万次真实搜索请求,对Agentic Search行为进行了迄今为止最大规模的实证分析。这项研究揭示了LLM代理在开放环境中的搜索模式、意图分类与查询重构策略之间的关联,以及跨步骤上下文复用的关键作用。作为从业者,我认为这些发现对优化搜索系统设计具有直接指导意义。
传统搜索引擎依赖用户手动调整查询语句,而Agentic Search的核心创新在于将查询重构过程自动化、智能化。在技术实现上,这通常包含三个关键组件:
python复制# 简化的Agentic Search伪代码示例
def agentic_search(initial_query):
context = []
current_query = initial_query
for step in range(MAX_STEPS):
results = retrieve(current_query, top_k=10)
context.append((current_query, results))
if satisfaction_check(results):
return format_output(results, context)
new_query = reformulate(current_query, results, context)
current_query = new_query
研究使用的DeepResearchGym平台提供了标准化的实验环境:
重要提示:在实际系统设计中,需要特别注意检索深度(top_k)的设置。研究发现大多数代理固定使用K∈{1,5,10},这可能导致某些场景下检索不足或资源浪费。
通过对397万次会话的分析,我们发现几个关键模式:
会话长度分布:
时间间隔特征:
研究采用三类意图分类法,各类别表现出显著不同的搜索策略:
| 意图类型 | 占比 | 典型特征 | 查询重构模式 |
|---|---|---|---|
| Declarative | 88.64% | 事实查找,高重复率 | 33.69%为重复查询 |
| Procedural | 3.96% | 操作指南,深度检索 | 27.99%专业化重构 |
| Reasoning | 7.41% | 复杂分析,广泛探索 | 47.57%探索性重构 |
研究发现查询重构主要遵循四种模式,每种模式对系统性能有不同影响:
专业化(Specialization):添加约束条件(21.76%)
泛化(Generalization):放宽查询范围(9.02%)
探索(Exploration):主题内多角度尝试(37.07%)
重复(Repetition):近义词重试(32.15%)
研究提出的CTAR指标量化了代理如何利用历史检索结果:
code复制CTAR = (新查询词∩上下文词) / 新查询词总数
关键发现:
基于意图识别实现差异化配置:
python复制def get_retrieval_budget(intent):
if intent == "Declarative":
return 5 # 浅层检索
elif intent == "Procedural":
return 20 # 深度检索
else:
return 10 # 默认值
针对重复模式的检测算法:
分层缓存设计:
术语权重计算:
python复制def term_weight(term, context):
freq = sum(1 for doc in context if term in doc)
recency = 1/(context.index(term) + 1)
return freq * recency
重复循环:
上下文遗忘:
检索深度不足:
基于研究数据的合理预期:
虽然Agentic Search展现出强大潜力,但在实际部署中仍需注意:
延迟与成本的平衡:
评估指标设计:
安全与鲁棒性:
在实际项目中,我们团队发现结合用户显式反馈(如相关度评分)可以显著提升代理的决策质量。同时,建立查询重构的评估闭环对持续优化至关重要。