在法律科技领域,检索增强生成(RAG)系统正逐渐成为律师和研究人员的得力助手。然而,现有的评估方法存在明显缺陷——它们要么过于简单化,要么与真实法律实践脱节。这就像用小学数学题来测试大学生的数学能力,根本无法反映实际应用场景中的复杂需求。
传统法律评估数据集普遍存在三个致命伤:
典型案例:某知名基准中的一道"法律题"要求判断两块土地的所有权,却连适用哪个司法管辖区的法律都未说明。更荒谬的是,标准答案本身在法律上就是错误的——已通过遗产更正地契的Tommy不可能同时拥有A、B两块土地。
我们以维多利亚州刑事指控手册(Criminal Charge Book)为基础,构建了包含4,876个法律段落的核心语料库。选择刑事法律领域具有战略意义:
段落处理采用双重拆分策略:
我们手工撰写的100个测试问题坚持三个原则:
传统评估就像黑箱测试——只看最终答案对不对。我们则像法律界的"手术刀",实施全因子实验设计:
markdown复制| 指标 | 定义 | 测量重点 |
|---------------|------------------------------------------|--------------------|
| 正确性(cₑₗᵢ) | 生成答案是否法律上正确 | 最终输出质量 |
| groundedness(gₑₗᵢ) | 答案是否严格基于检索段落(无论段落相关性) | 可验证性 |
| 检索准确率(rₑₗᵢ) | 是否检索到真正相关的段落 | 信息检索能力 |
实验结果打破了"生成模型决定上限"的固有认知:
关键发现:当检索准确率低于60%时,即使使用顶级生成模型,系统整体准确率也无法突破65%。这就像律师再优秀,如果拿到的案例资料全是错的,也不可能给出正确建议。
传统观点认为"幻觉"(编造虚假信息)是生成模型的固有缺陷。但我们通过分层错误分析发现:
错误类型精确定义:
python复制def classify_error(g, c, r):
if not g: return "Hallucination"
if not c and not r: return "Retrieval Failure"
if not c and r: return "Reasoning Failure"
Kanon 2作为法律专用嵌入模型,在同类测试中展现出压倒性优势:
基于我们的基准测试,给出具体配置方案:
markdown复制1. 嵌入模型选择
- 首选:Kanon 2 Embedder(法律专用)
- 备选:OpenAI Text Embedding 3 Large(需法律微调)
2. 生成模型选择
- 平衡型:Gemini 3.1 Pro(综合表现最佳)
- 严谨型:GPT-5.2 High Reasoning模式(引用更规范)
3. 分块策略
- 优先保持法律条款完整性(如整条法规作为一个块)
- 超过512 token时按语义切分(避免拆分"构成要件"列表)
我们在构建测试框架时积累的实战经验:
当系统给出错误答案时,建议排查流程:
我们注意到与Vals AI的CaseLaw基准存在显著差异:
为保障结果可复现,我们:
法律AI的发展正处在关键转折点。当技术专家与法律从业者深度协作——就像我们团队同时具备法律执业资格和机器学习博士学位——才能打造出真正实用的工具。测试表明,单纯扩大模型参数不如优化领域适配性,这或许揭示了专业垂直化的发展路径。
未来工作将聚焦三个方向:
法律科技的终极目标不是替代律师,而是通过可靠的技术工具,让法律服务像医疗诊断一样建立在坚实的证据基础之上。要实现这一点,首先需要的就是Legal RAG Bench这样经得起推敲的评估标准。