YourBench：自动生成高质量基准测试数据集的实用工具

胖葫芦

1. 项目概述

今天我要分享一个非常实用的工具——YourBench，它能帮你从任意文档中自动生成高质量的基准测试数据集。想象一下，你手头有一堆PDF、Word文档或网页内容，现在需要基于这些材料创建一套多选题测验。传统方法需要人工阅读、出题、设计选项，耗时耗力。而YourBench让这个过程变得像变魔术一样简单。

我最近用它把《哈利波特》的维基百科剧情摘要PDF转换成了包含数百道多选题的完整测验数据集，整个过程不到1分钟。这套工具由Hugging Face团队开发，特别适合教育工作者、内容创作者和AI开发者快速构建定制化的评估数据集。

2. 环境准备与安装

2.1 基础环境配置

首先确保你的系统满足以下条件：

Python 3.12或更高版本（推荐使用pyenv管理多版本Python）
至少8GB可用内存（处理大型文档时需要更多）
稳定的网络连接（需要访问模型API）

创建并激活虚拟环境：

bash复制python -m venv yourbench-env
source yourbench-env/bin/activate  # Linux/macOS
# 或 yourbench-env\Scripts\activate  # Windows

2.2 安装YourBench

通过pip安装最新版：

bash复制pip install yourbench

注意：如果遇到依赖冲突，可以先创建一个全新的虚拟环境。我遇到过transformers库版本冲突的问题，全新环境是最稳妥的解决方案。

2.3 准备示例文档

我们将使用《哈利波特》系列的情节摘要作为示例文档。这些内容已经整理成PDF格式，可以直接下载：

bash复制mkdir -p data && wget https://raw.githubusercontent.com/patrickfleith/test-files/main/Harry_Potter_Wikipedia_Plots.pdf -O data/Harry_Potter_Wikipedia_Plots.pdf

3. 核心工作原理解析

3.1 多阶段处理流程

YourBench采用分阶段处理策略，每个阶段都经过精心设计：

文档摄取(Ingestion)：
- 支持PDF/HTML/DOCX/TXT等多种格式
- 自动转换为标准化的Markdown格式
- 保留原始文档结构和元数据
摘要生成(Summarization)：
- 使用LLM生成全局摘要
- 帮助限定问题生成的范围
- 避免生成偏离主题的问题
分块处理(Chunking)：
- 智能文本分割（可配置块大小和重叠）
- 处理长文档时特别有用
- 默认配置：1024 tokens/块，256 tokens重叠
问题生成(Question Generation)：
- 单跳问题（答案在一个文本块内）
- 多跳问题（需要综合多个块的信息）
- 支持多选题和开放式问题
导出(Export)：
- 本地保存为Hugging Face数据集格式
- 可选上传至Hugging Face Hub

3.2 关键技术优势

基于文档的生成：所有问题都严格基于输入文档内容，减少LLM的"幻觉"问题
可配置的模型选择：可以为不同阶段指定不同的LLM
灵活的管道设计：可以根据需求启用/禁用特定处理阶段
质量保证机制：内置答案验证和问题去重功能

4. 完整配置指南

4.1 配置文件结构

创建config.yaml文件，包含以下主要部分：

yaml复制hf_configuration:  # Hugging Face相关配置
model_list:  # 使用的模型列表
model_roles:  # 模型分工配置(可选)
pipeline:  # 处理管道配置

4.2 Hugging Face配置

在.env文件中设置你的API密钥：

code复制HF_TOKEN=hf_xxxxxx
OPENROUTER_API_KEY=sk-xxxxxxx

然后在config.yaml中添加：

yaml复制hf_configuration:
  hf_dataset_name: "harry-potter-quizz"
  private: true
  hf_organization: "$HF_ORGANIZATION"  # 可选
  hf_token: "$HF_TOKEN"

实操技巧：如果你没有组织账号，可以省略hf_organization字段，数据集会默认上传到你的个人账号下。

4.3 模型配置

我们使用OpenRouter访问GPT-OSS-120B模型：

yaml复制model_list:
  - model_name: "openai/gpt-oss-120b"
    base_url: "https://openrouter.ai/api/v1"
    api_key: "$OPENROUTER_API_KEY"
    max_concurrent_requests: 8

4.4 管道详细配置

yaml复制pipeline:
  ingestion:
    source_documents_dir: "data"
    output_dir: "processed"
  
  summarization: {}  # 使用默认配置
  
  chunking:
    l_max_tokens: 1024
    token_overlap: 256
  
  single_shot_question_generation:
    question_mode: "multi-choice"

5. 运行与结果分析

5.1 执行生成命令

bash复制yourbench run config.yaml

这个命令会自动执行完整流程，你会在终端看到详细的进度日志。典型的处理时间取决于：

文档大小（我们的示例约1分钟）
模型响应速度
问题数量配置

5.2 结果数据集结构

生成的数据集包含多个子集，可以通过Hugging Face的datasets库加载：

python复制from datasets import load_dataset

dataset = load_dataset("your_hf_organization/harry-potter-quizz", name='single_shot_questions')

主要子集包括：

ingested：原始处理后的文档
summarized：包含LLM生成的摘要
chunked：分块后的文本内容
single_shot_questions：最终生成的多选题

5.3 多选题数据结构解析

single_shot_questions子集包含以下关键字段：

字段名	类型	描述	示例
question	str	生成的问题	"What is Professor Snape's true intention during Harry's first Quidditch match?"
choices	list[str]	选项列表	['(A) He is trying to protect Harry...', '(B) He wants to sabotage Harry...']
answer	str	正确答案标签	"A"
chunk_id	str	来源文本块ID	"doc_0_chunk_12"

6. 高级应用与技巧

6.1 自定义问题类型

除了多选题，还可以生成开放式问题：

yaml复制single_shot_question_generation:
  question_mode: "open-ended"

6.2 多跳问题生成

要生成需要综合多个文本块信息的问题：

yaml复制multi_hop_question_generation:
  max_hops: 2  # 最多关联2个文本块

6.3 质量优化技巧

后处理过滤：移除太短或太长的问题
答案验证：让另一个模型验证答案正确性
多样性控制：设置最小语义相似度阈值

6.4 性能调优

增加max_concurrent_requests提高吞吐量
对小文档禁用summarization阶段
调整l_max_tokens平衡上下文完整性和处理效率

7. 实际应用场景

7.1 教育领域

自动生成课后练习题
创建个性化学习评估
构建学科知识题库

7.2 内容创作

为文章生成互动问答
创建粉丝向 trivia 游戏
制作播客节目的讨论问题

7.3 AI开发

构建领域特定的评估基准
测试模型的事实一致性
创建对抗性测试用例

8. 常见问题排查

8.1 文档处理失败

症状：ingestion阶段报错
可能原因：

不支持的文档格式
文档加密或损坏
解决方案：
转换为PDF/TXT等标准格式
检查文档完整性

8.2 问题质量不佳

症状：生成的问题含糊或错误
可能原因：

文本块太小缺乏上下文
模型温度参数过高
解决方案：
增加l_max_tokens
在model配置中添加temperature: 0.3

8.3 API调用限制

症状：频繁的速率限制错误
解决方案：

降低max_concurrent_requests
添加retry配置：

yaml复制model_list:
  - model_name: "..."
    retry:
      max_attempts: 5
      delay: 10

9. 扩展与定制

9.1 支持新文档格式

通过继承DocumentProcessor类实现自定义解析器：

python复制from yourbench.processors import DocumentProcessor

class EpubProcessor(DocumentProcessor):
    def process(self, file_path):
        # 实现EPUB解析逻辑
        return processed_text

9.2 自定义问题生成模板

创建prompt模板文件questions_prompt.jinja2：

code复制基于以下文本生成多个选择题：
{{ chunk_text }}

要求：
- 问题清晰明确
- 选项数量：4个
- 包含1个正确答案和3个合理但错误的选项

然后在配置中指定：

yaml复制single_shot_question_generation:
  prompt_template: "path/to/questions_prompt.jinja2"

9.3 集成其他模型API

添加新的模型配置示例：

yaml复制model_list:
  - model_name: "anthropic/claude-3-opus"
    base_url: "https://api.anthropic.com"
    api_key: "$ANTHROPIC_API_KEY"

经过一周的实际使用，我发现YourBench最强大的地方在于它的灵活性。虽然示例使用了《哈利波特》内容，但同样的流程完全可以应用于技术文档、法律条文或科研论文。关键是要根据具体内容类型调整chunk大小和问题生成策略。比如技术文档适合较小的chunk（512 tokens）和更精确的问题，而文学作品则可以接受更大的上下文窗口。