构建高质量数学语料库：方法与FastText实践

科技守望者

1. 数学语料构建的重要性与挑战

在大型语言模型（LLM）的研究中，数据收集环节往往被严重低估。DeepSeekMath的研究表明，对于数学这类专业领域，精心构建的训练语料甚至能让7B参数的"小模型"在竞赛级数学基准测试中超越参数规模大得多的通用模型。这揭示了领域专用数据质量对模型性能的决定性影响。

数学内容在互联网上呈现三个显著特征：

稀缺性：数学页面仅占Common Crawl等通用网络语料的0.1%-0.5%
专业性：包含LaTeX公式、证明过程等独特文本模式
污染风险：基准测试题目（如GSM8K）可能意外混入训练集

传统的关键词过滤（如搜索"积分"、"定理"等）会漏掉90%以上的真实数学内容，同时误收大量非专业讨论。这促使DeepSeekMath团队开发了一套基于迭代分类的智能采集方案。

关键教训：在专业领域，数据质量比数据规模更重要。一个120B token的高质量数学语料，效果远优于10倍规模的未过滤通用语料。

2. DeepSeekMath数据管道深度解析

2.1 核心架构设计

整个系统采用"种子→分类→扩展"的飞轮模式：

初始种子：从OpenWebMath抽取50万正例+50万Common Crawl负例
分类器训练：FastText模型（dim=256, wordNgrams=3）
迭代扩展：
- 用当前分类器扫描新数据
- 识别高概率数学页面
- 发现数学密集型域名（如mathoverflow.net）
- 人工标注域名下的特定路径
- 用新数据重新训练分类器

经过4轮迭代后，分类器召回率可达98%，最终获得35.5M页面/120B token的数学语料。

2.2 关键技术实现

2.2.1 去重策略

URL级去重：处理重定向和镜像站点
内容指纹：对前3000字符计算MD5哈希
阈值设定：相同哈希的页面仅保留最早版本

2.2.2 文本提取

python复制def html_to_text(html):
    # 移除所有HTML标签
    text = re.sub(r'<[^>]+>', ' ', html)  
    # 合并连续空白字符
    text = re.sub(r'\s+', ' ', text).strip()
    return text

2.2.3 污染过滤

构建基准测试的n-gram数据库（n=3~10），采用Aho-Corasick算法实现高效匹配：

完全匹配3-gram
模糊匹配10-gram（允许中间字符变化）

2.2.4 Token预算管理

python复制def select_pages(pages, budget=120e9):
    pages.sort(key=lambda x: -x['score'])  # 按置信度降序
    selected = []
    total_tokens = 0
    for page in pages:
        if total_tokens + page['ntokens'] > budget:
            break
        selected.append(page)
        total_tokens += page['ntokens']
    return selected

3. 快速实现方案：FastText实战指南

3.1 环境准备

bash复制pip install datasets cdx-toolkit warcio fasttext tqdm tiktoken

3.2 分类器训练

python复制import fasttext
from datasets import load_dataset

# 加载HuggingFace数据集
ds = load_dataset("kenhktsui/math-classifiers-data")

# 转换为FastText格式
with open("math.train", "w") as f:
    for example in ds['train']:
        label = "__label__math" if example['label'] else "__label__nonmath"
        f.write(f"{label} {example['text']}\n")

# 模型训练
model = fasttext.train_supervised(
    input="math.train",
    lr=0.1,
    dim=256,
    wordNgrams=3,
    epoch=3,
    minCount=3
)
model.save_model("math_classifier.bin")

3.3 网页处理流水线

python复制import cdx_toolkit
from warcio import ArchiveIterator

cdx = cdx_toolkit.CDXFetcher(source="cc")
for obj in cdx.iter("*.edu/*", limit=1000):
    warc_url = f"https://data.commoncrawl.org/{obj['filename']}"
    resp = requests.get(warc_url, headers={"Range": f"bytes={obj['offset']}-{obj['offset']+obj['length']-1}"})
    
    for record in ArchiveIterator(resp.content):
        if record.rec_type != "response":
            continue
            
        html = record.content_stream().read().decode('utf-8', 'ignore')
        text = html_to_text(html)
        
        labels, probs = model.predict(text)
        if labels[0] == "__label__math" and probs[0] > 0.9:
            print(f"Found math page: {obj['url']} (score={probs[0]:.2f})")

4. 生产级优化建议

4.1 性能提升技巧

并行抓取：使用asyncio+aiohttp实现异步IO
内存优化：对大型WARC文件采用流式处理
缓存机制：对已处理URL建立Redis缓存

4.2 质量增强方案

mermaid复制graph TD
    A[原始HTML] --> B(移除广告/导航)
    B --> C(提取主内容区)
    C --> D(LaTeX公式检测)
    D --> E(数学术语密度分析)
    E --> F[最终分类决策]

4.3 典型问题排查

问题现象	可能原因	解决方案
分类准确率低	训练数据不平衡	调整正负样本比例至1:1
内存溢出	大文件处理	使用生成器替代列表存储
抓取速度慢	网络延迟	增加CDX请求超时时间

5. 领域扩展思考

这套方法论可迁移到其他专业领域：

法律领域：识别判例文书与法条
医学领域：筛选临床研究报告
工程领域：收集技术规范文档

关键调整点：

领域特定的初始种子（如PubMed摘要）
专业术语词典增强
领域评估指标设计

实战建议：从1M token的小规模实验开始，验证流程可行性后再逐步扩大规模。每次迭代后人工检查100个正例和50个负例，持续优化分类器。

通过构建高质量领域语料，我们完全可以在不增加参数量的前提下，显著提升模型的专业能力。这或许是当前LLM研究中性价比最高的技术路径之一。

已经到底了哦