现代大型语言模型(LLMs)的卓越能力建立在海量多样化文本语料库的预训练基础上。随着模型参数规模突破千亿级、训练token量达到万亿规模,预处理数据的质量与数量已成为决定模型性能的关键因素。在各类数据源中,网页文本因其无与伦比的规模与多样性成为预训练数据的主要构成部分。Common Crawl作为持续更新的网页快照公共存储库,包含PB级HTML文档,已成为构建大规模预训练语料库的事实标准基础。
然而,将原始Common Crawl数据转化为有效的训练材料绝非易事。近期研究表明,通过复杂的数据筛选策略可以显著提升下游模型性能。例如:
在这些数据优化工作中,一个关键环节却相对被忽视:HTML到文本的提取过程。在应用任何过滤或去重之前,原始HTML文档必须首先转换为结构化文本格式。这一提取步骤面临三大核心挑战:
关键发现:传统提取工具对代码块的编辑相似度仅0.1305,数学公式0.6107,表明现有方法在技术内容处理上存在严重缺陷。这种结构化信息的损失会直接影响模型对编程和数学等专业领域的学习能力。
MinerU-HTML创新性地将HTML内容提取重构为序列标注问题,其核心突破在于:
技术架构对比:
| 特性 | 传统方法(Trafilatura) | MinerU-HTML |
|---|---|---|
| 核心机制 | 文本密度启发式 | 语言模型序列标注 |
| 代码块保留能力 | 13.05% | 90.93% |
| 数学公式保留能力 | 61.07% | 93.99% |
| 表格结构保留(TEDS) | 0.3405 | 0.7388 |
| 可扩展性 | 规则更新受限 | 随模型和数据自动进化 |
预处理阶段: