HTML解析技术演进:MinerU-HTML提升代码与公式提取质量

梁培定

1. HTML解析技术演进与挑战

现代大型语言模型(LLMs)的卓越能力建立在海量多样化文本语料库的预训练基础上。随着模型参数规模突破千亿级、训练token量达到万亿规模,预处理数据的质量与数量已成为决定模型性能的关键因素。在各类数据源中,网页文本因其无与伦比的规模与多样性成为预训练数据的主要构成部分。Common Crawl作为持续更新的网页快照公共存储库,包含PB级HTML文档,已成为构建大规模预训练语料库的事实标准基础。

然而,将原始Common Crawl数据转化为有效的训练材料绝非易事。近期研究表明,通过复杂的数据筛选策略可以显著提升下游模型性能。例如:

  • RefinedWeb证明经过严格过滤和去重的网页数据可以超越混合书籍与技术文档的精选语料库
  • FineWeb通过过滤和去重策略的消融研究,构建了15万亿token的语料库
  • DCLM展示基于模型的质量过滤可显著提升基准性能

在这些数据优化工作中,一个关键环节却相对被忽视:HTML到文本的提取过程。在应用任何过滤或去重之前,原始HTML文档必须首先转换为结构化文本格式。这一提取步骤面临三大核心挑战:

  1. 语义与呈现的错位:HTML设计初衷是呈现视觉布局而非传递语义内容,网页中充斥着导航菜单、广告、侧边栏等需要与主体内容分离的样板元素
  2. 结构化元素损失:数学公式、代码块和表格等技术内容的关键元素在提取过程中经常被破坏或完全丢失
  3. 现有工具的局限性:当前主流工具如Trafilatura和Resiliparse依赖文本密度启发式和手工制定的DOM遍历规则,难以处理非标准布局

关键发现:传统提取工具对代码块的编辑相似度仅0.1305,数学公式0.6107,表明现有方法在技术内容处理上存在严重缺陷。这种结构化信息的损失会直接影响模型对编程和数学等专业领域的学习能力。

2. MinerU-HTML技术架构解析

2.1 整体设计思路

MinerU-HTML创新性地将HTML内容提取重构为序列标注问题,其核心突破在于:

  1. 语义理解导向:采用0.6B参数的语言模型(MinerU-HTML-Classifier)替代传统启发式规则
  2. 双阶段处理:Main-HTML提取 → AI就绪格式转换
  3. 结构保留优先:专门优化代码块、公式、表格等结构化元素的提取质量

技术架构对比:

特性 传统方法(Trafilatura) MinerU-HTML
核心机制 文本密度启发式 语言模型序列标注
代码块保留能力 13.05% 90.93%
数学公式保留能力 61.07% 93.99%
表格结构保留(TEDS) 0.3405 0.7388
可扩展性 规则更新受限 随模型和数据自动进化

2.2 核心处理流程

2.2.1 三阶段提取管道

  1. 预处理阶段

    • 非内容标签剥离(