HTML到AI语料转换：技术演进与挑战解析

楚沐风

1. 从HTML到AI就绪语料：解析技术演进与挑战

网页内容提取一直是构建大规模预训练语料库的基础环节。传统方法主要依赖手工设计的启发式规则，例如基于文本密度、标签路径或CSS类名的模式匹配。这些方法虽然计算效率高，但在处理现代网页的复杂结构时面临显著挑战。

以Common Crawl为例，这个每月抓取数十亿网页的开源项目，原始数据以WARC格式存储，包含大量HTML标记、广告代码和导航元素。直接使用这些数据训练语言模型会导致模型学习到大量噪声。我们的实验显示，未经处理的网页数据中，平均只有42%的内容是真正有价值的主体文本。

1.1 传统解析器的局限性

Trafilatura作为当前主流的开源提取工具，采用基于标签路径和文本特征的规则组合。其核心算法可以概括为：

移除<script>、<style>等非内容标签
根据预设的XPath规则识别主要内容区域
应用文本密度算法（如基于行长度的聚类）过滤噪音

这种方法在简单新闻类网页上表现尚可，但遇到以下场景就会失效：

代码文档网站（如Stack Overflow）：<pre>标签内的代码块经常被错误截断
学术论文页面：数学公式（LaTeX或MathML）的提取完整率不足60%
电商产品页：规格参数表格转换为纯文本后失去结构关系

我们在WebMainBench基准测试中发现，传统工具对结构化元素的保留率普遍低于50%，这直接影响了后续语言模型在代码生成、数学推理等任务上的表现。

1.2 模型驱动解析的突破

MinerU-HTML采用完全不同的技术路线：将HTML解析建模为序列标注问题。其工作流程包括：

DOM树扁平化：将HTML转换为带层级标记的token序列
语义分割：使用预训练模型识别每个DOM节点的内容类型
结构重建：基于注意力机制恢复文档逻辑结构

这种方法的核心优势在于：

上下文感知：能理解<div>标签在不同页面中的语义差异
细粒度控制：支持对代码、公式等特殊内容的精准提取
自适应能力：通过少量样本即可适配新的网页模板

在技术实现上，我们基于Qwen3-0.6B模型进行微调，使用870K人工标注样本训练分类器。标注过程采用三阶段质量控制，确保每个样本都经过至少两位标注员的交叉验证。

2. AICC语料库构建全流程

2.1 数据采集与预处理

我们处理的是Common Crawl 2023年的两个快照（CC-2023-06和CC-2023-14），原始数据规模超过120TB。预处理管道包括：

python复制def process_warc(warc_file):
    # 解压缩WARC记录
    records = parse_warc(warc_file)
    cleaned = []
    for record in records:
        # 应用MinerU-HTML提取
        markdown = mineru_html(record.html)
        # 语言检测
        lang = detect_language(markdown)
        if lang == 'en':  # 仅保留英文内容
            cleaned.append(markdown)
    return cleaned

这个阶段的关键挑战是处理HTML的畸形结构。我们发现约15%的网页存在标签未闭合、编码错误等问题。MinerU-HTML通过以下策略应对：

自适应标签补全：基于上下文预测缺失的闭合标签
多编码检测：依次尝试UTF-8、Windows-1252等常见编码
容错解析：对无法修复的片段启用安全模式

2.2 质量评估体系

我们设计了三级评估方案验证提取质量：

微观层面（单文档）：

长度比指标：(Len_AICC - Len_TfCC)/max(Len_AICC, Len_TfCC)
结构化元素保留率：统计代码、表格等特殊元素的完整度

中观层面（样本集）：

随机抽取10,000个文档对，使用DeepSeek-Chat-V3进行盲测
设计专项测试集WebMainBench，包含545个含复杂结构的网页

宏观层面（下游任务）：

在13个标准基准测试上比较预训练效果
监控不同训练阶段（4B-63B tokens）的性能变化

评估结果显示，当AICC提取的内容更长时（长度比>0），其在75-98%的比较中被认为质量更好。这证明额外的内容主要是有效信息而非噪声。

2.3 后处理流水线

为确保语料质量，我们实施严格的五阶段过滤：

精确去重：计算SHA-256哈希值，移除完全重复文档
语言过滤：使用FastText识别并保留英语内容
质量筛选：应用Gopher启发式规则，剔除低可读性文本
安全过滤：基于URL和关键词黑名单移除敏感内容
模糊去重：MinHash+LSH算法检测近重复文档

经过完整流程，原始7.3T数据被精炼为372B tokens的高质量语料。值得注意的是，我们为TfCC基准应用完全相同的后处理流程，确保下游性能差异仅源于提取方法。

3. 关键技术深度解析

3.1 MinerU-HTML架构设计

模型的神经网络架构基于Qwen3系列改进，主要创新点包括：

分层注意力机制：

标签嵌入层捕获HTML语法特征
局部注意力窗口处理DOM子树关系
全局注意力头维护文档级一致性

多任务学习目标：

主任务：内容/非内容二分类
辅助任务：预测38种HTML元素类型
正则化任务：重构简化后的DOM结构

训练时采用课程学习策略，先学习简单新闻网页，逐步过渡到复杂的技术文档。我们在8×A100 GPU上完成训练，耗时约72小时。

3.2 结构化元素处理方案

对于代码、公式等特殊内容，我们开发了专用处理模块：

代码块提取：

python复制def extract_code(node):
    if node.tag in ['pre', 'code']:
        # 保留原始缩进
        lines = node.text.split('\n')
        indent = min([len(l) - len(l.lstrip()) for l in lines if l.strip()])
        return '\n'.join([l[indent:] for l in lines])
    return None

数学公式处理：

识别MathML或LaTeX语法模式
对行内公式添加 $...$ 分隔符
对独立公式块使用$$...$$标记

表格转换算法：

解析<table>结构，识别表头/表体
计算每列最大宽度
生成Markdown表格语法：

code复制| Header 1 | Header 2 |
|----------|----------|
| Cell 1   | Cell 2   |

3.3 动态适应策略

网页设计趋势持续演进，为此我们实现了以下机制：

在线学习：每天自动采样最新网页，标注后更新模型
模板检测：聚类相似DOM结构，识别新兴页面布局
异常回退：当模型置信度低时，自动切换规则引擎

这套系统使我们的提取器在技术文档上的准确率从v1.0的82%提升到v2.1的93%。

4. 下游任务性能验证

4.1 实验设置

我们在同等条件下训练1.5B参数的Transformer模型，关键配置：

词表：151,936 tokens（Qwen3原生词表）
上下文窗口：4,096 tokens
批量大小：64
学习率：1e-4（带线性warmup）

训练数据使用62B tokens的子集，涵盖四种语料：

AICC（本文方法）
TfCC（Trafilatura提取）
RefinedWeb
FineWeb

4.2 基准测试结果

在13个标准测试集上的表现如下表所示：

任务类别	AICC	TfCC	FineWeb	RefinedWeb
通用知识	47.54	45.61	46.86	44.57
推理能力	59.83	59.34	60.69	59.43
阅读理解	42.37	42.02	36.68	41.10

关键发现：

AICC在通用知识任务上优势最显著（+1.93pp vs TfCC）
对代码密集任务（如HumanEval）的提升达3.2pp
训练过程中性能优势保持稳定（从4B到63B tokens）

4.3 典型错误分析

虽然整体表现优异，我们仍观察到一些失败模式：

内容遗漏案例：

单页应用（SPA）的动态加载内容
嵌套在JavaScript中的文本片段
使用非标准标签的学术论文（如<theorem>）

格式错误案例：

复杂表格的多级表头识别错误
混合Markdown和HTML的文档
数学公式中的特殊符号转义

这些案例为我们指明了下一步改进方向，特别是需要加强客户端渲染内容的处理能力。

5. 行业应用与最佳实践

5.1 适用场景建议

基于我们的实践经验，AICC特别适合以下应用：

多模态训练：

精准提取<img>的alt文本
保持图文对应关系
支持视觉-语言对齐任务

专业领域建模：

学术论文的完整元数据提取
技术文档的代码示例保留
医疗文献的表格数据转换

多语言场景：

处理右到左语言（如阿拉伯语）
识别混合语言段落
保留非拉丁字符集

5.2 部署优化建议

在实际应用中，我们总结出以下经验：

计算资源优化：

对HTML预处理使用快速C++解析器
批量处理时将文档按复杂度分级
对简单页面启用缓存机制

质量监控方案：

每日抽样人工审核
跟踪长度分布变化
监控特殊元素保留率

扩展开发接口：

python复制class MinerU:
    def __init__(self, model_path):
        self.model = load_model(model_path)
    
    def extract(self, html, preserve=[], **kwargs):
        # preserve参数指定要保留的元素类型
        return self.model.predict(html)