Occiglot-Fineweb多语言数据集：构建与优化实践

sched yield

1. 项目概述：Occiglot-Fineweb多语言数据集发布

今天很高兴和大家分享我们团队在构建高质量多语言数据集方面的最新成果——Occiglot-Fineweb。这个数据集目前包含10种语言的约2.3亿份经过严格清洗的文档，是我们长期数据整理工作的初步成果。作为一名长期从事NLP数据工程的研究者，我认为这个数据集有几个显著特点值得关注：

首先，它建立在现有精选数据集和预过滤网络数据的基础上，采用了语言特定的精细处理流程，并进行了全局去重。目前v0.5版本已在Hugging Face平台发布，我们的datatrove处理管道也将很快开源。特别值得一提的是，通过与DiscoResearch的合作，我们还基于Llama-3模型和Occiglot-Fineweb的德语数据子集，发布了一系列强力的德语模型。

2. 数据处理流程详解

2.1 数据来源与初步处理

在我们的数据收集过程中，主要使用了两个数据来源：

从LLM-Datasets获取了所有目标语言的可用数据集（不包括OSCAR）
从2005年至2023年的12个Common-Crawl版本中爬取的网络数据

所有数据都经过OSCAR的Ungoliant管道处理。这种处理方式使得该数据集与Occiglot模型初始版本使用的训练数据有大量重叠。

提示：在选择数据源时，我们特别考虑了时间跨度的覆盖，因为不同时期的网络数据反映了语言使用的演变，这对模型训练非常重要。

2.2 语言特定的质量过滤

所有数据都使用基于Huggingface fine-web过滤器的语言特定管道进行了严格过滤。除了对一些超参数进行微调外，我们主要修改了三个方面：

根据每种语言的语言学特征调整平均词长过滤器
添加语言特定的停用词
为政策和cookie过滤添加语言特定的策略过滤器

例如，在德语处理中，我们增加了复合词的长度阈值；在罗曼语系语言中，我们调整了词形变化的识别规则。这些调整确保了过滤过程能够适应不同语言的特点。

2.3 去重策略与数据保留原则

我们对每种语言的数据分别进行了minhash去重。这里有一个重要的设计决策：我们总是保留不在网络爬取数据中的副本。举个例子，如果一个维基百科页面也包含在OSCAR中，我们会删除OSCAR中的副本，从而保持维基百科子集的完整。

这种数据结构设计允许可靠地对自定义子集进行过采样或欠采样，而不会导致某些文档在数据的其他部分重新出现。在实际操作中，我们发现这个策略特别有用：

当需要增强某些特定领域的数据时，可以安全地增加其权重
在构建训练集和验证集时，可以确保没有隐蔽的数据泄漏
进行消融研究时，能够精确控制不同数据源的比例

3. 关键发现与数据分析

3.1 重复文档的惊人发现

在分析清理过程时，最令人惊讶的发现是整个数据中重复文档的数量。虽然预期会有一些重叠，但先前的研究表明不同的CommonCrawl版本基本上是互不相交的。因此，我们在最初的OcciGlot版本中没有对OSCAR数据进行去重。然而，我们在数据集中观察到了大量的重复。

有趣的是，不同语言之间存在显著差异：

语言	重复文档比例	过滤后文档总数
捷克语	15.19%	38.71M
希腊语	25.10%	17.01M
葡萄牙语	35.21%	34.85M
西班牙语	41.74%	72.17M
意大利语	45.43%	31.75M
波兰语	46.35%	18.68M
法语	49.13%	61.80M
荷兰语	50.20%	32.42M
德语	50.92%	88.43M
斯洛伐克语	66.23%	8.47M

这些巨大差异的起源尚不清楚，值得进一步研究。从实践角度来看，这提醒我们在处理多语言数据时，不能假设不同语言具有相似的数据特性。

3.2 CommonCrawl数据质量的时序变化

我们观察到CommonCrawl的数据质量随着时间的推移有持续改善。当我们考虑过滤过程中丢弃的文档百分比时，这种质量变化变得最为明显。以下是德语的示例数据，但这些观察结果对大多数语言都适用：

CommonCrawl版本(OSCAR分割)	丢弃文档(质量差)	过滤前文档总数
2015-14	33.84%	796292
2016-40	25.45%	2499685
2017-43	10.29%	7959532
2018-47	11.53%	7901961
2019-22	12.40%	8597472
2020-24	13.49%	8025944
2020-45	13.01%	7242192
2021-49	12.77%	8784646
2022-27	12.22%	9515644
2022-49	11.48%	11127806
2023-14	10.99%	10156164
2023-23	10.52%	11078020