今天很高兴和大家分享我们团队在构建高质量多语言数据集方面的最新成果——Occiglot-Fineweb。这个数据集目前包含10种语言的约2.3亿份经过严格清洗的文档,是我们长期数据整理工作的初步成果。作为一名长期从事NLP数据工程的研究者,我认为这个数据集有几个显著特点值得关注:
首先,它建立在现有精选数据集和预过滤网络数据的基础上,采用了语言特定的精细处理流程,并进行了全局去重。目前v0.5版本已在Hugging Face平台发布,我们的datatrove处理管道也将很快开源。特别值得一提的是,通过与DiscoResearch的合作,我们还基于Llama-3模型和Occiglot-Fineweb的德语数据子集,发布了一系列强力的德语模型。
在我们的数据收集过程中,主要使用了两个数据来源:
所有数据都经过OSCAR的Ungoliant管道处理。这种处理方式使得该数据集与Occiglot模型初始版本使用的训练数据有大量重叠。
提示:在选择数据源时,我们特别考虑了时间跨度的覆盖,因为不同时期的网络数据反映了语言使用的演变,这对模型训练非常重要。
所有数据都使用基于Huggingface fine-web过滤器的语言特定管道进行了严格过滤。除了对一些超参数进行微调外,我们主要修改了三个方面:
例如,在德语处理中,我们增加了复合词的长度阈值;在罗曼语系语言中,我们调整了词形变化的识别规则。这些调整确保了过滤过程能够适应不同语言的特点。
我们对每种语言的数据分别进行了minhash去重。这里有一个重要的设计决策:我们总是保留不在网络爬取数据中的副本。举个例子,如果一个维基百科页面也包含在OSCAR中,我们会删除OSCAR中的副本,从而保持维基百科子集的完整。
这种数据结构设计允许可靠地对自定义子集进行过采样或欠采样,而不会导致某些文档在数据的其他部分重新出现。在实际操作中,我们发现这个策略特别有用:
在分析清理过程时,最令人惊讶的发现是整个数据中重复文档的数量。虽然预期会有一些重叠,但先前的研究表明不同的CommonCrawl版本基本上是互不相交的。因此,我们在最初的OcciGlot版本中没有对OSCAR数据进行去重。然而,我们在数据集中观察到了大量的重复。
有趣的是,不同语言之间存在显著差异:
| 语言 | 重复文档比例 | 过滤后文档总数 |
|---|---|---|
| 捷克语 | 15.19% | 38.71M |
| 希腊语 | 25.10% | 17.01M |
| 葡萄牙语 | 35.21% | 34.85M |
| 西班牙语 | 41.74% | 72.17M |
| 意大利语 | 45.43% | 31.75M |
| 波兰语 | 46.35% | 18.68M |
| 法语 | 49.13% | 61.80M |
| 荷兰语 | 50.20% | 32.42M |
| 德语 | 50.92% | 88.43M |
| 斯洛伐克语 | 66.23% | 8.47M |
这些巨大差异的起源尚不清楚,值得进一步研究。从实践角度来看,这提醒我们在处理多语言数据时,不能假设不同语言具有相似的数据特性。
我们观察到CommonCrawl的数据质量随着时间的推移有持续改善。当我们考虑过滤过程中丢弃的文档百分比时,这种质量变化变得最为明显。以下是德语的示例数据,但这些观察结果对大多数语言都适用:
| CommonCrawl版本(OSCAR分割) | 丢弃文档(质量差) | 过滤前文档总数 |
|---|---|---|
| 2015-14 | 33.84% | 796292 |
| 2016-40 | 25.45% | 2499685 |
| 2017-43 | 10.29% | 7959532 |
| 2018-47 | 11.53% | 7901961 |
| 2019-22 | 12.40% | 8597472 |
| 2020-24 | 13.49% | 8025944 |
| 2020-45 | 13.01% | 7242192 |
| 2021-49 | 12.77% | 8784646 |
| 2022-27 | 12.22% | 9515644 |
| 2022-49 | 11.48% | 11127806 |
| 2023-14 | 10.99% | 10156164 |
| 2023-23 | 10.52% | 11078020 |
这个趋势表明,较新的网络抓取数据通常包含更少需要过滤的低质量内容。对于模型训练来说,这意味着:
通过与DiscoResearch的合作,我们基于Occiglot-Fineweb的德语子集对Llama-3模型进行了持续预训练。在实际操作中,我们发现:
这些德语模型在多个基准测试中表现优异,特别是在处理德语特有的复合词和语法结构方面。
根据我们的经验,使用Occiglot-Fineweb时可以考虑以下策略:
我们正在积极扩展这个初步数据集。目前的工作重点包括:
我们非常欢迎各种形式的合作。如果您对这个项目感兴趣,或者有任何建议,请通过邮件或Discord服务器与我们联系。这个项目的持续发展需要社区的共同努力,我们期待听到您的声音。