Fineweb 2数据集是一个包含5000万+句子、覆盖100+语言的庞大语料库,基于Common Crawl网络爬虫数据构建。这个项目专注于从Fineweb 2中识别和提取摩洛哥阿拉伯语(Darija)内容,这是一种在摩洛哥和欧洲摩洛哥裔社区广泛使用的方言变体。
原始数据集使用GlotLID模型进行语言分类,虽然该模型能识别2000+语言,但对低资源语言如摩洛哥阿拉伯语的识别准确率仍有提升空间。我们的团队开发了Gherbal语言识别模型,专门针对包括摩洛哥阿拉伯语在内的几种低资源语言进行了优化,在识别准确率上表现优异。
处理摩洛哥阿拉伯语面临几个独特挑战:
我们的技术路线分为四个阶段:
关键提示:网页数据中的Darija内容常混有法语、西班牙语借词,这是北非阿拉伯语方言的典型特征,需要在语言识别时特别处理。
Fineweb 2数据以Parquet格式存储,每个文件包含:
id:文档唯一标识符text:从网页提取的原始文本内容metadata:JSON格式的元数据,包括:
我们主要分析两个配置:
arb_Arab_dedup:标准阿拉伯语数据集ary_Arab_dedup:摩洛哥阿拉伯语数据集编码规范化:
噪声去除:
python复制def clean_text(text):
# 移除HTML标签
text = re.sub(r'<[^>]+>', '', text)
# 处理连续空格
text = re.sub(r'\s+', ' ', text).strip()
# 过滤非文本元素
text = re.sub(r'[\x00-\x1F\x7F-\x9F]', '', text)
return text
句子分割优化:
Gherbal模型处理流程:
模型特别优化了以下Darija特征:
| 指标 | 原始数据 | 过滤后 |
|---|---|---|
| 句子数量 | 5.8M | 37,352 (0.64%) |
| 估计词数 | 2.8B | 75.3M |
| 唯一词数 | 1.2M | 387,428 |
| 平均句长 | 482字符 | 262词 |
数据质量观察:
高频词呈现典型Darija特征:
长尾分布明显:
典型二元组:
有意义三元组:
数据质量问题:
发现高频重复句子:
"معظم التعليقات تم إخفاؤها بواسطة الفيسبوك..."
(大多数评论已被Facebook隐藏...)
表明需要加强去重处理
假阳性(3.7%):
主要是:
假阴性(估计10%):
主要漏检原因:
| 指标 | 值 |
|---|---|
| 唯一域名 | 4,003 |
| 最常见TLD | .com (58.5%) |
| 平均存活时间 | 216.8天 |
| 摩洛哥托管 | 仅1个(inwi.ma) |
内容生产模式:
托管国家TOP5:
这一分布与摩洛哥 diaspora 地理不完全匹配,可能反映:
使用madmon-medium嵌入模型聚类分析:
| 主题类别 | 占比 | 典型内容 |
|---|---|---|
| 饮食文化 | 28% | 塔吉锅食谱、薄荷茶传统 |
| 个人叙事 | 22% | 移民经历、家庭故事 |
| 宗教讨论 | 19% | 日常行为准则、节庆指南 |
| 足球/体育 | 15% | 本地球队、世界杯评论 |
| 城市话题 | 10% | 地区方言差异、市集文化 |
| 其他 | 6% | 技术、教育等 |
基于词级转移概率生成示例:
code复制"و هو رجع شاف فباب غرفة المراقبة"
(他回来看到监控室的门)
显示模型捕捉到:
训练配置:
生成示例:
code复制"بنتي ليا معصبة ولا شنو كاين شي حاجة تخليني"
(我女儿生气了,还是有什么让我...)
呈现特点:
重点来源:
质量过滤:
领域平衡:
当前数据中缺失:
区分相近方言:
处理混合书写:
实时数据更新:
经验提示:Darija的拉丁转写至少有5种主流方案,处理时需统一转换规则以避免特征碎片化。
数据集:
模型:
短期:
中期:
长期:
在摩洛哥的实地测试显示,当前模型对卡萨布兰卡方言识别准确率最高(89%),南部方言稍低(76%)。我们正与当地大学合作收集区域变体样本,计划每季度更新模型以适应语言演变。