构建高质量威尔士语平行语料库的技术实践

戴小青

1. 项目背景与意义

在自然语言处理领域，语言模型的性能高度依赖训练数据的规模和质量。对于威尔士语（Cymraeg）这种使用人口约80万的低资源语言而言，构建高质量的平行语料库面临独特挑战。威尔士政府提出的"Cymraeg 2050"战略计划到2050年实现100万威尔士语使用者的目标，语言技术的支持对这一文化保护计划至关重要。

当前主流语言模型虽然在多语言任务上表现优异，但对低资源语言的支持往往不足。这会导致两个实际问题：首先，威尔士语使用者在与AI系统交互时体验较差；其次，长期的技术支持不足可能加速少数语言的边缘化。我们的工作正是要解决这个数字鸿沟问题。

关键洞察：平行语料库的质量比数量更重要。低质量的翻译对（如包含噪音、重复或非自然语言）会显著降低模型微调的效果。

2. 数据收集与来源选择

2.1 多源数据整合策略

我们从OPUS项目中精选了四个具有代表性的威尔士语-英语平行语料来源：

OpenSubtitles：包含影视作品字幕对话，提供日常口语表达
Wikimedia：维基百科条目的翻译对，涵盖百科全书式知识
EUbookshop：欧盟官方文件的技术性翻译
Tatoeba：社区贡献的多样化例句

这种组合确保了语料覆盖会话、知识性、技术和非正式四种语域，使模型能处理不同场景的翻译需求。例如，来自OpenSubtitles的"How's the weather?"对应威尔士语"Sut mae'r tywydd?"这类日常对话，而EUbookshop则提供"climate change mitigation"对应"lliniaru newid hinsawdd"等技术术语。

2.2 数据代表性分析

我们特别关注了各来源的语言特征分布：

平均句子长度：英语15.2词 vs 威尔士语14.8词
词汇多样性：OpenSubtitles的Type-Token Ratio为0.41，Wikimedia达到0.63
领域分布：技术类文本占32%，日常对话占41%，知识类占27%

这种平衡的分布避免了模型过度偏向某类语言风格，这是许多低资源语言数据集常见的缺陷。

3. 数据处理流水线设计

3.1 四阶段过滤机制

原始平行语料通常包含大量噪音，我们设计了严格的四阶段处理流程：

长度过滤：
- 移除单边字符数<20的对齐句对
- 同时设置上限300字符防止过长段落
- 处理后消除约12%的低信息量样本（如"Yes/Ie"）
语义去重：
- 使用paraphrase-multilingual-MiniLM-L12-v2模型生成句向量
- MinHash LSH算法检测相似度>0.85的近似重复
- 特别有效处理影视字幕中的高频重复（如"I don't know/Wyddon i ddim"）
质量过滤：
- 正则表达式剔除含URL、特殊符号的样本
- 检测并移除字符异常重复（如"aaaaa"）
- 语言识别验证确保无语言错位
方向平衡：
- 将数据集按50-50比例分配英语→威尔士语和反向翻译对
- 确保双向翻译任务都有充足训练样本

3.2 关键技术实现细节

语义去重环节的实施方案值得特别说明：

python复制from datasketch import MinHash, MinHashLSH
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
lsh = MinHashLSH(threshold=0.85, num_perm=128)

def create_minhash(text):
    embedding = model.encode(text)
    mh = MinHash(num_perm=128)
    for dim in embedding.argsort()[-10:]:  # 取最重要的10个维度
        mh.update(dim.tobytes())
    return mh

这种方法比传统n-gram重叠检测更能捕捉语义相似性，尤其适应威尔士语的形态学特点（如动词变位带来的表面差异）。

4. 数据集结构与使用方案

4.1 标准化格式设计

数据集采用指令微调的标准消息格式，每个样本包含：

json复制{
  "messages": [
    {
      "role": "user",
      "content": "Translate to Welsh:\nThe committee meets monthly"
    },
    {
      "role": "assistant",
      "content": "Mae'r pwyllgor yn cwrdd yn fisol"
    }
  ],
  "source_dataset": "EUbookshop"
}