在自然语言处理领域,语言模型的性能高度依赖训练数据的规模和质量。对于威尔士语(Cymraeg)这种使用人口约80万的低资源语言而言,构建高质量的平行语料库面临独特挑战。威尔士政府提出的"Cymraeg 2050"战略计划到2050年实现100万威尔士语使用者的目标,语言技术的支持对这一文化保护计划至关重要。
当前主流语言模型虽然在多语言任务上表现优异,但对低资源语言的支持往往不足。这会导致两个实际问题:首先,威尔士语使用者在与AI系统交互时体验较差;其次,长期的技术支持不足可能加速少数语言的边缘化。我们的工作正是要解决这个数字鸿沟问题。
关键洞察:平行语料库的质量比数量更重要。低质量的翻译对(如包含噪音、重复或非自然语言)会显著降低模型微调的效果。
我们从OPUS项目中精选了四个具有代表性的威尔士语-英语平行语料来源:
这种组合确保了语料覆盖会话、知识性、技术和非正式四种语域,使模型能处理不同场景的翻译需求。例如,来自OpenSubtitles的"How's the weather?"对应威尔士语"Sut mae'r tywydd?"这类日常对话,而EUbookshop则提供"climate change mitigation"对应"lliniaru newid hinsawdd"等技术术语。
我们特别关注了各来源的语言特征分布:
这种平衡的分布避免了模型过度偏向某类语言风格,这是许多低资源语言数据集常见的缺陷。
原始平行语料通常包含大量噪音,我们设计了严格的四阶段处理流程:
长度过滤:
语义去重:
质量过滤:
方向平衡:
语义去重环节的实施方案值得特别说明:
python复制from datasketch import MinHash, MinHashLSH
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
lsh = MinHashLSH(threshold=0.85, num_perm=128)
def create_minhash(text):
embedding = model.encode(text)
mh = MinHash(num_perm=128)
for dim in embedding.argsort()[-10:]: # 取最重要的10个维度
mh.update(dim.tobytes())
return mh
这种方法比传统n-gram重叠检测更能捕捉语义相似性,尤其适应威尔士语的形态学特点(如动词变位带来的表面差异)。
数据集采用指令微调的标准消息格式,每个样本包含:
json复制{
"messages": [
{
"role": "user",
"content": "Translate to Welsh:\nThe committee meets monthly"
},
{
"role": "assistant",
"content": "Mae'r pwyllgor yn cwrdd yn fisol"
}
],
"source_dataset": "EUbookshop"
}
这种结构可直接用于主流大语言模型的微调(如LLaMA、Mistral等),无需额外格式转换。
利用source_dataset字段,开发者可实现:
我们的实验显示,混合训练后模型在BLEU-4得分上达到:
我们建立了多维度的评估体系:
邀请双语专家对500个样本进行:
结果显示:
该数据集已成功用于:
我们正在推进三个方向:
一个特别有前景的方向是利用该数据集进行few-shot学习研究,初步实验显示:
我们采取以下措施确保项目可持续:
特别注意:
数据集发布6个月后,已有来自卡迪夫大学等机构的12个研究团队在使用,反馈显示: