Afri-MCQA：非洲语言多模态问答基准构建与应用

陈慈龙

1. 项目背景与核心价值

非洲大陆拥有全球超过三分之一的语言种类，却长期处于人工智能研究的边缘地带。这种失衡不仅体现在数据资源的匮乏上，更反映在主流AI系统对非洲语言文化特征的理解缺失。现有的大语言模型（LLMs）和多模态模型（MLLMs）主要基于高资源语言（如英语、汉语等）进行训练，其知识体系和推理能力往往带有明显的"西方中心主义"倾向。

关键问题：当这些模型面对非洲语言时，不仅需要处理低资源语言的数据稀缺问题，还要克服文化背景差异带来的语义鸿沟。例如，许多非洲语言具有丰富的形态变化、名词类别系统和声调特征，这些特性在主流模型的训练中很少被充分考虑。

Afri-MCQA基准的建立直击三大痛点：

模态单一性：现有评测集多局限于文本模态，忽视了非洲语言以口语为主的传播特性
文化适配性：主流问答数据集的文化背景与非洲本土语境存在显著差异
评估维度缺失：缺乏同时考察语言理解能力和文化认知能力的综合评测框架

2. 数据集构建方法论

2.1 语言选择与地域覆盖

研究团队基于Ethnologue的语言人口统计数据，精选了12个国家的15种代表性语言，总覆盖人口约3.93亿。选择标准包括：

使用人口规模（从810万到7700万不等）
语言家族多样性（涵盖尼日尔-刚果、亚非等语系）
地域分布平衡（东非、西非、南部非洲）

markdown复制| 语言-国家        | 语系/分支          | 区域   | 使用人口(百万) |
|------------------|--------------------|--------|---------------|
| 阿姆哈拉语-埃塞 | 亚非/埃塞闪米特   | 东非   | 57            |
| 豪萨语-尼日利亚 | 亚非/乍得         | 西非   | 77            |
| 祖鲁语-南非     | 尼日尔-刚果/班图  | 南部   | 28            |

2.2 数据采集质量控制

采用三阶段质量保障流程：

标注者筛选：通过Upwork平台招募母语者，要求具备：
- 英语流利度（用于双语标注）
- 数据标注经验
- 居住在使用该语言的国家
双阶段标注：
- 培训阶段：50个样本的小规模试标注，淘汰不合格标注者
- 主标注阶段：通过考核的标注者完成剩余450个样本
专家审核：
- 设立语言协调员（母语语言学家）进行内容审核
- 团队最终复核确保文化适当性和语言准确性

2.3 多模态数据结构

每个数据点包含以下核心元素：

视觉素材：
- 优先采用标注者自采的原创图像
- 补充使用CC协议网络图片
- 覆盖10个文化相关类别（传统服饰、饮食等）
问答对：
- 每个图像生成最多3组问答
- 包含多选题（MCQ）和开放式两种形式
- 每个问题配备3个干扰项
语音数据：
- 母语者录制的问答音频
- 包含本土语言和非洲口音英语双版本
- 平均每个语言收集1.5-3小时语音素材

3. 技术实现与评测设计

3.1 模型选择策略

评测涵盖三类模型，重点关注：

开源模型：
- Qwen 2.5-Omni (3B/7B)
- Gemma-3n-(2B/4B)
- 考察模型规模对低资源语言的影响
闭源模型：
- Gemini-2.5 Pro
- 作为性能上限参考
纯文本基线：
- Gemma3 (12B/27B)
- 验证多模态信息的价值

3.2 多维度评测框架

3.2.1 核心实验设计

markdown复制1. 模态对比实验：
   - 文本VSA vs 语音VSA
   - 考察模态差异对性能的影响

2. 语言对比实验：
   - 英语查询 vs 母语查询
   - 区分语言理解与文化认知瓶颈

3. 任务形式实验：
   - 多选题 vs 开放式问答
   - 评估模型真实推理能力