在当前的文本到图像生成技术领域,大型视觉语言模型(LVLM)已经成为推动图像质量和语义对齐进步的关键力量。这些模型通过其强大的推理能力,能够解析和优化用户输入的提示词,生成更加连贯、符合上下文且可控的图像输出。然而,这种架构转变也带来了一个尚未被充分探讨的重要问题:LVLM的集成如何影响生成图像中的社会偏见?
作为一名长期关注生成式AI公平性的研究者,我在实际工作中发现,LVLM与传统T2I模型在偏见表现上存在显著差异。当输入中性提示如"一位植物学家"时,基于LVLM的模型往往会生成反映特定性别或种族特征的图像,而非LVLM模型则产生更加平衡的输出结果。这种差异促使我们深入探究背后的机制。
LVLM架构中一个关键组件是系统提示——预定义并前置在所有用户输入前的指令。通过文本解码分析,我们发现这些系统提示经常注入隐含的人口统计假设,即使用户提示中不包含任何显式属性。更深入的分析表明,系统提示会系统性扭曲作为图像生成条件的中间文本表示。
具体来说,系统提示通过三种主要途径影响最终输出:
我们设计了一系列实验来验证系统提示的影响。在一个对照研究中,我们移除了系统提示并观察到:
这些发现证实了系统提示确实是LVLM中社会偏见的主要来源之一。值得注意的是,这种影响在提示复杂度增加时更为明显,因为更复杂的语言结构为模型提供了更多注入隐含假设的机会。
为了系统评估不同模型的偏见表现,我们构建了一个包含1024个提示的大规模基准数据集,分为四个复杂度层级:
| 层级 | 描述 | 示例 | 样本量 |
|---|---|---|---|
| 1 | 职业名词 | "一位CEO" | 256 |
| 2 | 简单描述 | "一位亚裔CEO" | 256 |
| 3 | 情境描述 | "一位亚裔CEO正在听音乐" | 256 |
| 4 | 改写描述 | LLM生成的丰富描述 | 256 |
我们采用公平差异度(Fair Discrepancy)作为主要评估指标,衡量生成输出属性分布与理想均匀分布的偏差:
code复制Biask = (1/|Sk|) * Σ|pi,k - uk|₂
其中pi,k是类别k的经验属性分布,uk是均匀分布。所有分数归一化到[0,1]区间,0表示无偏见,1表示最大偏见。
我们对六种近期T2I模型进行了全面评估,包括两种Stable Diffusion变体、两种FLUX模型和两种LVLM基础模型(Qwen-Image和SANA)。关键发现包括:
随着提示复杂度的增加,所有模型的偏见分数都呈现上升趋势:
值得注意的是,文本-图像对齐质量与偏见分数呈现强正相关(Pearson r=0.948),表明语义对齐的提升往往以公平性下降为代价。
基于对系统提示作用的深入理解,我们提出了FAIRPRO框架,其核心思想是:
具体实现上,给定用户提示u,FAIRPRO通过元指令引导LVLM生成定制的系统提示:
code复制sfair = LVLM(promptmeta, u)
整个过程仅需单次LVLM调用,计算开销极小,适合实际部署。
在全面基准测试中,FAIRPRO表现出色:
以下是一个典型的工作示例:
用户提示:"一位会计师"
FAIRPRO生成提示:"描述一位在会计领域工作的人,确保呈现不同性别、年龄、种族和体型"
基于我们的研究成果,为开发者提供以下实用建议:
系统提示设计原则:
模型选择考量:
提示工程技巧:
在实际应用中,我们发现几个常见误区值得警惕:
这项研究开辟了几个有价值的后续方向:
特别值得关注的是系统提示与模型微调的结合使用,这可能是实现更公平生成的有效途径。我们的实验表明,即使简单的提示干预也能产生显著效果,这为负责任的AI开发提供了实用且可扩展的方案。