1. 视觉美学评估的现状与挑战
美学评判一直是人类文化活动的核心组成部分。从古希腊时期对"最美者"的金苹果之争,到现代艺术评论家的专业点评,人类始终在探索如何定义和评价美。然而,随着AI系统在图像搜索、内容推荐和生成艺术等领域的广泛应用,机器正在越来越多地承担起美学评判的角色。
当前主流的美学评估方法存在一个根本性缺陷:它们过度依赖从众包平台收集的标量评分(如1-10分),然后将这些评分平均化作为"客观标准"。这种方法忽略了两个关键事实:首先,大众审美与专业审美之间存在显著差异;其次,美学评判本质上是比较性的,我们总是在特定语境下判断哪个作品更好,而非给单个作品打绝对分数。
专业提示:在艺术教育中,老师常让学生并排摆放两幅相似作品进行比较练习,这种方法能快速提升学生的审美敏感度。VAB基准正是借鉴了这一教学智慧。
2. VAB基准的设计理念
2.1 从标量评分到对比评估
VAB基准摒弃了传统的标量评分方式,采用成对比较(pairwise comparison)和集合比较(set-based comparison)的方法。这种设计有三大优势:
- 更贴近真实的艺术评判场景 - 艺术评论家在实际工作中也常采用比较方式评价作品
- 能捕捉更细微的美学差异 - 当比较相同主题的不同版本时,模型必须识别构图、用色等细节差异
- 减少绝对评分的模糊性 - "这幅画7分"远不如"这幅比那幅更好"来得明确
2.2 专业驱动的数据构建
VAB的整个构建流程都强调专业参与:
创作阶段:
- 与1000+专业艺术家合作
- 针对每个主题创作多个版本(如相同构图的不同色彩方案)
- 确保作品质量梯度:包含明显优劣和细微差异的案例
评判阶段:
- 邀请100+独立专家进行盲评
- 每组比较由10位专家评估
- 采用详细评分标准(构图、色彩、技法等)
- 只保留专家共识强烈的比较组(通常需要80%以上一致率)
注意事项:在筛选专家时,不仅要看资历,还要确保其审美观不过于独特。我们要求专家能代表所在领域的主流审美共识。
3. 基准数据集构建细节
3.1 三大视觉领域覆盖
VAB涵盖艺术作品、摄影和插画三大领域,每个领域又细分为多个主题:
艺术作品(426组)
- 包含国画、油画、素描等9个主题
- 示例:在"静物色彩"主题中,多位画家绘制同一组静物,差异仅体现在笔触、色彩搭配等执行层面
摄影(670组)
- 涵盖建筑、人像、风光等9个题材
- 通过两种方式创建变体:
- 专业摄影师对原片进行优化(重新构图、调色等)
- 使用图像生成模型产生语义一致但质量不同的版本
插画(250组)
- 包含动漫、概念艺术、像素艺术等6个风格
- 通过模块化提示词锁定内容要素,仅改变美学执行质量
- 对3D作品固定视角和光照,确保差异仅源自原始创作
3.2 数据质量控制机制
为确保基准的可靠性,VAB实施了严格的质量控制:
- 共识过滤:根据比较组大小设置不同的共识阈值。例如:
- 2图像组:至少8位专家同意
- 4图像组:需要更强的多数同意
- 随机排序测试:每个问题以三种不同选项顺序测试模型,减少位置偏差影响
- 去污染措施:大部分作品为全新委托创作,避免使用公开数据集已有内容
4. 评估方法与指标设计
4.1 两种任务设置
VAB设计了两种评估模式:
Top-1识别:
- 从一组候选图像中选出最佳的一个
- 测试模型识别优秀作品的能力
Top & Bottom识别:
- 同时识别最佳和最差作品
- 更严格地测试模型对完整美学谱系的理解
4.2 核心评估指标
pass^3:
- 最严格的指标
- 要求模型在三种不同排序下都给出正确答案
- 能有效过滤掉靠运气或受选项顺序影响的正确回答
ap@1:
- 计算三种排序下的平均准确率
- 反映模型的整体表现,不考虑跨排序一致性
实测心得:pass^3指标虽然严苛,但能真实反映模型的美学理解深度。我们发现很多模型在单一排序下表现尚可,但一旦打乱选项顺序,准确率就大幅下降。
5. 关键发现与模型表现分析
5.1 总体表现差距
当前最先进的AI模型与人类专家在美学评判上仍存在显著差距:
- 最佳模型(Claude Sonnet 4.6)准确率:26.5%
- 人类专家基线准确率:68.9%
- 随机猜测预期准确率:随问题复杂度变化,通常在10-25%之间
值得注意的是,模型表现并不总是随版本迭代而提升。例如GPT-5系列在VAB上的表现呈现下降趋势:
- GPT-5: 21.8%
- GPT-5.1: 20.0%
- GPT-5.2: 15.5%
5.2 跨领域表现差异
模型在不同视觉领域的表现存在明显差异:
| 领域 |
最佳模型准确率 |
人类基线 |
| 艺术作品 |
34.2% |
74.7% |
| 摄影 |
30.2% |
65.4% |
| 插画 |
19.0% |
54.4% |
插画领域表现最差可能源于:
- 风格多样性更高
- 非现实性特征更难评估
- 专业插画评判标准更为主观
5.3 候选集大小的影响
模型表现随候选图像数量增加而急剧下降:
| 候选数量 |
最佳模型准确率 |
人类专家 |
| 2 |
47.3% |
87.1% |
| 3 |
28.1% |
72.6% |
| 4 |
6.7% |
43.6% |
这种差距表明:
- 人类能同时处理多个作品间的复杂关系
- 当前模型更擅长二元比较,难以维持连贯的多作品排序
6. 实践启示与未来方向
6.1 对AI艺术应用的启示
- 谨慎使用AI作为唯一的美学评判者
- 在重要决策点引入人类专家复核
- 避免完全依赖AI生成内容的美学评分
6.2 可能的改进方向
数据层面:
- 扩大专业评估的覆盖领域
- 增加文化多样性样本
- 收集更细粒度的评判理由
模型层面:
- 开发专门的美学评估架构
- 融入艺术理论和历史知识
- 增强跨作品比较能力
评估层面:
- 设计动态难度调整机制
- 加入时间压力测试(模拟快速评判)
- 评估模型评判标准的一致性
在实际应用中,我们发现一个有趣现象:当要求模型解释其选择时,其理由往往与人类专家关注点不同。模型更倾向于谈论技术特征(如对称性、对比度),而人类专家则更多考虑情感表达和创作意图。这种差异或许揭示了当前AI美学评估的局限性所在。
美学评判的本质或许永远无法完全量化,但通过VAB这样的基准,我们至少可以更清晰地界定机器与人类在这方面的能力边界。对于从事AI艺术相关工作的实践者,我的建议是:将模型的美学评估视为参考而非绝对标准,在关键决策点保持人类专家的参与,并持续关注评估技术的发展。