BHI方法优化单图超分辨率数据集质量

人间马戏团

1. 项目概述：基于BHI方法的单图超分辨率数据集过滤

作为一名长期从事图像超分辨率（Single Image Super-Resolution, SISR）模型训练的研究者，我经常面临一个核心矛盾：训练数据集的规模与质量如何平衡？过去一年里，我训练发布了超过100个基于不同架构的SISR模型，包括MoSR、RealPLKSR、DRCT等15种以上结构。这些实战经验让我深刻认识到：数据质量对模型性能的影响往往被低估。本文将分享我开发的BHI（Blockiness, HyperIQA, IC9600）数据集过滤方法，它能将DF2K数据集缩减69%的同时提升模型验证指标。

2. 技术背景与核心挑战

2.1 超分辨率训练的数据困境

在SISR领域，DIV2K和Flickr2K组成的DF2K数据集是公认的基准训练集。但实际使用中发现两个关键问题：

隐式质量缺陷：约3-5%的图像存在明显JPEG块效应或模糊
信息密度不均：部分图像区域复杂度不足（如纯色背景）

注意：直接使用原始数据集会导致模型学习到压缩伪影，这在Real-ESRGAN等经典论文中已被证实

2.2 现有解决方案的局限

传统处理方法主要依赖人工筛选或简单启发式规则：

人工筛选：耗时且主观性强
基于PSNR的过滤：无法捕捉人类视觉敏感的质量特征
纯复杂度过滤：可能剔除高语义价值的简单结构

3. BHI方法设计原理

3.1 三维评估指标体系

BHI方法通过三个正交维度评估图像质量：

维度	评估指标	作用	阈值选择依据
压缩伪影	Blockiness	检测JPEG块效应	Rethinking SR论文中的实验数据
视觉质量	HyperIQA	评估模糊/噪声/畸变	本文的阈值实验
信息复杂度	IC9600	量化纹理/边缘/结构丰富度	收敛速度与指标平衡

3.2 关键技术实现

3.2.1 Blockiness检测

采用基于DCT系数分析的算法：

python复制def calculate_blockiness(image):
    # 提取8x8块边界差异
    blocks = view_as_blocks(image, block_shape=(8,8))
    horizontal_diff = np.mean(np.abs(blocks[:,1:] - blocks[:,:-1]))
    vertical_diff = np.mean(np.abs(blocks[1:,:] - blocks[:-1,:]))
    return (horizontal_diff + vertical_diff) / 2

阈值设定为30，这与CVPR 2022《Rethinking Image SR》论文中的实验结论一致。

3.2.2 HyperIQA质量评估

使用预训练的ResNet50基础模型：

bash复制python -m pyiqa -m hyperiqa -i ./dataset -o ./scores.csv

关键发现：仅剔除得分<0.2的底部1%图像即可提升指标，过高阈值反而损害性能。

3.2.3 IC9600复杂度分析

基于图像梯度直方图和色彩分布特征：

python复制ic9600 = IC9600Calculator()
scores = []
for img in tqdm(dataset):
    scores.append(ic9600.compute(img))

实验显示0.4-0.5是最佳阈值区间，可保留足够训练样本同时提升信息密度。

4. 完整实施流程

4.1 数据准备阶段

图像分块处理（512x512）

bash复制python tile_dataset.py --input ./DF2K --output ./tiled --size 512

生成LR图像（双三次下采样）

python复制from PIL import Image
lr_img = img.resize((w//4, h//4), Image.BICUBIC)

4.2 过滤执行步骤

并行计算三项指标

应用复合过滤条件：

sql复制SELECT * FROM images 
WHERE blockiness < 30 
  AND hyperiqa >= 0.2 
  AND ic9600 >= 0.4

生成清洗后数据集

4.3 模型训练配置

使用PLKSR-tiny架构的典型参数：

yaml复制# config_plksr.yml
optimizer:
  type: AdamW
  lr: 1e-4
  betas: [0.9, 0.99]

scheduler:
  type: MultiStepLR
  milestones: [60000, 120000]

loss:
  type: L1Loss
  weight: 1.0

5. 实验结果与分析

5.1 DF2K数据集测试

模型类型	数据量	PSNR↑	SSIM↑	DISTS↓	训练时间
原始数据集	21,387	28.71	0.823	0.142	48h
BHI过滤后	6,620	29.03	0.831	0.138	22h
仅HyperIQA过滤	18,477	28.89	0.827	0.140	42h

关键发现：

验证指标全面提升（PSNR +0.32dB）
训练效率提高54%
DISTS指标改善表明视觉质量提升

5.2 跨数据集验证

在ImageNet和LSDIR数据集上重复实验：

ImageNet结果：
- 原始：197,436张 → BHI：4,505张（2.3%）
- PSNR提升0.18dB（需调整blockiness阈值至90）
LSDIR结果：
- 原始：179,006张 → BHI：116,141张（64.9%）
- 指标保持稳定（SSIM波动<0.005）

6. 实战经验与避坑指南

6.1 阈值选择技巧

Blockiness：30-50适用于多数场景，对老旧数据集可放宽至90
HyperIQA：0.2-0.3是最佳区间，超过0.5会导致数据匮乏
IC9600：0.4-0.5平衡最好，但需考虑：
- 动漫类内容可降至0.3
- 医学图像需提高到0.6

6.2 常见问题解决

问题1：过滤后数据量过少

解决方案：合并多个数据集的BHI过滤结果

示例命令：

bash复制python merge_datasets.py DF2K-BHI ImageNet-BHI --output merged-BHI

问题2：指标波动大

检查项：
1. LR生成是否一致（建议固定随机种子）
2. 验证集是否包含过滤掉的图像类型
3. 分块时是否发生信息泄露

问题3：复杂场景性能下降

调整策略：

python复制# 动态调整IC9600权重
if is_complex_scene(img):
    ic9600_threshold *= 0.8

7. 扩展应用与未来方向

当前成果已应用于我的三个实际项目：

FaceUp人脸超分模型：在FFHQ数据集上应用BHI，使推理结果的眼部细节提升23%
游戏纹理增强：配合DX1压缩模拟，减少马赛克效应
医学图像处理：调整阈值后用于CT图像超分

值得探索的延伸方向：

结合语义分割进行内容感知过滤
开发针对视频超分的时域一致性指标
研究损失函数组合与BHI的协同效应

经过半年多的实践验证，BHI方法已成为我个人工作流的标准预处理步骤。最近在训练一个新的SPAN架构模型时，仅用常规数据集30%的数据量就达到了原有性能指标，这再次验证了数据质量重于数量的核心观点。建议读者先从DF2K数据集开始尝试，相关代码和预计算分数已开源在GitHub仓库。

已经到底了哦