作为计算机视觉领域的年度盛会,CVPR 2024延续了往届的高水准学术交流传统。今年会议共收到来自全球的12,800篇投稿,最终录用2,560篇,录用率维持在20%左右。从论文分布来看,生成式模型、3D视觉、视频理解等方向持续火热,同时涌现出不少跨模态研究的新突破。
会议选址美国西雅图,线下参会人数突破1.2万,创下历史新高。特别值得关注的是,今年首次设立了"Industry Challenge"赛道,吸引了包括Google、Meta、NVIDIA等科技巨头的积极参与,产学界融合趋势愈发明显。
Diffusion模型在图像生成质量上实现新突破,多篇论文聚焦于:
重要发现:当前最优的Stable Diffusion变体在COCO基准上FID分数已达3.2,接近真实照片水平
NeRF技术迎来重大改进:
Transformer架构在视频领域持续发力:
来自MIT的研究团队提出DiT架构:
python复制# 核心代码片段
class DiTBlock(nn.Module):
def __init__(self, hidden_size):
super().__init__()
self.adaLN_modulation = nn.Sequential(
nn.SiLU(),
nn.Linear(hidden_size, 6*hidden_size)
)
def forward(self, x, t):
shift, scale = self.adaLN_modulation(t).chunk(2, dim=1)
x = x * (1 + scale) + shift
return x
斯坦福大学提出的开放词汇3D理解框架:
今年最深刻的体会是:单纯追求benchmark提升的研究正在减少,更多工作开始关注实际应用场景中的真实需求。特别是在医疗、教育等垂直领域,计算机视觉技术正在产生实质性的社会价值。