今天要和大家深入聊聊最近在ICLR 2026和CVPR 2026上引起广泛关注的几篇重磅论文。作为计算机视觉和机器学习领域的两大顶级会议,这些研究成果不仅代表了当前技术的前沿方向,更预示着未来3-5年的行业发展趋势。我花了整整两周时间逐篇精读这些论文,下面就把其中最精华的四个创新点——RF-Mem、mHC、Proxy-GS和Audio MCQ——拆解给大家。
RF-Mem(Receptive Field Memory)这篇来自MIT和斯坦福合作的工作,从根本上重新思考了卷积神经网络中的感受野问题。传统CNN的感受野是固定且被动的,而RF-Mem创新性地引入了可学习的记忆单元来动态调整感受野。
具体实现上,论文在标准卷积层后增加了记忆模块,这个模块会:
在ImageNet-1k上的实验显示,RF-Mem-ResNet50比基准模型提升了4.2%的top-1准确率,而计算开销仅增加15%。更惊人的是在ADE20K语义分割任务上,mIoU提升了6.8个百分点。
实现要点:
python复制class RFMemBlock(nn.Module):
def __init__(self, in_channels, mem_size=64):
super().__init__()
self.mem_k = nn.Parameter(torch.randn(mem_size, in_channels))
self.mem_v = nn.Parameter(torch.randn(mem_size, in_channels))
self.gate = nn.Sequential(
nn.Conv2d(in_channels, mem_size, 1),
nn.Sigmoid()
)
def forward(self, x):
B, C, H, W = x.shape
attn = self.gate(x) # [B, mem_size, H, W]
mem = torch.einsum('bshw,sc->bchw', attn, self.mem_v)
return x + mem
注意事项:记忆尺寸(mem_size)需要根据输入通道数精心调整,实践中发现设为输入通道数的1/4到1/2效果最佳。
mHC(mixed Hierarchical Contrastive learning)提出了一种全新的自监督学习范式。与传统的对比学习只在一个层级(如图像级别)构建正负样本不同,mHC同时在三个层级进行操作:
关键创新在于设计了层次感知的负样本挖掘策略:
损失函数采用改进的NCE loss:
code复制L = α*L_patch + β*L_region + γ*L_image
其中α,β,γ是可学习的权重参数
在COCO数据集上的实验表明,mHC预训练的模型在下游检测任务上比MoCo v3提升了9.3%的AP50,特别是在小物体检测上表现突出。
Proxy-GS(Proxy-guided Gaussian Splatting)解决了神经渲染中的两大痛点:
其核心思想是:
在DTU数据集上的对比实验:
| 方法 | PSNR↑ | 训练时间↓ | 渲染FPS↑ |
|---|---|---|---|
| NeRF | 31.2 | 36h | 0.8 |
| 3DGS | 29.8 | 45min | 125 |
| Proxy-GS | 32.7 | 1.2h | 98 |
虽然渲染FPS略低于纯3DGS,但质量显著提升。论文还提出了自适应高斯核修剪策略,使得显存占用减少了40%。
Audio MCQ(Audio-guided Multi-modal Compositional Query)开创性地将音频信号作为视觉理解的引导信号。其架构包含三个关键模块:
在AudioSet-20K上的实验验证了其有效性:
特别值得注意的是其zero-shot能力:在未训练过的音频-视觉配对数据上,仍然保持73.4%的识别准确率。
实现时的关键技巧:
经过实际复现这些论文,我总结出几点重要经验:
RF-Mem的实现中,记忆单元的初始化非常关键。建议:
mHC对比学习要注意:
Proxy-GS在复现时最容易遇到的问题是高斯核过度增长,建议:
Audio MCQ的音频预处理特别重要:
这些技术虽然来自不同领域,但都有一个共同特点:都在尝试突破现有方法的范式限制。RF-Mem重新思考了感受野的本质,mHC打破了对比学习的单层局限,Proxy-GS在速度和质量间找到了新的平衡点,而Audio MCQ则开辟了跨模态学习的新路径。