视觉分词技术作为计算机视觉领域的基础任务,其发展历程经历了从单模态到多模态、从单一任务到多任务的演进过程。传统视觉分词器通常专注于单一模态(如图像、视频或3D)或单一任务(如重建或理解),这种局限性导致视觉表示呈现碎片化状态,无法实现跨模态的知识迁移和协同优化。
在图像领域,早期的VAE和VQ-VAE模型通过编码器-解码器架构实现了图像到潜在空间的映射,但这些方法往往难以兼顾重建质量与语义理解。视频处理则面临更大的挑战,传统方法通常将视频视为图像序列进行处理,忽视了时间维度的连续性特征。3D视觉领域更是长期缺乏有效的通用表示方法,不同3D表示形式(如点云、网格、体素等)之间的转换成本高昂。
ATOKEN的核心创新在于提出了统一的4D稀疏表示空间(t,x,y,z),其中不同模态自然占据各自的子空间:图像使用(t=0,z=0)的2D平面,视频扩展至时间维度(t,x,y,z=0),3D资产则占据空间维度(t=0,x,y,z)。这种表示方式通过空间-时间块嵌入实现,每个输入被分割为非重叠的t×p×p块,然后通过共享线性层投影到初始嵌入。
技术实现上,4D RoPE(旋转位置编码)的应用尤为关键。与传统2D位置编码不同,4D RoPE在注意力层中为每个维度计算旋转矩阵,使得模型能够感知4D空间中的相对位置关系。具体公式表示为:
code复制Rθ,d = [[cosθ, -sinθ], [sinθ, cosθ]] (d ∈ {t,x,y,z})
其中θ根据位置索引和维度特征长度计算得到。这种设计既保留了SigLIP2的语义先验,又实现了跨模态的统一处理。
ATOKEN采用纯Transformer架构,包含27个Transformer块,隐藏维度d=1152,16个注意力头。编码器基于预训练的SigLIP2模型进行扩展,主要修改包括:
解码器则从零开始训练,包含特定任务头:
传统视觉分词器通常依赖GAN训练来提升重建质量,但ATOKEN发现这种方案在Transformer架构中存在严重不稳定性。通过分解rFID误差,团队发现86.6%的误差源于协方差分量(纹理/风格),仅13.4%来自均值特征。这一洞察促使他们设计了包含四项关键损失的训练目标:
code复制L = 0.2*Lrec + 1.0*Lsem + 1e-8*LKL
Lrec = 1.0*L1 + 10.0*LPIPS + 1e3*LGram + 1.0*LCLIP
其中Gram矩阵损失的计算方式为:
code复制LGram = Σ∥FlFl^T - F̂lF̂l^T∥_F^2
(Fl表示第l层特征图,F̂l为重建特征)
为确保大规模训练的稳定性,ATOKEN采用了多项创新技术:
ATOKEN的训练分为四个渐进阶段,每个阶段都保留前一阶段的能力:
图像基础(200k步):
视频动态(200k步):
3D几何(50k步):
离散量化(100k步):
令人惊讶的是,多模态训练不仅没有造成性能损失,反而提升了单模态能力。在ImageNet上,图像重建质量随训练阶段持续提升:
这表明不同模态间存在有益的协同效应,3D的几何理解能力和视频的时间建模能力都能增强图像表示。
ATOKEN在三大模态上均达到SOTA或接近SOTA水平:
| 模态 | 指标 | ATOKEN-C | 最佳竞品 | 提升幅度 |
|---|---|---|---|---|
| 图像 | rFID↓ | 0.21 | UniTok 0.36 | +41.7% |
| ImageNet Acc↑ | 82.2% | 83.5% | -1.3% | |
| 视频 | rFVD↓ | 3.01 | Wan2.2 3.19 | +5.6% |
| MSRVTT R@1↑ | 40.2% | - | - | |
| 3D | PSNR↑ | 28.28 | Trellis 26.97 | +4.9% |
| 分类Acc↑ | 90.9% | - | - |
ATOKEN的统一表示使其在多种下游任务中表现出色:
尽管ATOKEN取得了显著突破,但仍存在一些待改进之处:
未来可能的发展方向包括:
在实际部署中,我们发现KV缓存机制对长视频处理尤为关键。例如处理5分钟视频(9000帧)时,通过16帧块处理配合KV缓存,可将内存占用降低8倍,同时保持时序一致性。这种优化使得ATOKEN在有限资源下也能处理实际应用中的长时内容。